蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA

白交
2025-06-23
21:22:52

来源：量子位

首创 C3PO 强化学习训练方法

蚂蚁百灵团队轻量级推理模型Ring-lite——

在多项推理榜单（AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等）实现了轻量级推理模型的SOTA效果，比肩3倍激活参数大小的10B以下 Dense 模型，再次验证了 MoE 架构的推理潜力。

它是以此前百灵开源的MoE架构Ling-lite-1.5（总参数16.8B，激活参数仅2.75B）为起点，然后再凭借独创的C3PO 强化学习训练方法训练而成。

此外，Ring-lite还探讨了RL训练稳定性、Long-CoT SFT和RL的token分配、多领域任务联合RL训练等推理模型的技术难题，并形成 Ring-lite 的三大项目技术创新。

他们分别是：

首创 C3PO 强化学习训练方法，直击RL训练中回复长度波动导致的优化难题。相比传统方法，显著改善了在RL训练中由于生成回复长度的大幅波动带来的优化不稳定和吞吐波动问题。
探讨了Long-CoT SFT与RL的黄金训练比重。从token efficiency角度提出基于entropy loss来平衡训练效果和样本效率的方案，token效率较纯RL和纯SFT大大提升。
直面多领域数据联合训练难题！系统验证混合训练与分阶段训练的优劣边界，在数学+代码+科学三重领域实现协同增益。

轻量级推理模型Ring-lite实力如何？

团队选取了业界代表性的轻量级推理模型做对比，包括Qwen3-8B,AceReason-Nemotron-7B,DeepSeek-R1-Distill-Qwen-14B。

采用了最常用的复杂推理榜单做横向对比评估，效果如下：

数学推理：
AIME24得分76.61、AIME25得分69.11，均超过对比模型。

编程竞赛：
LiveCodeBench得分60.66,CodeForces(按百分比)得分86.45，领先对比模型。

科学推理：
GPQA-diamond得分61.05，与对比最好模型基本持平。

综合上述榜单的平均得分超过所有对比模型，而Ring-lite只使用了2.75B的激活参数。

此外，团队还测试了Ring-Lite在2025年高考数学和物理题上的表现。

比如在诸多模型都测试过的数学全国一卷上，Ring-lite可以获得130分左右的成绩（测试了几次，成绩分布在126~138之间）。

△2025年高考物理北京卷第十七题测试

主要技术亮点

稳定强化学习训练的C3PO

在经过Long-CoT SFT之后的模型上进行GRPO训练的过程中，团队观察到严重的训练不稳定情况，主要表现在策略模型的梯度范数（Gradient Norm）波动较大且系统吞吐也有明显波动，并且在一定的训练步数之后reward大幅下跌无法恢复。

如下图a所示，基于不同的训练轮数(epoch)的SFT模型做RL训练，都会出现训练崩溃现象，但崩溃的step不同，SFT训练轮数越少崩溃发生越晚。同时观察到entropy与奖励的崩溃表现出较强的相关性，SFT训练越多，RL训练阶段起点entropy越低(图b)，更容易导致训练崩溃。

经过分析发现，GRPO在训练过程中的长度波动与梯度范数波动和系统吞吐波动呈现出较强的相关性，因为长度变化会直接影响到优化器在每个训练step接收到的token数。

针对这一问题，他们提出了
C3PO(Constrained-Contexual-Computation Policy Optimization)强化学习训练方法，通过固定每个step传给优化器的总训练token数来稳定训练端的梯度范数和系统吞吐。

虽然这一方法会丢弃一些训练token，但通过合理的训练token选择策略，可以有效避免效果下降的问题，并取得训练和系统吞吐稳定的优势。下图是对C3PO方法和常用的样本级别(sample-level)的训练策略做了对比，样本级的过滤策略无法保证单个step的训练token数一致，只能保证样本量一致，而C3PO则强制保证token数一致。

由于梯度范数的波动受长度下降影响更大，他们做了对比实验来观察C3PO相比GRPO在这一问题上的表现。

如下图所示，当response-length出现下降时(图a)，Policy的梯度范数(GradNorm)开始出现上涨趋势(图b)，带来了优化的不稳定，并潜在导致reward的下跌(图c)。同时在response-length下降时，整个系统的吞吐也呈现下降趋势(图d)。 C3PO由于固定了token-level的训练budget，整体表现更稳定。进一步结合基于熵（entropy loss）来选择Long-CoT SFT之后用来做RL训练的起点模型，解决了reward突发的大幅下跌问题。

从token efficiency角度分配SFT和RL的训练比重

Long-CoT SFT + RL的两阶段训练一个自然的问题是如何分配两阶段的训练比重，涉及到包括数据分配，算力分配等问题。业界虽然有两阶段训练方案，但缺少一些理论分析和实践建议。

他们从token efficiency的角度出发来分析该问题，我们认为达到相同训练效果的SFT + RL总token数越少token efficiency越高，反之越低。因此，可以用RL tokens / SFT tokens 来量化二者之间的权衡，进而找到一个策略能更好地实现效果和token efficiency的平衡，相比单纯Long-CoT SFT和单纯RL都更有优势。

实验发现，直接通过SFT模型的benchmark指标来选择用于RL训练的base模型并非最优方案，且容易引发前面提到的模型奖励骤降问题。他们发现存在某种分配方案，可以得到更好的效果和token efficiency权衡（如下图）。

在实践中通过entropy loss范围来选择合适的SFT模型作为起点模型，可以取得比较接近图中所示的效果和token efficiency权衡。

分阶段训练缓解跨领域任务冲突

在 Ring-lite 的训练中我们采用了数学、代码、科学任务的联合训练方案，发现直接混合多个任务进行训练相比只训练单个任务都会存在一定的分数下降，在多个模型上进行了实验都能观察到这一现象。如下表，在Ring-lite，基于Ring蒸馏数据训练的Qwen，以及Deepseek蒸馏的Qwen模型均看到类似现象。

团队最终采用了分阶段的方式（先训练数学任务，再进行代码和STEM任务的混合训练）进行了最终的训练，相比直接混合能更好的缓解领域冲突问题。

高质量的Long-CoT和RL训练数据

他们构建了大规模高质量的长推理链数据和强化学习训练数据集。

在数据构建方面，采用”开源整合+自主采集”的双重策略：不仅系统整合了数学、编程、自然科学等领域的高质量公开数据集，还针对性补充了大量各学科竞赛真题，包括国际奥林匹克竞赛、ACM编程竞赛等权威赛事的历年试题，确保数据的专业性与挑战性。

在数据处理环节，建立了多阶段数据质量管控体系，包含低质过滤、语义去重、去污清洗、专家审核等流程，有效保障数据质量。

在数据管理层面，实现了样本级别的精细化管理，每个数据样本均标注多维属性标签，包括数据来源、学科主题、适用学段以及基于模型通过率的难度系数等。

基于这些充分的打标信息，通过强化学习算法进行动态数据采样，优化训练数据领域融合，显著提升了模型训练效率和在复杂推理任务的效果。

Long-CoT SFT数据

为激活基础模型的推理能力，他们构建了具备长链思维（Long-CoT）的高质量数据集。通过整合开源题库与LLM生成内容，采用”自动生成-专家标注-拒绝采样”的迭代优化流程，并经过严格清洗（去除重复/混杂语言等噪声），最终形成以数学（64.5%）、编程（25.5%）和科学（9.2%，含Ling team自研的科学数据合成方法“SHARP”生成的高难度样本）三大领域为主体的多学科推理数据集，为后续强化学习训练提供了良好基础。

RL数据

数学
通过整合开源数据集（如BigMath、DeepScaleR等）和自主收集的考试题/竞赛题（如AoPS网站题库），经过严格清洗筛选，最终构建了包含73,000多道高质量数学题的强化学习数据集。

代码
数据集精选自CodeContest、TACO、APPS等开源编程竞赛平台及QOJ在线评测系统，通过多阶段过滤（包括格式修正、沙箱验证AC代码、剔除低效算法和重复题），最终形成包含14,000个代码样本的高质量数据集，每个样本均附带可执行解决方案和已验证测试用例。

科学
科学领域精选奥赛/硕博考试等高阶人工标注题库，经严格验证后形成3,833道优质科学推理题集。

强化学习的训练稳定性突破只是AI进化路上的一小步。

他们相信，未来的AI训练不应只是冰冷的参数优化，而应该像人类学习一样——既能把握节奏，又能灵活调整，在稳定中持续精进。

基于这一理念，他们将在C3PO的探索上更进一步，主要有两个方面的计划：

动态学习节奏，不再全程固定token Budget，而是让模型像学生一样，随着“学习能力”的提升逐步增加token budget，减少知识浪费，让每一步训练都物尽其用。

端到端协同优化，不仅关注训练测稳定性，更让C3PO的稳定训练机制贯穿训练与推理阶段，解决推理测长尾生成带来的效率瓶颈。

未来，期待RL的训练不再受限于系统吞吐的波动，而是像真正的智能体一样，在稳定中成长，在成长中突破，最终成为推动AI能力边界不断拓展的核心引擎。

Tech Report：
https://arxiv.org/abs/2506.14731

GitHub：
https://github.com/inclusionAI/Ring

Hugging Face：
https://huggingface.co/inclusionAI/Ring-lite

ModelScope：
https://modelscope.cn/models/inclusionAI/Ring-lite

2025 年 6 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA

轻量级推理模型Ring-lite实力如何？

△2025年高考物理北京卷第十七题测试

主要技术亮点

稳定强化学习训练的C3PO

从token efficiency角度分配SFT和RL的训练比重

分阶段训练缓解跨领域任务冲突

高质量的Long-CoT和RL训练数据

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定