7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

432次阅读
没有评论

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

让教师模型“教学”而不是“解决”

不圆 发自 凹非寺

量子位 | 公众号 QbitAI

Thinking模式当道,教师模型也该学会“启发式”教学了——

由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI,带着他们的新方法来了!

这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

用Sanaka AI的新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效。

训练比自己大3倍的学生模型也不在话下。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

对此有网友评价:我们刚刚才意识到,最好的老师不是间里最聪明的人。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

像人类老师一样

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

许多高级推理模型,如DeepSeek-R1,遵循两阶段的训练过程:首先训练教师模型,然后使用其输出训练学生模型,最终产品为学生模型。

传统上,这些教师模型通过昂贵的强化学习(RL)进行训练,模型必须从头学习解决复杂问题,只有在得到正确答案时才会获得奖励:

先让教师模型得到问题的答案,再把答案仔细过滤并重新用作学生模型的训练数据。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

这种方法缓慢、昂贵且往往过于偏狭,过于依赖教师模型自身能力。因为教师模型拿到的仅仅只有问题,它们需要自己思考给出结果。

而Sanaka AI的新方法不再通过解决问题来教学,而是让新的强化学习教师(RLTs)“学会教学”

要求它们根据已知解决方案输出清晰的逐步解释,就像优秀的人类教师一样。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

就像一位好教师不需要重新发现数学定理来解释它们一样,RLTs在输入提示中既获得问题的内容,也获得每个问题的正确答案

它们的任务是提供有助于学生模型学习的、逐步的详细解释,从而连接这些知识点。如果学生模型能够根据教师对问题的解释轻松理解正确解决方案,那么这就是RLTs做得好的信号。

也就是说,对RLTs的奖励不再是能自己解决问题,而是能解释对学生模型有多有帮助。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

Sanaka AI的新方法解决了传统方法中的两个问题:

首先,新方法的训练循环使教师训练与其真正目的(为学生进行蒸馏/冷启动提供帮助)保持一致,从而大大提高了效率。

其次,将问题和正确答案同时输入RLT,能帮助原本无法独立解决问题的小型模型学会教学。

这些特性使Sanaka AI的新方法能更快、更经济、更有效地训练出具有强大推理能力的学生模型。

小型教师模型的“不合理但有效”

为了验证新方法的有效性,Sanaka AI用新方法训练了一个7B的RLT小模型作为教学模型与此前最先进的方法进行比较。

竞争方法使用规模更大的模型,如DeepSeek-R1和QwQ,并结合GPT-4o-mini等工具在用于训练学生模型之前清理其输出,以获得额外帮助。

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

结果发现:使用相同的Qwen2.5学生模型、相同的问题以及相同的评估设置,RLT以远少的计算量取得了比DeepSeek-R1和QwQ更好的效果。

把学生模型的规模扩大,结果同样令人惊讶:7B的RLT成功训练了一个32B的学生模型,其规模是自己四倍以上,并取得了优异的成果。

Sanaka AI的新方法还可以和传统RL方法相辅相成:

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

上图展示了在2024年美国邀请数学考试(AIME)、竞赛数学和研究生级问答基准(GPQA)上的平均性能。

新方法和传统RL方法联合使用,使RLT获得了改进性能,并补充了传统RL方法在问题解决方面的应用。

用作起点时,RLT帮助学生模型达到了更高的性能水平。

从成本角度来看,差异非常显著:使用RLT训练32B的学生模型仅需单个计算节点一天时间,而传统RL方法在相同硬件上需要数月。

一项定性分析揭示了RLTs提供的解释与Deepseek-R1的蒸馏轨迹之间存在一些差异:

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

Deepseek-R1的输出常常依赖于外部工具,例如计算器、网络上的讨论以及玩梗,包括一些具有误导性的内容。

相比之下,RLT提供的解释避免了令人困惑的语言,并增加了额外的逻辑步骤来帮助学生。

这些直观的改进能够转化为学生语言模型的改进学习,像人类专家一样简洁且清晰。

参考链接:
https://x.com/SakanaAILabs/status/1936965841188425776
博客:https://sakana.ai/rlt
论文:https://arxiv.org/abs/2506.08388
代码:github.com/SakanaAI/RLT

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...