大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

602次阅读
没有评论

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码

o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计

那么,想提升大模型在其他学科领域的能力该怎么办?

腾讯&苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。

RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

除论文外,还开源了奖励模型和多学科数据集。

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

7B奖励模型搞定全学科

研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。

这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。

像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。

于是研究团队进一步引入基于模型的软奖励(model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判断的置信度打分,有了更高的灵活性。

受启发于“大模型判断高度一致”的发现,团队用72B参数的Qwen2.5-Instruct蒸馏出一个7B的奖励模型。蒸馏过程不需要领域特定的标注,完全依靠在线探索阶段采集的数据进行训练。

整个过程分为3步流水线

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

实验数据从ExamQA中随机采样了6000个问题,广泛分布于理工人文各学科。

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

实验对比基础模型(Base)、微调基础模型(SFT)、基于规则的RL、使用SFT模型作为验证器,以及本文蒸馏的RM-7B模型作为验证器的多种方法,有以下结论:

  • RM-7B在自由形式答案任务中表现出色
  • 基于模型的奖励在处理非结构化参考答案场景中优于基于规则的奖励
  • 软奖励在处理多学科任务中,面对复杂判断时比二元奖励表现更好
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

此外实验还验证了基于模型的奖励在数据量增加时可扩展性更好。

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

在讨论部分,作者指出本研究中未使用思维链推理(CoT),虽然CoT在有参考和无参考的场景中都有用,但对于评估同语言的参考答案和模型响应之间的语义等价性,深入的推理依据是否必要仍有待研究。此外,在RLVR的过程奖励建模中,当中间步骤缺乏直接监督时,如何分配奖励也是一个开放问题。

本研究也不对参考答案或模型响应设置格式约束,这样做好处是减少了数据标准化和模式设计的人力投入,但格式相关约束和奖励在这种情况下的作用仍需重新审视。

One More Thing

论文作者腾讯涂兆鹏发帖介绍了这篇文章,探讨强化学习是否可以扩展到数学和编码任务之外。

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

评论区有网友指出很有可能成立,因为不同的训练方法可以看成有不同边界条件的学习空间。

涂兆鹏也认为这个视角与RLVR方法的观点一致。

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

论文地址:
https://arxiv.org/abs/2503.23829

HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f

参考链接:
[1]https://x.com/tuzhaopeng/status/1906975869538914570

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...