01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

1,079次阅读
没有评论

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

经验不再是唯一筹码,好奇心与执行力才是通行证

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

一个超越DeepSeek GRPO的关键RL算法出现了!

用上该算法后,Qwen2.5-32B模型只经过RL训练,不引入蒸馏等其他技术,在AIME 2024基准上拿下50分,优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen,且DAPO使用的训练步数还减少了50%。

这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现开源

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

Qiying Yu,何许人也?

量子位搜罗网络公开资料,整理出以下信息:

禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

我们还从知情人士处得知了禹棋赢的另一重身份——

在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中,禹棋赢是唯一的实习生。

虽然是实习生,但在这个大神云集的小组里,禹棋赢被委以重任,直接负责RL方向的研究

凭什么?

事情要从去年夏天说起。

去年10月,他在字节第一个跑出aha moment

去年5月,字节启动「Top Seed人才计划」,最终录取多名应届和在读博士组成史无前例的AI研究团队,禹棋赢就在其中。

为期2个月的warm up landing(类似可自由探索的适应期)后,禹棋赢锚定了自己的方向——大语言模型推理。

几乎定下方向的同时,禹棋赢就和mentor王明轩确定,要做一个聪明的强推理能力模型。

这事儿和豆包大模型主团队的项目并行推进,主要是禹棋赢一个人在探索。

更为关键的是,看到“采样更多,弱模型准确率也可以很高”的现象后,他坚定以及肯定要用RL来做

不久之后的9月,RL与CoT结合使逻辑准确性和泛化能力大幅提升的OpenAI-o1就出现了。

方向没错!那就“沿这条路一直往后做”。

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

知己知彼,百战不殆。禹棋赢开始花式拿o1跑case,比如挨个做IMO题(其中部分题目得到答案不难,严谨的证明过程才是得分点)。

不跑不要紧,一跑起来问题就暴露了。

o1能给出正确答案,但是证明过程缺乏。

基于此,禹棋赢和团队当时就赌了一把,判断o1是纯基于outcome supervision train出来的。

于是乎,禹棋赢get了一个与当时主流思路不同的强烈技术信号:

用outcome based reward去做 RL

就这么干吧!接着就是基于字节内部小模型和内部代码库,用很少的GPU、学术界开源数据集,疯狂迭代、疯狂跑。

这一干还真给他干出东西来了——

一开始,能把小模型的数学能力提升几十分,超过内部最大、最强的模型。

后来,禹棋赢几乎每天都会发现模型涌现出一些新能力,一些此前大伙儿一直想让它有、但又可望不可即的能力。

现在,不需要构造任何东西,只需要通过RL,模型自己就能把这些能力涌现出来,甚至涌现复杂的类o1的推理能力

以至于那段时间禹棋赢非常兴奋,每天拽着王明轩疯狂讨论到深夜。

他自己更是直接在会议室摆了张床住在公司。

虽然他和床的关系,在那1个多月里其实是这样的:半夜12点能躺下,但兴奋得根本睡不踏实,凌晨2点又爬起来写代码,可能5点多一个idea灵感乍现就又爬起来。

基本上每一夜都非常兴奋地起来好几次,就这么醒醒睡睡,也不觉得累。

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

此处出现了一个关键的时间节点。

“大概十月十几号,我们发现要模型输出非常复杂的数学公式时,它会说This is very difficult and seems to lead a very complicated equation. Let’s try another approach。”禹棋赢觉得大模型这个反思过后换思维的行为很有灵性。

屏息凝神,他和王明轩盯着屏幕反复确认,最终认定——这就是他们所追求的能力的雏形!

根据截图,当时他们在文档里敲下这么一段话:

非常有意思。更加坚定地相信Outcome-based RL一定能激发出非常厉害的行为!!!

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

没错,DeepSeek-R1引人注目的Aha Moment(顿悟时刻),禹棋赢在去年10月在字节内部跑通了。

据说,此后,禹棋赢被邀请进入LLM攻坚小组,并委以「负责RL方向」的重任

下一战,“研究清楚RL的scaling规律”

以上细节,来自最近互联网冲浪时在一个知乎话题下的意外发现。答主匿名,分享了在字节大模型团队Top Seed实习的经历,从事RL方向。

经量子位求证确认,该答主就是禹棋赢。

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

沿着这条脉络,我们在互联网上搜集整理了禹棋赢的更多“战绩”

据HIT计算学部团委公众号资料,禹棋赢是哈尔滨工业大学2018级本科生。

他以材料专业入学,中途转到计算机科学与技术专业,主要研究方向为自然语言处理。

按照目前资料来看,这应该是名天赋型选手——大二才开始学编程,但同年就加入了博导车万翔的科研团队。

大四时,禹棋赢在左旺孟教授团队以一作身份在ECCV上发表了一篇论文。

本科毕业后,禹棋赢直博清华,现在清华AIR博三在读。

此前,他曾先在智源实习,作为核心作者产出了Emu、EVA-CLIP系列工作,跟随的mentor是曹越(前光年之外联创)和王鑫龙(智源研究院视觉模型研究中心负责人)。

去年5月字节开启Top Seed计划后,他在6月通过校企合作项目入选,成为首批Top Seed成员。

量子位获悉,和禹棋赢同期的Top Seed实习生还有两届IMO满分选手、LLaDA一作、 Buffer of Thoughts一作等人

这里补充一句,前面我们提到过禹棋赢的mentor王明轩,就是去年量子位率先曝光的字节大模型关键8人之一。

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

△王明轩,图源豆包大模型团队公众号

禹棋赢加入Top Seed后,就有了和王明轩一起发现aha moment,每晚讨论到11点、谁也不想离开公司的难忘经历。

后面在 LLM 攻坚小组,有一个好消息,和一个坏消息。

好消息是,加入攻坚小组后,无论是工程上还是数据上得到的各方支持都更多了。

加上组织扁平,鼓励end to end把模型、预训练、后训练打通,结合上下游去思考问题,整体交流非常高效。

“坏”消息是,1月底,DeepSeek-R1从天而降。

禹棋赢在知乎帖中慨叹,本来“那时每天都在认知突破与兴奋中度过,但有点遗憾的是,到1月就被Deepseek打爆了hhh。”

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

倒不是心灰意冷,至少R1的出现表示一直坚定推进的路线没有错,DeepSeek团队还把它做得很优雅,且实测效果非常优秀。

后来的测试结果显示,如果选择蒸馏可以立即提升推理效果,但当时为了真正弄清楚机理,禹棋赢和同事们还是选择慢慢来,做长期的事情,step by step提升数据质量。

回看那段日子,禹棋赢觉得“记忆里完全没有疲惫”,兴奋得睡不着觉的感受还历历在目。

“怕什么真理无穷,进一寸有进一寸的欢喜。”他在知乎帖中写道,团队里无论是工程还是算法,都会把追求真理、追求技术本质的突破作为非常大的reward,大家会觉得这个很开心。

现在的禹棋赢又有了新的追求:他bet LLM RL技术towards AGI,接下来的目标是研究清楚RL的scaling

大模型行业,经验不再是唯一筹码

禹棋赢身上集合了太多tag,是现如今大模型一线极具代表性的缩影。

还有个更戏剧性的tag,必须要提的那种——

进字节前,禹棋赢还在智源做多模态方向实习的时候,据说非常多一线大模型团队的HR都给他和同事抛过橄榄枝。

那时候,禹棋赢是在DeepSeek和字节中做的最终选择

答案嘛,大家读到这肯定都知道了。

之所以这样选,禹棋赢自己说得很清楚,“字节场景和资源丰富,探索空间足够,上限够高。”

而且和外界印象不一样,新人在这里也可以得到很好的nurture,“明轩、永辉经常来找我交流,我也可以说是在字节读的博”。

如果再来一次,面对DeepSeek,我还是会选ByteDance。
我觉得DeepSeek战斗力真的很强,但我会努力让ByteDance胜算更大一点!

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

有点中二?有点燃?

这倒不是关键,关键是真的有地方能承接禹棋赢的高燃。

字节对禹棋赢的重用,本质上是当下顶尖大模型团队对“解决前沿问题能力”的极致追求——一个能在RL方向从0到1跑通关键技术的年轻人,即使身份只是实习生,也能成为攻坚战中不可替代的突击手。

这种情况在AI、在大模型这行并不是新鲜事了。

以实际解决问题的能力而非资历定义价值的逻辑,早已经在重塑AI产业的人才坐标系。

OpenAI从GPT-1开始就这样,一作Alec Radford刚从非顶尖高校本科毕业,后来几乎参与了OpenAI所有的重大突破;到GPT-4o、Sora,团队半壁江山都是新人、年轻人。

DeepSeek也这样,是清北应届生撑起一片天。创业团队更不用多说,大部分都是年轻毕业生组局。

现在又有了字节TopSeed实习生禹棋赢这个例子。

他们的故事折射出AI大模型时代的全新图景——经验不再是唯一筹码,好奇心与执行力才是通行证。

AGI领域,大片的未知领域等待探索。当一个新的模型架构或训练方法被提出,无论是老法师还是新手村村民,都需要重新学习和适应。

另一边,过往的权威方法论可能成为通往AGI的思维枷锁。

年轻人虽然经验相对缺乏,但不落窠臼,还拥有一些独属于初出茅庐者的特质:他们对技术直觉的信任高于既有范式,有拦都拦不住的热情与好奇心,对试错成本怀抱极高的耐受度。

这一切对探索AGI来说,珍贵非常。

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

非常nice的事情就是,学界和工业界都很认这张通行证。

学界培养和重用年轻人。每个AI顶会上都诞生闪耀的新星;各大高校大模型相关专业,每年都有更年轻的人担任教职,为后来者引路。

工业界欢迎和托举年轻人。就拿字节Top Seed这个大模型人才项目标杆为例,为包括实习生在内的年轻人提供充分算力资源、业界顶级待遇,不仅给予探索空间,还可以将研究转为实际应用。

一条崭新的、清晰的逻辑链摆在我们眼前:

当AGI探索进入无人区,谁离前沿和新的边界更近,谁就能引领和定义规则,绝不论资历和出身。

One More Thing

At last,看到这儿的朋友们有福了,来吃最后一口瓜

量子位独家获悉,今年字节还会继续Top Seed项目。

将由原谷歌DeepMind副总裁、现字节跳动豆包大模型团队负责AI基础研究探索工作的吴永辉亲自带队

参考资料:
[1]https://www.zhihu.com/people/wabjpz
[2]https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTEyNQ==&mid=2247488385&idx=1&sn=56b0aefdc366c35535094062318be078&chksm=cebb3c1bf9ccb50d0061a76305f3710d7baba55d8a8400c55b84ca1aaa287f5af535acc649b2#rd
[3]https://mp.weixin.qq.com/s/2oo0LLsOLdKomNZs2UONnw

— 完 —

量子位 QbitAI · 头条号

关注我们,第一时间获知前沿科技动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...