梦晨西风发自凹非寺
量子位 | 公众号 QbitAI

“预测下一个token”被认为是大模型的基本范式，一次预测多个tokens又会怎样？

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。

多token预测模型，在编程类任务上表现尤其突出。

与单token预测相比，13B参数模型在HumanEval上多解决了12%的问题，在MBPP上多解决了17%。

小型算法推理任务上，多token预测也在分布外泛化方面带来了令人印象深刻的收益。

不过在自然语言任务上，多token预测方法并不能显著提高7B模型在数学选择题上的表现了。

另外一个好处是，即使batch size较大，使用4-token预测训练的模型，推理速度也可提高3倍。

多token预测更适合编程

具体来说，团队设计了一种新的多token预测架构，通过n个独立的输出头并行预测n个未来token。

使用大量文本数据进行模型训练，包括代码和自然语言数据集。

再通过实验比较多token预测和单token预测在多个下游任务上的性能。

为啥多token预测在编程任务和小型算法推理任务上提升更明显？

团队猜测可能有两个原因:

第一，编程语言的逻辑结构更严谨，知识的内在联系更紧密。一个关键节点可能影响到后续整个代码块的走向。多Token预测能更好捕捉这种长距离依赖。

第二，相比自然语言，编程语言的词汇量更小。因此即便每次预测多个Token，难度也没那么大。反而能迫使模型从局部细节中抽身，着眼全局优化。

除了在token层面的实验，团队还在更细粒度的字节级模型上做了尝试。

他们发现，用8字节预测替代下一个字节预测后，模型在MBPP上的Pass@1指标暴增67%，在HumanEval上也提升了20%。

而且推理速度还能再快6倍，简直不要太香。

对于背后原理，团队认为多token预测缓解了训练时Teacher Forcing和推理时自回归生成之间的分布差异。

也就是说，在训练的时候，模型看到的都是标准答案，生成的时候却得靠自己。好比人类在家做练习册时有答案，考试时却啥也没有，就会不适应。

而多token预测相当于训练时就逼着模型多想几步，这样到了考场上，才能应对自如。

从信息论的角度，团队还给出了一个更精确的论证。

传统的下一个Token预测，目标是最小化当前位置的信息熵。而2-Token预测实际上最小化的是当前和下一位置的信息熵之和。

数学推导表明，后者其实隐含了更大的互信息权重，也就是更看重当前Token和未来Token的相关性。这就是为什么多Token预测更”有远见”。

不过在这篇论文中，还有几个未解决的问题。

比如没有探讨如何自动选择最佳的预测token数量n，作者提出，未来可以研究使用损失权重调整或动态调整n来解决最佳n的选择问题。

此外最佳的词表大小也可能与单token预测时不同。

总之，看过这篇论文之后，大家都更期待Llama-4了。

论文地址：
https://arxiv.org/abs/2404.19737

2024 年 5 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

一次预测多个token，Meta新模型推理加速3倍，编程任务提高17%

多token预测更适合编程

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

文心AIGC