梦晨发自凹非寺
量子位 | 公众号 QbitAI

堂堂开源之王Llama 3，原版上下文窗口居然只有……8k，让到嘴边的一句“真香”又咽回去了。

在32k起步，100k寻常的今天，这是故意要给开源社区留做贡献的空间吗？

开源社区当然不会放过这个机会：

现在只需58行代码，任何Llama 3 70b的微调版本都能自动扩展到1048k（一百万）上下文。

背后是一个LoRA，从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来，文件只有800mb。

接下来使用Mergekit，就可以与其他同架构模型一起运行或直接合并到模型中。

所使用的1048k上下文微调版本，刚刚在流行的大海捞针测试中达到全绿（100%准确率）的成绩。

不得不说，开源的进步速度是指数级的。

1048k上下文LoRA怎么炼成的

首先1048k上下文版Llama 3微调模型来自Gradient AI，一个企业AI解决方案初创公司。

而对应的LoRA来自开发者Eric Hartford，通过比较微调模型与原版的差异，提取出参数的变化。

他先制作了524k上下文版，随后又更新了1048k版本。

首先，Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练，得到Llama-3-70B-Instruct-Gradient-1048k。

具体方法如下：

调整位置编码：用NTK-aware插值初始化RoPE theta的最佳调度，进行优化，防止扩展长度后丢失高频信息
渐进式训练：使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是，团队通过自定义网络拓扑在Ring Attention之上分层并行化，更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。

最终使模型的训练速度提高了33倍。

长文本检索性能评估中，只在最难的版本中，当“针”藏在文本中间部分时容易出错。

有了扩展好上下文的微调模型之后，使用开源工具Mergekit比较微调模型和基础模型，提取参数的差异成为LoRA。

同样使用Mergekit，就可以把提取好的LoRA合并到其他同架构模型中了。

合并代码也由Eric Hartford开源在GitHub上，只有58行。

目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。

不过可以看到，中文开发者社区已经关注到了这一进展。

524k版本LoRA：
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k版本LoRA：
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

合并代码：
https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

参考链接：
[1]https://twitter.com/erhartford/status/1786887884211138784

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

1048k上下文LoRA怎么炼成的

英特尔举办2024网络与边缘计算行业大会，推动边缘AI创新发展

让AI视频进入「全民GC」时代，这家中国公司刚刚真的做到了

贾扬清共一论文获ICML时间检验奖：首个开源版AlexNet，著名框架Caffe前身，最佳论文奖也已公布

北大刘若川教授获拉马努金奖，中国学者4次获此殊荣

H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级

ICML最佳论文曾被ICLR拒稿，Pika联创参与，一作已入职OpenAI

12h订单破万，卖爆了的国产AR眼镜公司什么来头？

OpenAI推出新AI搜索，老伙计微软也默默更新了Bing

联想CTO换帅！芮勇转任新集团总裁，瞄准新兴技术

智平方打通具身智能核心痛点：将AGI拓展到物理世界