贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增

克雷西发自凹非寺
量子位 | 公众号 QbitAI

只要两行代码+11个小时微调，就能把大模型4k的窗口长度提高到32k。

规模上，最长可以扩展到10万token，一口气就能读完一本小说。

贾佳亚韩松联合团队提出的这个基于LoRA的全新大模型微调方法，登上了GitHub热榜。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

这种方式叫做LongLoRA，由来自香港中文大学和MIT的全华人团队联合出品。

在一台8个A100组成的单机上，增大窗口长度的速度比全量微调快十到二十倍。

网友看了之后不禁表示，这个效率实在是令人印象深刻：

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

那么，用LongLoRA微调之后，模型会有什么样的变化呢？

一口气读完一部小说

研究团队的实验当中使用的模型是Llama 2。

经过LongLoRA方法微调之后，Llama 2-7B的窗口长度最高可提升到10万token。

实测发现，微调后的模型可以一口气读完一部小说，然后回答各种问题。

比如总结一下大刘在《三体》第三部中体现的中心思想，比总结内容还高出了一个层次。

模型给出的答案是与外星文明首次接触的危险性、星际旅行之困难与人类文明之脆弱，以及团结协作的重要性等内容。

的确每条在原著中都有所体现，而且也比较全面了。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

除了对整部作品进行概括提炼，局部内容当然也可以询问。

小说中的角色也能对答如流，比如《西游记》中孙悟空是怎么开花成长的。

模型告诉我们，孙悟空很有智慧，但又有一颗顽皮的心，在伴随唐僧取经的过程中走向了成熟。

这次的总结依旧是很到位。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

而且不仅是单个角色，不同人物之间复杂的关系也能了如指掌。

提问的方式可以简单粗暴些，直接要求描述这本书（《哈利波特》）中的人物关系。

模型以哈利·波特为中心，介绍了他的朋友韦斯莱、赫敏，敌人马尔福，以及邓布利多教授等人物。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

除了看小说，LongLoRA微调后的Llama还可以读论文，生产力一下子就提高了（喜）。

无论是整体概括还是局部询问，微调后的模型都能准确地给出答案：

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

△中文部分为谷歌机翻

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

为了从宏观上把握模型的表现，研究团队用了如下数据集进行了测试：

PG19：来自书籍的长篇文档数据集，用来测试语言建模效果。
Proof-pile：来自arXiv的数学论文数据集，用来测试语言建模效果。
LongQA：作者自行构建的长序列问答数据集，用于有监督的微调。
LongChat：第三方构建的长对话理解数据集，用来测试长序列叙述理解效果。

结果显示，LongLoRA在PG19和Proof-pile上的困惑度与全量微调接近。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

在问答数据集上，LongLoRA微调出的模型表现也很优异，长文本理解方面更是达到了SOTA水平。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

当然，LongLoRA的意义不仅在于提高了窗口长度，关键在于用更少的消耗提高了窗口长度。

以7B参数量的Llama-2为例，如果使用全量微调，从4k提升到32k，在一台8个A100的单机上需要五天。

而改用LongLoRA方式，则只用11.3小时就能完成，连半天都不到，效率提升近十倍。

如果提升到65k，全量微调所需时间将超过1000小时，LongLoRA却只用52.4小时。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

那么LongLoRA又是怎么做到的呢？

“大而化小”降低计算量

LongLoRA建立在LoRA的基础之上，引入了一种称为“移位短注意力”（shift short attention）的机制。

这种机制只需要两行代码就能实现：

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

Transformer架构的核心是自注意力（Self-attention）计算。

短注意力就是将训练文本划分为多个组，使自注意力计算在每个组内分别进行，从而达到降低运算量的目的。

而在这一过程中注意力头也被进行了分组，通过注意力头的位移，就实现了组间的信息交互。

划分出的每个组之间有重叠部分，确保了数据可以在全文中流通。

这样一来，每次计算都只需要对组内的token进行操作，运算量大大降低。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

除了对输入进行分割之外，LongLoRA相比于Lora还可以微调embedding层和normalization层。

这两项内容占的参数量很小，以Llama 2-7B为例，embedding层只占1.94%，normalization层更是不到十万分之四。

消融实验结果表明，除了核心的Attention层，这两个占比很小的部分也起到了重要作用。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

除了核心的短注意力机制，研究团队引入了DeepSpeed和FlashAttention方式，进一步降低了训练消耗。

目前，LongLoRA微调过后不同参数量和窗口长度的Llama 2已经开源，感兴趣的话可以到GitHub页面中查看。

论文地址：
https://arxiv.org/abs/2309.12307
GitHub项目页：
https://github.com/dvlab-research/LongLoRA

— 完 —

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「广告营销」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

2023 年 10 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

克雷西发自凹非寺
量子位 | 公众号 QbitAI

一口气读完一部小说

△中文部分为谷歌机翻

“大而化小”降低计算量

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

贾佳亚韩松团队新作：两行代码让大模型上下文窗口倍增 | GitHub热榜

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

一口气读完一部小说

△中文部分为谷歌机翻

“大而化小”降低计算量

文心AIGC

克雷西发自凹非寺
量子位 | 公众号 QbitAI