陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

1,614次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

只用3%的计算量5%的成本取得SOTA,统治了1B-3B规模的开源大模型。

这一成果来自普林斯顿陈丹琦团队,名为LLM-Shearing大模型剪枝法。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

以羊驼LLaMA 2 7B为基础,通过定向结构化剪枝得到1.3B和3B剪枝后的Sheared-LLama模型。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

分别在下游任务评估上超越之前的同等规模模型。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

一作夏梦舟表示,“比从头开始预训练划算很多”。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

论文中也给出了剪枝后的Sheared-LLaMA输出示例,表示尽管规模只有1.3B和2.7B,也已经能生成连贯且内容丰富的回复。

相同的“扮演一个半导体行业分析师”任务,2.7B版本的回答结构上还要更清晰一些。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

团队表示虽然目前只用Llama 2 7B版做了剪枝实验,但该方法可以扩展到其他模型架构,也能扩展到任意规模

另外还有一个好处,剪枝后可自行选用优质的数据集继续预训练。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

开发者表示,6个月前还几乎所有人都认为65B以下的模型没有任何实际用处。

照这样下去,我敢打赌1B-3B模型也能产生巨大价值,如果不是现在,也是不久以后。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

把剪枝当做约束优化

LLM-Shearing,具体来说是一种定向结构化剪枝,将一个大模型剪枝到指定的目标结构。

之前的剪枝方法可能会导致模型性能下降,因为会删除一些结构,影响表达能力。

新方法将剪枝看成一种约束优化问题,学习剪枝掩码矩阵来搜索与指定结构匹配的子网络,同时以最大化性能为目标。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

接下来对剪枝过的模型进行继续预训练,在一定程度上恢复剪枝造成的性能损失。

在这个阶段,团队发现剪枝过的模型与从头训练的模型对不同数据集的损失下降速率不一样,产生数据使用效率低下的问题。

为此团队提出了动态批量加载(Dynamic Batch Loading),根据模型在不同域数据上的损失下降速率动态调整每个域的数据所占比例,提高数据使用效率。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

实验发现,虽然剪枝模型与从头训练的同等规模模型相比,虽然一开始表现差得多,但继续预训练可以迅速提高,最终超越。

这表明从强大的基础模型中剪枝,可以为继续预训练提供更好的初始化条件。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

将持续更新,来一个剪一个

论文作者分别为普林斯顿博士生夏梦舟高天宇,清华Zhiyuan Zeng,普林斯顿助理教授陈丹琦

夏梦舟,本科毕业于复旦,硕士毕业于CMU。

高天宇,本科毕业于清华,是2019年清华特奖得主。

两人都是陈丹琦的学生,陈丹琦现在为普林斯顿助理教授,普林斯顿 NLP小组的共同领导者。

最近在个人主页中,陈丹琦更新了她的研究方向。

“这些日子主要被开发大模型吸引”,正在研究的主题包括:

  • 检索如何在下一代模型中发挥重要作用,提高真实性、适应性、可解释性和可信度。

  • 大模型的低成本训练和部署,改进训练方法、数据管理、模型压缩和下游任务适应优化。

  • 还对真正增进对当前大模型功能和局限性理解的工作感兴趣,无论在经验上还是理论上。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

目前Sheared-Llama已在Hugging Face上提供。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

团队表示,开源库还会保持更新。

更多大模型发布时,来一个剪一个,持续发布高性能的小模型。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

One More Thing

不得不说,现在大模型实在是太卷了。

一作Mengzhou Xia刚刚发布一条更正,表示写论文时还是SOTA,论文写好就已经被最新的Stable-LM-3B超越了。

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

论文地址:
https://arxiv.org/abs/2310.06694

Hugging Face:
https://huggingface.co/princeton-nlp

项目主页:
https://xiamengzhou.github.io/sheared-llama/

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...