仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

1,384次阅读
没有评论

智源研究院与国内多所高校及南洋理工联合团队花费10万美元训练出的大模型FLM,拥有1010亿参数量,目前已经开源

得益于研究团队的新型训练策略,FLM只用了2.17%的花销(10万美元),达到可以比肩GPT-3的效果。

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

 

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

那么,FLM团队是如何把训练成本降低近50倍的呢?

“成长策略”降低训练成本

不管是租还是买,硬件的价格都摆在那动不了,所以只能是通过减少运算量来降低成本。

为了降低训练过程中的运算量,研究团队在FLM中采用了一种“成长策略”。

也就是先训练16B参数的小规模模型,然后扩大到51B,最终再扩展到101B版本。

由于训练低参数量模型的运算效率更高,这种循序渐进的训练方式成本要低于一步登天。

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

看到这里也许有的读者会有疑问,其他模型不是也有分成多个参数量的版本吗?

是没错,但是这些参数量不同的同种模型是分别进行训练的,这造成了大量的重复计算,因而成本并不低。

而FLM采用的“成长策略”在训练大规模版本时会直接继承低参数量模型中已有的知识,降低了重复运算率。

而具体参数的确定,应用了loss prediction技术,即根据低参数模型的训练损失预测出高参数量模型的损失。

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

除了这种“由小及大”的“成长策略”之外,FLM的训练过程中还通过改善并行策略来提高吞吐量。

FLM使用的是混合并行策略,将多种并行方式进行最优化配置,达到高吞吐量,单GPU利用率超过了50%。

团队还利用序列并行和分布式优化器技术,将输入序列和优化器状态分配到不同GPU,减轻了单个GPU的计算和内存压力。

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

那么,这种“成长策略”训练出的FLM表现又如何呢?作者给出了Open LLM数据集的测试结果。

FLM在四个项目中取得的平均成绩接近GLM-120B和Llama-7B,但训练成本显著低于二者。

而在其中的TruthfulQA单项中,FLM的成绩甚至超过了Llama 2。

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

专业知识方面,16B参数的eFLM在C-eval评测中,平均成绩超过了130B参数的GLM,并接近ChatGPT

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

除了这些一般的benchmark,FLM团队还提出了一项大模型“IQ测试”。

给大模型“测智商”

FLM团队提出的大模型“智商测试”重点考察模型的推理泛化能力,而非知识储备。

这项测试从如下四个维度进行了展开:

  • 符号映射:使用随机符号替换分类标签,评估模型推理和泛化能力,避免过度拟合。

  • 规则理解:检验模型能否按照给定规则进行操作,如“计数”、“字符串替换”等。

  • 模式挖掘:给出示例,让模型归纳推导出规律并应用,如“头尾添加”等。

  • 抗干扰能力:在噪声环境中提取关键信息,包括多关键信息提取、单论据追踪和双论据追踪三项内容。

其中第一、三、四项的示例如下图所示:

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

那么,FLM面对自家提出的测评标准,成绩到底怎么样呢?

符号映射测评中,FLM以低一个数量级的运算量在SuperGLUE数据集上取得了与GLM和GPT-3相近的成绩,在CLUE数据集上的表现更是超过了GLM。

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

其余三个项目的成绩也都超过了GLM,并接近GPT-3。

仅用2.17%花销训练千亿参数大模型FLM,比肩GPT-3效果

 

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...