新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

1,406次阅读
没有评论

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

“最强”开源大模型之争,又有新王入局:

大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:

它在基准测试中击败了此前所有开源模型。

包括同为混合专家模型的Grok-1和Mixtral。

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

新王搅局,迅速引发了开源社区的热议。

毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿

就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍
DBRX vs Llama2-70B

另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,也就是Chinchilla定律推荐量的18倍。

网友们的第一反应be like:

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

首席科学家:打赌输了就把头发染蓝

来看DBRX的具体细节。

DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。

为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100。

一个细节是,团队向Wired透露,经过两个月的训练之后,DBRX已经在基准测试中取得了不错的分数。而在那个时候,他们买的云资源还能再跑一个星期。

团队因此产生了小小的分歧:是用这些资源来训练一个小杯版本,还是再投喂给模型一些高质量数据,用课程学习(curriculum learning)的方法来提高DBRX在一些特定任务上的能力?

经过一番热烈的内部讨论,Databricks团队最终决定走课程学习路线。

正是这一决策使他们收获颇丰:

Databricks首席科学家Jonathan Frankle(就叫他老弗吧)认为,课程学习使得DBRX“产生了有意义的变化”

具象化一点来说,就是老弗本来觉得DBRX可能搞不太定代码生成,还打赌说如果他判断错了,就去把头发染成蓝色。

而这是他的最新照片:

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

回到正题,DBRX的测试结果显示,它在语言理解、编程、数学和逻辑方面都达到了SOTA,击败包括Llama2-70B、Mixtral和Grok-1在内的一众开源大模型。

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

还在大多数基准测试中都击败了GPT-3.5。

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

Databricks这次开源了DBRX的两个版本:DBRX Base和DBRX Instruct,前者是预训练基础模型,后者则经过指令微调。

老弗还对Wired透露,他们团队接下来计划对模型训练的那个“最后一周”展开研究,看看DBRX这样强大的模型是如何在其中收获额外技能的。

值得一提的是,去年6月,Databricks以13亿美元(约93亿人民币)的价格,买下了仅62名员工的AI初创公司MosaicML——

就是发布了MPT系列开源模型的那家。

老弗当时就是MosaicML的首席科学家。此后,他和他的团队一起留在了Databricks。

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

开源社区嗨翻

DBRX发布不到4小时,已经有人把它成功部署到苹果M2芯片笔记本电脑上了。

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

而大模型竞技场也第一时间开放了DBRX-instruct的投票。

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

不过,也有人对DBRX的“开源”提出了质疑:

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

根据Databricks公布的协议,基于DBRX打造的产品,如果月活超过7亿,就必须另行向Databricks提交申请。

参考连接:
[1]
https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llms
[2]https://github.com/databricks/dbrx
[3]https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️

点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...