碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

1,924次阅读
没有评论

这两天hugging face的榜单出现了一个异数。一个名为Falcon 40B的模型,突然成为了hugging face“开源”大模型排行榜的第一名。

这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的LLaMA、新晋明星独角兽Stability AI等公司。其中,LLaMA的模型规模甚至更大,达到了65B——比Falcon-40B大出了50%。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

按照国际通用惯例,网友们少不了又要拉踩一把扎克伯格。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

Hugging Face过去一直被认为是大模型领域GitHub,在人类大模型的开源事业的道路上不遗余力,被一些观察者认为是OpenAI最具潜在挑战能力的平台。因此Hugging Face的榜单,被从业者给予了很高的参考价值。

按照Hugging Face方面表示,其整个榜单使用Eleuther AI Harness的评估框架,被分成四个标准:

25个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10个样本的尝试推理测试(HellaSwag)、5个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)

而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的instruct版本中,诚实性能力也跟上来了。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

Falcon备受外界关注,原因主要有几点。

一方面,如果仅以这个榜单数据来看,Falcon相比于友商的提升幅度很大。LLaMA-65B之后的排序的分差往往在0.3分以内,但Falcon-instruct直接提升了3.4分。

另一方面,Falcon与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。

TII的背后则是阿布扎比先进技术研究委员会(ATRC),因此是阿联酋政府官方扶持技术创新项目。

而根据阿联酋通讯社的报道,Falcon-45B使用了1万亿个token进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于OpenAI GPT-3训练计算的75%,DeepMind Chinchilla人工智能的40%,谷歌PaLM-62B训练计算的80%。

阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B的出现:

“强化了阿联酋作为全球AI领导者的角色”。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

目前来说,Falcon-40B虽然是开源大模型的第一名,但是和“不Open”的OpenAI相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon获得“开源大模型第一”其实也算是“捡了个漏”。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

不过很快有从业者发推特质疑Hugging Face的评价体系。

有Inflection AI员工发推认为Hugging Face得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉AI负责人、OpenAI元老级人物(founding member)Andrej Karpathy跟进评论:

“这就是我目前避免评论falcon的原因”。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

Andrej Karpathy曾经是李飞飞的高徒、全球顶尖的AI科学家,对OpenAI的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉autopilot之父。

当他对hugging face的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

果然hugging face联合创始人Thomas Wolf闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。

碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来

这其中诡异的点在于,hugging face的榜单不是一天发出的,Eleuther AI Harness也是一个主流的评价体系。但当Falcon冲榜后,却出现了两位对评价体系“不理解”、“不确定”的“外宾”。

看来硅谷还不是很适应来自中东的神秘科技力量,对这种“新鲜事物”条件反射地用审视的眼光去打量。

不过,Falcon-40B最大的争议或许不是来自于能力,而是来自于其对“开源”事业的“诚心”。

因为Falcon对商业化开源留了一个“后手”,虽然使用者原则上免费,但如果收入超过100万美金,依然需要缴纳10%的授权费用。

但由于falcon的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果falcon拿着免费开源的许可协议,未来依然会收取一定的商业化费用,这似乎依然算不上真的“开源”。

大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。

而根据TII方面的消息,阿联酋方面预计将很快发布新的Falcon-108B的千亿级大模型。

无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。

图片来源:网络

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 6 月
 1234
567891011
12131415161718
19202122232425
2627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...