Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

34次阅读
没有评论

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

代码能力崩盘,长文写作垫底,研究主管发布前宣布离职

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

Meta最新基础模型Llama 4发布36小时后,评论区居然是这个画风:

失望,非常失望
不知道他们后训练怎么搞的,总之不太行
在[各种测试]中失败
……

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

还被做成表情包调侃,总结起来就是一个“差评如潮”。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

具体来看,大家的抱怨主要集中在代码能力。

最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

反映在榜单上,成绩也相当割裂。

发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

就在Llama 4即将发布前几天,Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职,总之就是不太妙。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

Llama 4怎么了?

大模型关注者们火热实测吐槽之际,一则有关Llama 4的匿名爆料,突然引起轩然大波:

有网友称自己已向Meta GenAI部门提交提交辞职,并要求不要署名在Llama 4的技术报告上。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

原贴发布在海外留学求职交流平台一亩三分地,在国内也引起很多讨论。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

此爆料尚未得到证实,但有人搬出Meta GenAI负责人Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模型竞技场里运行的是特殊版本模型。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

还有Meta前员工借此话题贴出2024年11月的一项研究,指出从Llama 1开始数据泄露的问题就存在了。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告
Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

也不只是编程能力一个方面有问题,在EQBench测评基准的的长文章写作榜中,Llama 4系列也直接垫底。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

榜单维护者_sqrkl说明了具体情况。

测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写1000字,重复8轮以上。

Claude-Sonnet 3.7来当裁判,先对每个章节单独打分,再对整个作品打分。

Llama 4的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

对此结果,有一个猜想是之前的版权诉讼让Meta删除了网络和书籍数据,使用了更多的合成数据。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

在这场诉讼中,许多作家发现自己的作品可能被用于AI训练,还到伦敦的Meta办公室附近发起抗议。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

Llama 4发布后的种种,让人联想到年初的匿名员工爆,有网友表示当初只是随便看看,现在却开始相信了:

在这条爆料中,Deepseek v3出来之后,训练中的Llama4就显得落后了,中层管理的薪水都比DeepSeek V3的训练成本都高,Meta内部陷入恐慌模式。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

让人不由得感叹,DeepSeel-R1横空出世仅仅两个月时间,却像过了几辈子。

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

参考链接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[3]https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy