马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

159次阅读
没有评论

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

非思考模式超越了公开排行榜上所有其他模型的完整推理模式

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,马斯克发布Grok 4.1,同时霸榜大模型竞技场的第一和第二。

怎么做到的?

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

Grok 4.1思考模式以1483的Elo分数稳居榜首,领先非xAI模型中的最高分整整31分。

Grok 4.1非思考模式以1465分拿下第二名,超越了公开排行榜上所有其他模型的完整推理模式。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

之前的Grok 4在排行榜上仅排第33位。不到半年时间,xAI就实现了巨大飞跃。

在大模型竞技场新推出的专家榜和职业榜上,Grok 4.1思考模式同样霸榜。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

专家榜中的题目预计只有各自领域的顶尖专家才会提出,职业榜分为八个细分:

软件和IT服务,写作、文学和语言,生命科学、物理科学和社会科学,娱乐体育和媒体,商业、管理和财务运营,数学、法律与政府,医疗保健

Grok4.1目前只在文学榜上输给Gemini2.5,数学榜输给Claude4.5和o3,其他六个榜单均拿下第一。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

不过由于模型刚发布,投票数还很少,等“Preliminary”标记消失(超过一定票数)后的成绩更有参考价值。

在非用户投票的EQ-Bench情商测试中,Grok 4.1的表现同样出色,超过刚发布不久的Kimi K2(但不是Thinking版本)。

EQ-Bench是一个由大语言模型评判的测试,评估主动情商能力、理解力、洞察力、同理心和人际交往技能。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

将RLHF推向前所未有的高度

Grok 4.1原来早就暗中测试了。

从11月1日起,新版模型被逐步推送越来越多的用户,期间持续进行盲测对比评估,64.78%的用户更喜欢新版。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

xAI官网给出了Grok4.1与之前版本在各个方面的回答对比。

响应情感问题:

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

创意写作:

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

xAI在技术报告中特别强调,Grok 4.1在创造性、情感性和协作性互动方面带来了显著改进。模型变得更加善于捕捉细微的意图,对话更有吸引力,个性表现更加连贯,同时完全保留了前代产品的敏锐智能和可靠性。

为了实现这些提升,团队使用了支撑Grok 4的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、有用性和对齐性。他们开发的新方法让前沿智能推理模型作为奖励模型,能够自主评估和迭代响应。

xAI负责后训练的Dust Tran分享了更多细节,主要改进在强化学习上,将 RLHF推向前所未有的高度。

在过去的几个月里,我们这个由十几人组成的团队利用用户在真实对话中的偏好,以及基于强大推理能力进行评分的智能体奖励模型,对强化学习 (RL) 的算法进行了全面改进.

此外,我们还将RL的规模扩大了一个数量级,远超Grok 4中现有的类似预训练的规模。

Grok 4.1对不需要思维链推理的快速回复模式做了特别加强。关闭推理功能后,输出标记数从约2300个减少到850个。

此外Grok 4.1还重点改善了幻觉问题。

配备搜索工具的非推理模型可以快速给出答案,但由于推理深度受限和工具调用预算有限,很容易出现事实错误。

在Grok 4.1的后训练阶段,专注于减少信息检索提示中出现的事实性幻觉。随后观察到,对于抽样生成的信息检索提示,幻觉发生率显著降低。

在包含500个个人传记问题的FActScore测试中,Grok 4.1非推理模式的成绩也比前一代有明显改善。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

在更多示例中,Grok 4.1还展示出可以输出图文并茂的回答。

马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜

目前,Grok 4.1已经在grok.com、X平台以及iOS和Android应用上向所有用户开放,默认以自动模式推出,用户也可以在模型选择器中明确选择Grok 4.1。

参考链接:
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...