超越GPT-4，Claude 3超大杯成新王！

新智元报道

编辑：alan

【新智元导读】太疯狂了！Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中，Claude 3的超大杯成功登顶，就连最小的Claude 3 HaiKu都达到了GPT-4水平！

太疯狂了！Claude 3 Opus超越了GPT-4，成为新的国王！

今天，Chatbot Arena更新了聊天机器人对战的排行榜，在经过了时间的洗礼和群众的检验之后，之前略逊于GPT-4的Claude 3竟然反超了！

而且不仅仅是Claude 3的超大杯Opus成功登顶，藐视众生，Claude 3家族的整体表现都非常亮眼。

大杯Claude 3 Sonnet排到了第4，就连最小的Claude 3 HaiKu都达到了GPT-4水平！

那么相比于基准测试跑分，这个榜单的权威性如何？

Chatbot Arena（聊天机器人竞技场），由伯克利团队开发，每个模型在榜单上的得分，完全取决于真实人类用户的使用体验。

我们来看一下打分规则：

用户同时向两个匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的问题，然后根据回答投票给表现更好的模型；

如果一次回答不能确定，用户可以继续聊天，直到确定获胜者；

如果在对话中透露了模型的身份，则不会计算投票。

Chatbot Arena平台收集了超过40万人的投票，来计算出这个大模型的等级分排行榜，最终找出谁是冠军。

显然，这回Claude 3赢麻了。

我们来看一下真实的战况：

在所有非平局对战中， A对B获胜的比例：

模型之间的对战次数（无平局）：

GPT-4终于被干掉了，对此，有网友开始恶搞：

刚在当地超市看到Sam Altman，他一脸震惊地看着手机。几秒钟后，他真的倒下了，开始剧烈颤抖。经过2分钟的摇晃和尖叫，一群人围绕着他试图帮助他。但令人惊讶的是，他在2分钟后停止了颤抖和尖叫，站起来，拿起手机开始拨打一个号码。

“准备释放……”

咱也不知道Altman要放的是不是GPT-5。

网友表示，Claude确实要比GPT勤奋得多：

GPT-4-Turbo非常懒惰。在任何编码任务中，它都会跳过部分代码，并表示“你自己知道要放什么”，而Opus可以毫无遗漏地输出整个代码。

就连Claude-2也通过自己的勤奋和耐心感动了这位网友。

更有比较务实的网友指出，Haiku的排名更为重要，因为它是第一个可以以极低成本即时运行的LLM，并且具有足够高的智能来提供实时客户服务。

盲生你发现了华点！Claude 3 Haiku不仅与原始版本的GPT-4表现一样好，关键是相当便宜，在一些平台你甚至可以免费使用。

大家于是纷纷夸起了Claude 3 Haiku：

智能相当于GPT-4，价格比GPT-3.5便宜，而且据说模型可能只有20B大小。

有网友表示，OpenAI不行啦，现在Anthropic才是老大，一时间，平台内外充满了快活的空气。

ChatGPT 一年零增长

回过头来再看ChatGPT这边，从最初的高光、王者，到现在不能说泯然众人吧，反正多少有点寒酸了。

最近，有关统计平台曝出：ChatGPT在过去一年中居然零增长！

最近一段时间，ChatGPT一直被指责懒惰、系统提示臃肿，而另一方面竞争也愈演愈烈——Claude 3和Gemini Pro 1.5现在都提供了比GPT-4多8倍的上下文长度和更好的recall能力。

对于几乎每个ChatGPT用例，现在都有大量垂直化的AI初创公司，致力于满足用户的需求，而不是满足于现有的ChatGPT界面和捆绑工具

它们有更好的UI选项（例如IDE和图像/文档编辑器）、更好的原生集成（例如用于cron重复操作）、更好的隐私/企业保护（例如用于医疗保健和金融），更细粒度的控制（GPT的默认RAG是幼稚且不可配置的）。

以下是一些网友列举了相关垂直领域的产品，以及公司的融资情况：

从某种意义上说，OpenAI的B2B和B2C部分相互竞争，这在某种程度上是良性竞争——OpenAI可以使用来自ChatGPT的RLHF数据进行训练。

而新的GPT商店可以看作是，OpenAI为了抓住这些垂直化需求的尝试。

——与其离开平台，到处支付20美元/月，为什么不留在ChatGPT内部而只需要支付一次，让OpenAI将理论上的收入分配给GPT创作者？

对此，大部分创作者也很明智，一般只向ChatGPT发布精简版的应用，作为自己主要平台的一个渠道。

在游戏机业务中，众所周知，购买决策往往是由平台独占游戏驱动的。从某种意义上说，ChatGPT的未来会以平台专属模型为特色。

所以，当Sora甚至是GPT-5公开发布时，一定会率先登陆自家的平台，也许那将是下一轮ChatGPT的增长点。

参考资料：https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

2024 年 3 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

超越GPT-4，Claude 3超大杯成新王！

新智元报道

【新智元导读】太疯狂了！Claude 3 Opus竟然干掉了GPT-4。在Chatbot Arena最新的聊天机器人对战排行榜中，Claude 3的超大杯成功登顶，就连最小的Claude 3 HaiKu都达到了GPT-4水平！

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

文心AIGC