DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

一水
2024-12-31
13:31:16

来源：量子位

双双掉进弱智吧陷阱

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini（总榜第7），获最强开源模型认证（也是唯一闯入前10的开源模型）。

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

单项上，在困难提示、编程、数学，写作等方面全面超越Claude 3.5 Sonnet。

不过，如果设置了风格控制，Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

（风格控制：剔除模型通过长篇且格式良好的回复来迎合人类偏好）

由此也引发两边支持者激烈的争论：

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗？

带着同款好奇，量子位&网友实测这就奉上。

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜，一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子，老大叫一明，老二叫二明，老三叫什么？

DeepSeek V3回答正确。它先明确了题目要求，然后逻辑满分找出了正确答案（甚至还有自我验证）。

相比之下，Claude 3.5 Sonnet既正确又简洁。

当然，考虑到脑筋急转弯这种东西也受东西文化差异影响，我们再来一道。

why are people tired on April Fool’s Day? （为什么人们在愚人节很累？）

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军)，March除了三月还有行军的意思，这里考察对双关的理解。

好嘛，DeepSeek V3果然歇菜了。从部分回答来看，它完全误解了题目意图，一本正经地回答是因为人们感到焦虑、熬夜之类。

而Claude 3.5 Sonnet稳稳守住了主场，也是轻轻松松get了双关。

显而易见，Claude 3.5 Sonnet在第一关小试牛刀中全胜，而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级，利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟，台下十年功，为何不在台上练功？

很好，DeepSeek V3又掉线了，精准踩进人类陷阱。（正能量满满可还行）

不过别担心，你的难兄难弟Claude 3.5 Sonnet来陪你了(doge）。

看来面对充满心机的弱智吧问题，二位选手都不在状态。

Okk，不继续在这上面为难二位了，下面来一道正儿八经的“反转诅咒”（即知道A是B却不知道B是A）问题。

而两位选手都一次性答对了Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的儿子是谁。

考研数学真题

下面进入数学能力测试。比如这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

直接上传截图，DeepSeek V3还是详细按步骤解答，而且也做对了。

而Claude 3.5 Sonnet虽然看起来方法更简单，但最终答案错误，功亏一篑。

编码能力

重头戏来了，最后来考查一下模型编码能力。

刚好有位网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试，在Scroll Hub中分别用它俩创建网站。

博主在测试之后，认为DeepSeek V3完全胜出。

小结一下，从有限测试来看，DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

满血版o1空降第一

BTW，随着DeepSeek V3竞技场排名一起变动的，还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1，此次超越o1-preview 24分，空降总榜第一。

而且除了创意写作，各个单项都是第一。

所以，对于这几家，大家在使用过程中感受如何呢？？

2024 年 12 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet实测来了

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

弱智吧逻辑陷阱+反转诅咒

考研数学真题

编码能力

满血版o1空降第一

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex