DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了
双双掉进弱智吧陷阱
国产之光DeepSeek V3竞技场排名新鲜出炉——
优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/f8219735ae72460a6065ce160cec862f.jpeg)
单项上,在困难提示、编程、数学,写作等方面全面超越Claude 3.5 Sonnet。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/1cf7d5958139ed8900d9dc495db694bd.jpeg)
不过,如果设置了风格控制,Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。
(风格控制:剔除模型通过长篇且格式良好的回复来迎合人类偏好)
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/7e589cb7fa4936b6b1d90d6ddc4cc75c.jpeg)
由此也引发两边支持者激烈的争论:
DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗?
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/7bf5ebb3c3340767c18c00b905a6c540.jpeg)
带着同款好奇,量子位&网友实测这就奉上。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/17cf80eeec932912e2b9fd5a066f3c98.jpeg)
实测DeepSeek V3和Sonnet 3.5
经典脑筋急转弯
第一关先来个开胃小菜,一道经典脑筋急转弯考查模型理解能力。
小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?
DeepSeek V3回答正确。它先明确了题目要求,然后逻辑满分找出了正确答案(甚至还有自我验证)。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/4da7456185f77c70941dceb11b996405.jpeg)
相比之下,Claude 3.5 Sonnet既正确又简洁。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/d868b2c53dea95df786e7f5d9bc11e16.jpeg)
当然,考虑到脑筋急转弯这种东西也受东西文化差异影响,我们再来一道。
why are people tired on April Fool’s Day? (为什么人们在愚人节很累?)
答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军),March除了三月还有行军的意思,这里考察对双关的理解。
好嘛,DeepSeek V3果然歇菜了。从部分回答来看,它完全误解了题目意图,一本正经地回答是因为人们感到焦虑、熬夜之类。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/8014250070081703883167eb18970616.jpeg)
而Claude 3.5 Sonnet稳稳守住了主场,也是轻轻松松get了双关。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/5692b02aee4ea8df197d1ae2fbfde2b4.jpeg)
显而易见,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向中文语境。
弱智吧逻辑陷阱+反转诅咒
接下来难度升级,利用弱智吧经典陷阱来考查模型逻辑能力。
台上一分钟,台下十年功,为何不在台上练功?
很好,DeepSeek V3又掉线了,精准踩进人类陷阱。(正能量满满可还行)
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/e35234326a550da329f95184507dd920.jpeg)
不过别担心,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/485ed4f6bb6670dfab937f7932719eaa.jpeg)
看来面对充满心机的弱智吧问题,二位选手都不在状态。
Okk,不继续在这上面为难二位了,下面来一道正儿八经的“反转诅咒”(即知道A是B却不知道B是A)问题。
而两位选手都一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/efec160466bb7a642f6ef14172c9efc4.jpeg)
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/a4eff2189756c3a46fd5dd3414d646a8.jpeg)
考研数学真题
下面进入数学能力测试。比如这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/64cd06ec485cb22d0890873f869e3034.jpeg)
直接上传截图,DeepSeek V3还是详细按步骤解答,而且也做对了。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/ac43a57dec40f9f8c1f5da123f30b70d.jpeg)
而Claude 3.5 Sonnet虽然看起来方法更简单,但最终答案错误,功亏一篑。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/c2d731b674dcd919459587a4b0c7887c.gif)
编码能力
重头戏来了,最后来考查一下模型编码能力。
刚好有位网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub中分别用它俩创建网站。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/23e0b8f1239f56149ee0215e22123679.jpeg)
博主在测试之后,认为DeepSeek V3完全胜出。
小结一下,从有限测试来看,DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/6f31df02720c233f365391c38e37d881.jpeg)
满血版o1空降第一
BTW,随着DeepSeek V3竞技场排名一起变动的,还有OpenAI的o1模型。
估计是“双十二”期间正式上线的满血版o1,此次超越o1-preview 24分,空降总榜第一。
而且除了创意写作,各个单项都是第一。
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/06665cf148f5b5b2d9da1862d34702ba.jpeg)
所以,对于这几家,大家在使用过程中感受如何呢??
![DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了 DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测来了](https://www.qbitai.com/wp-content/uploads/replace/bbbbee34b883acf50a3061babc793201.jpeg)
![post-qrcode](https://aigc.luomor.com/wp-content/uploads/2023/03/qrcode_for_gh_ada6dea0c7e9_258.jpeg)