Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

1,158次阅读
没有评论

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

还登上了LiveBench最强开源LLM宝座

还没等到官宣,Deepseek-v3竟意外曝光了?!

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。

(相比Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%。)

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

且在LiveBench测评中,它是当前最强开源LLM,并在非推理模型中仅次于gemini-exp-1206,排在第二。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重,只不过还没上传模型介绍卡片。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

综合网上多方爆料来看,Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先,Deepseek-v3基本配置如下:

  • 采用685B参数的MoE架构
  • 包含256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家 (Top-k=8);
  • 支持64K上下文,默认支持4K,最长支持8K上下文;
  • 约60个tokens/s;

BTW,在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本(该版本目前未发布)。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

为了进一步了解Deepseek-v3的升级程度,机器学习爱好者Vaibhav (VB) Srivastav(以下简称瓦哥)还深入研究了配置文件,并总结出v3与v2、v2.5的关键区别

v2(今年5月6日官宣开源)比较的结果,经AI整理成表格如下:

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

可以看出,v3几乎是v2的放大版,在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化

第一,在MOE结构中,v3使用了sigmoid作为门控函数,取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。

第二,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。

简单理解,MoE模型通常需要一个辅助损失来帮助训练,主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下,直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了,为便于理解,瓦哥用DeepSeek逐步解释了这一方法。

这是一种基于群体的专家选择算法,通过将专家划分为不同的小组,并在每个小组内部选择最优秀的k名专家。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

第三,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

此外,v3与v2.5(本月10日官宣开源)的比较也出炉了,后者主要支持联网搜索功能,相比v2全面提升了各项能力。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

同样经AI整理成表格如下:

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

具体而言,v3在配置上超越了v2.5,包括更多的专家数量、更大的中间层尺寸,以及每个token的专家数量。

看完上述结果,瓦哥连连表示,明年有机会一定要见见中国的开源团队。(doge)

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

网友实测Deepseek-v3

关于v3的实际表现,另一独立开发者Simon Willison(Web开发框架Django的创始人之一)也在第一时间上手测试了。

比如先来个自报家门。

我是DeepSeek-V3,基于OpenAIGPT-4架构……

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet
Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

再考考图像生成能力,生成一张鹈鹕骑自行车的SVG图。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

最终图形be like:

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

对了,在另一网友的测试中,Deepseek-v3也回答自己来自OpenAI??

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

该网友推测,这可能是因为在训练时使用了OpenAI模型的回复。

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

不过不管怎样,还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座,在一些网友心中,这比只搞期货的OpenAI遥遥领先。(手动狗头)

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...