DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

西风
2025-01-19
12:01:09

来源：量子位

团队还给基准测试挑出了bug

梦晨西风发自凹非寺

量子位 | 公众号 QbitAI

DeepSeek版o1，有消息了。

还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

而是摘掉了轻量版的帽子，称为DeepSeek-R1-Preview（预览版），意味着替换了规模更大的基础模型。

LiveCodeBench团队透露，他们正在与DeepSeek合作评估新模型的能力，在合作过程中，DeepSeek团队还帮他们找出并解决了评分系统的一些bug。

与此同时，他们还晒出了目前仅有的一张DeepSeek-R1-Preview的思考过程。

鉴于DeepSeek此前已宣布R1模型将开源，有网友表示，与OpenAI o1编程能力相当的开源模型即将发布，2025年的编程就只剩下按Tab键了。

DeepSeek推理大模型满血版

两个月前，DeepSeek在官网上线DeepSeek-R1-Lite-Preview时曾透露：

DeepSeek-R1-Lite-Preview使用强化学习训练，推理含大量反思和验证，遵循新的Scaling Laws——

推理越长，表现越强。

在AIME测试基准中，随着推理长度的增加，DeepSeek-R1-Lite-Preview表现出稳定的得分提升。

DeepSeek-R1-Lite推理的特点在网友们的后续测试中也得到了验证：

在某些情况下，模型似乎能够在生成推理步骤时自我纠正，表现出类似原生“自我反思”的能力。不过，没有训练数据、模型架构和技术报告/论文的细节，很难确认这一点。

期待未来的开源模型和API！

摘掉Lite的帽子，变成DeepSeek-R1-Preview，意味着换了更大的基础模型。

之前Lite版就在难度较高数学和代码任务上超越o1-preview，大幅领先GPT-4o。

这次在LiveCodeBench上，这次的DeepSeek-R1-Preview的表现又与OpenAI o1-Medium相当，网友们更加期待开源模型和API了。

LiveCodeBench由UC伯克利、MIT和康奈尔大学团队推出，旨在对大模型的代码能力进行全面且无污染的评估。

具体避免测试数据泄露的方法，是随着时间的推移不断从人类的编程竞赛平台收集新的题目。

除了代码生成，还会评估模型在代码自修复、执行和测试输出预测等方面的能力。

这样实时更新、确保公平性和可靠性的测试方法，获得了开发者社区的认可。

还有程序猿喊话Cursor直接把R1-Preview集成到Agent mode里：

One More Thing

赶在春节前，许多还在做训练的国产大模型团队，都把自家模型更新了一遍：

MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

全球首次！国产AI开源端侧GPT-4o海外爆火，8B参数iPad就能跑

国内数学最强！实测讯飞版o1：上能打奥赛卷高考，下能辅导寒假作业

阿里开源首个视觉推理模型，击败GPT-4o，网页一度404

……

OpenAI似乎要趁这边放假开始搞事情了（狗头），奥特曼发帖透露：

o3-mini完成外部合作测试，已确定最终版，将在几周内推出，会同时上线API和ChatGPT。

在后续对话中，奥特曼还确认了未来模型更多基本情况：

o3-mini的速度会非常快
o3-mini大多数情况下不如o1-pro
o3 pro收费从$200/月起步
OpenAI正在关注如何让AI一次性输出更多内容
2025年计划把GPT系列和o系列合并

参考链接：
[1]https://x.com/StringChaos/status/1880317308515897761
[2]https://x.com/deepseek_ai/status/1859200149844803724
[3]https://x.com/sama/status/1880356297985638649

2025 年 1 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek推理大模型满血版

One More Thing

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了