DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

1,100次阅读
没有评论

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

团队还给基准测试挑出了bug

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek版o1,有消息了。

还未正式发布,已在代码基准测试LiveCodeBench霸榜前三,表现OpenAI o1的中档推理设置相当

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

注意了,这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。

而是摘掉了轻量版的帽子,称为DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型

LiveCodeBench团队透露,他们正在与DeepSeek合作评估新模型的能力,在合作过程中,DeepSeek团队还帮他们找出并解决了评分系统的一些bug。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

与此同时,他们还晒出了目前仅有的一张DeepSeek-R1-Preview的思考过程。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

鉴于DeepSeek此前已宣布R1模型将开源,有网友表示,与OpenAI o1编程能力相当的开源模型即将发布,2025年的编程就只剩下按Tab键了。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek推理大模型满血版

两个月前,DeepSeek在官网上线DeepSeek-R1-Lite-Preview时曾透露:

DeepSeek-R1-Lite-Preview使用强化学习训练,推理含大量反思和验证,遵循新的Scaling Laws——

推理越长,表现越强。

在AIME测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview表现出稳定的得分提升。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

DeepSeek-R1-Lite推理的特点在网友们的后续测试中也得到了验证:

在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构技术报告/论文的细节,很难确认这一点。

期待未来的开源模型和API!

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

摘掉Lite的帽子,变成DeepSeek-R1-Preview,意味着换了更大的基础模型。

之前Lite版就在难度较高数学和代码任务上超越o1-preview,大幅领先GPT-4o。

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

这次在LiveCodeBench上,这次的DeepSeek-R1-Preview的表现又与OpenAI o1-Medium相当,网友们更加期待开源模型和API了。

LiveCodeBench由UC伯克利、MIT和康奈尔大学团队推出,旨在对大模型的代码能力进行全面且无污染的评估。

具体避免测试数据泄露的方法,是随着时间的推移不断从人类的编程竞赛平台收集新的题目。

除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力。

这样实时更新、确保公平性和可靠性的测试方法,获得了开发者社区的认可。

还有程序猿喊话Cursor直接把R1-Preview集成到Agent mode里:

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

One More Thing

赶在春节前,许多还在做训练的国产大模型团队,都把自家模型更新了一遍:

MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业

阿里开源首个视觉推理模型,击败GPT-4o,网页一度404

……

OpenAI似乎要趁这边放假开始搞事情了(狗头),奥特曼发帖透露:

o3-mini完成外部合作测试,已确定最终版,将在几周内推出,会同时上线API和ChatGPT

DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

在后续对话中,奥特曼还确认了未来模型更多基本情况:

  • o3-mini的速度会非常快
  • o3-mini大多数情况下不如o1-pro
  • o3 pro收费从$200/月起步
  • OpenAI正在关注如何让AI一次性输出更多内容
  • 2025年计划把GPT系列和o系列合并
DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键

参考链接:
[1]https://x.com/StringChaos/status/1880317308515897761
[2]https://x.com/deepseek_ai/status/1859200149844803724
[3]https://x.com/sama/status/1880356297985638649

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式 十三 2026-01-07 12:47:06 来源:量子位 树立...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 梦瑶 2026-01-0...