Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

167次阅读
没有评论

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

开发者平台、Claude Code及App也都升级了

西风 发自 凹非寺

量子位 | 公众号 QbitAI

两小时高强度工程任务,模型得分超过所有人类。

刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

让它用附件模板创建财务对比分析,分分钟就能完成模板读取、同行数据收集与估值倍数表创建,直接输出Excel成果:

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

用它修改法律文档,它也能迅速解包模板、修改公司名称、检查签名块,最终生成的Word文件包含修订痕迹与定制内容:

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

团队实测中发现,模型核心优势在于“理解力”,它能解决Sonnet模型无法发现的bug,同时知道“何时先思考再行动”。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

目前,Opus 4.5已通过app、API及三大主流云平台开放使用。开发者通过Claude API调用claude-opus-4-5-20251101即可使用,定价每百万tokens 5美元(输入)/25美元(输出)

与此同时,官方还更新了Claude开发者平台、Claude Code及App,并拓展了在Excel、Chrome及桌面端使用Claude的新方式。

编码智能体能力全面升级

团队内部测试发现,Claude Opus 4.5能够自主处理模糊场景、权衡复杂决策,无需人工引导;面对跨系统复杂漏洞时,可独立定位并提供修复方案。

之前Sonnet 4.5几乎无法完成的任务,如今Opus 4.5已能轻松胜任。测试者普遍认为Claude Opus 4.5能“真正理解用户需求”。

团队向应聘性能工程师职位的候选人发放了一份业界公认难度极高的居家测试(take-home exam)。同时,他们也将这份考题作为内部基准,用来测试Claude Opus 4.5。

在规定的2小时时间限制内,Claude Opus 4.5的得分超过了所有参加过该考试的人类候选人

团队表示,该居家测试旨在评估技术能力与时间压力下的判断力,这一结果引发了关于AI如何重塑工程行业的思考。

下面来看具体数据。

视觉处理、推理与数学方面,Claude Opus 4.5均超越前代,达业界顶尖水平:

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

编码能力方面,Opus 4.5在SWE-bench多语言测试中,8种编程语言里有7种的表现位列榜首。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

在Aider Polyglot基准测试中,面对高难度编码难题,得分较Sonnet 4.5大幅提升10.6%

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

Opus 4.5在智能体搜索方面也有显著提升:

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

长时任务续航能力拉满,在Vending-Bench测试中,Opus 4.5的任务完成收益较Sonnet 4.5高出29%,全程保持高效输出不跑偏:

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

团队强调,模型的实际能力甚至比部分测试基准测出来的要更好。有时候,Claude的解决方案会超出预期,基准测试会将此判定为失败。

比如在τ2-bench中,有一个场景,模型必须扮演航空公司服务Agent,帮助一位陷入困境的客户。基准测试预期模型应拒绝修改基础经济舱预订(因该舱位规定不可更改),但Opus 4.5却找到了巧妙且合规的解决方案:先升级舱位,再修改航班。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

最后,Claude Opus 4.5安全防护能力升级,尤其是在抵御提示词注入攻击等方面:

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏
Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

开发者平台以及系列产品升级

面向开发者,Claude API新增了“努力度参数” (effort parameter),开发者可根据需求选择最小化时间与成本或最大化能力表现。

在中等努力度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5的最佳得分,输出tokens用量却减少76%。

在最高努力度设置下,其性能较Sonnet 4.5提升4.3个百分点,同时tokens用量减少48%。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

借助努力度控制、上下文压缩及高级工具调用功能,Claude Opus 4.5支持更长时运行、更多任务处理,且所需人工干预大幅减少。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

Claude Opus 4.5还能高效管理多个子智能体,支持构建复杂协调的多智能体系统。

在团队测试中,结合这些技术,Opus 4.5在深度调研评估中的表现提升了近15个百分点。

另外,Claude系列产品也随之升级了。

随Opus 4.5的发布,Claude Code推出两大新功能:

计划模式(Plan Mode)现在能生成更精准的执行计划并全面落地,Claude会先主动确认需求细节,再生成可编辑的 plan.md文件后执行操作。

Claude Code现已登陆桌面端应用,支持并行运行多个本地及远程会话,也就是说,可同时安排一个智能体修复漏洞,一个检索GitHub,另一个更新文档。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

对于Claude app用户,再也不用担心上下文窗口不够,长对话中断。现在Claude会自动按需总结之前的对话内容,聊天直接解锁无限续航模式

除此之外,支持跨标签页处理任务的Chrome浏览器Claude扩展程序,现已向所有Max订阅用户开放。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

Claude for Excel今日起将测试权限扩展至所有Max、Team及Enterprise用户。

Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏

面向可使用Opus 4.5的Claude及Claude Code用户,官方取消了Opus专用限额。针对Max与Team Premium用户的整体使用额度已上调,Opus tokens用量与此前Sonnet大致持平。

官方Blog:https://www.anthropic.com/news/claude-opus-4-5
参考链接:https://x.com/claudeai/status/1993030546243699119?s=20

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...