GPT-5败下阵，这款中国AI拿下全球第一，众多医生已在用它做诊断

264次阅读

没有评论

GPT-5败下阵，这款中国AI拿下全球第一，众多医生已在用它做诊断

衡宇
2025-11-17
21:34:28

来源：量子位

为何能赢？安全、有效、更懂中国临床

衡宇发自凹非寺

量子位 | 公众号 QbitAI

在多数基层门诊里，一个医生往往要从早忙到晚，患者一拨接一拨。

病种繁杂、节奏飞快，查文献、请会诊这些理想中的操作，根本挤不进大夫有限的工作时间。

与此同时，慢病患者增多、随访任务越来越重，也让诊室之外的工作变得越来越难应付。

就在这样的日常困境里，一条政策落地了。

本月，国家卫健委发布了《促进和规范“人工智能+医疗卫生”应用发展的实施意见（以下简称“实施意见”）》。其中，“人工智能+基层应用”被列为八大重点方向之首。

国家层面还点明：

到2030年，基层诊疗智能辅助应用基本实现全覆盖。

而将其转化为临床实效，才是真正的考验。政策在推进，临床仍然拥堵；科研在进步，基层依旧高负荷。

基层医生真正需要的AI，一定不是炫技的AI，而是能在临床真正派上用场的助手。

可怎样的AI才能做到后者？

量子位走访多名专家，得到了一个统一的答案：能真正帮到中国基层医生的AI，必须同时做到两件事。

在诊中，能辅助临床决策，要安全、有效；
在诊后，能支撑患者随访，要规范、可持续。

可目前的AI，能在诊中给出有依据、可溯源、不误判的建议了吗？能在诊后帮忙顶住随访的压力、把慢病管得住吗？

最近，不少专家和基层医生，都在使用一个AI系统来把这两件事真正跑通。

它的名字，叫未来医生AI工作室。

安全、有效性击败GPT，夺得全球第一

AI能背指南、能写病历，并不代表能真正走进临床。

能否用于真实诊疗，医生只看两件事：安全&有效。

北京大学第三医院运动医学科江东教授说得很直接：“医疗AI的第一性原理，不是聪明，而是安全。”

可“安全有效”不是一句口号，得让医生来检验。

就在今年，一项由32位国内顶尖临床专家组织的“多模型临床实战测评”中，未来医生AI工作室的核心模型MedGPT，以明显优势击败OpenAI-o3、DeepSeek-R1、Gemini-2.5-Pro、Claude-3.7-Sonnet、Qwen3-235B等当时国际最前沿的知名大模型，夺得临床“安全”与“有效性”评测的全球第一。

这项测评已于7月正式公开发布，并接受学术同行评议。

△图源：arXiv:2507.23486

这场测评的意义非同一般。

过去几年，模型之间比的是“知识竞赛”，谁背得快、论文写得好，谁的名字在评测榜单上更亮。

但真正到了临床现场，医生最在意的不是模型偶尔答对，而是每次都不能出错。

这也是国家卫健委《实施意见》中明确写出的底线：

要坚持安全可控的原则，促进人工智能在医疗卫生领域的规范应用。

具体回到这场测试，本次比赛中，专家们首先围绕“安全性/有效性”，搭建了一套可量化的临床评估标准；然后从真实病历中抽丝剥茧，整理出2069道开放式问题，对所有模型进行了测试。

结果发现AI们总体不错，但“安全”上，却拉开了明显差距：

比如高风险问题上（药物相互作用、危重识别、并发症预警等），多款通用大模型得分明显下滑；
在涉及婴儿、儿童、免疫低下、慢病等易损人群时，有的模型会“偶尔很聪明，偶尔很危险”。

而在同一标准下的MedGPT ，表现则是另一种风格：

总分第一，领先第二名15.3%；
安全性得分比全部模型平均水平高出近70%；
在儿童、孕产妇、老年人等复杂人群场景中也很稳健，鲜少翻车。

△图源：arXiv:2507.23486

为什么差别会这么大？

因为路线完全不同。

GPT-5这一类通用大模型，本质是“根据概率生成最可能的那句话”。

而MedGPT从底层架构开始，就围绕临床推理、安全可控、循证链可追溯来打造。它的目标不是“回答得像人”，而是每一句话都安全、可验证、能复盘。

这才是临床要的东西。

诊中怕误判，诊后怕失管？这两位AI助手接住了最吃力的环节

走访的专家和医生告诉我们，在真实临床现场，最让人压力陡增的地方往往出现在两个环节：

诊中，不只怕病人多，更担心在海量问诊中漏掉关键风险；
诊后，不只怕病情复杂，更担心患者出院后失去有效管理。

任何一环的疏漏，都是医疗质量的风险点。

围绕这两个最容易掉链子的关键时刻，未来医生AI工作室的破题思路很直接。

那就是用两个场景化的AI助手，一前一后，精准卡位。

诊中：怕误判？临床决策AI助手当你的「智能参谋」

诊室如战场，关键的几分钟往往决定全局。

信息有限，病情复杂，时间分秒流逝，医生必须在巨大压力下快速厘清：风险在哪？用药是否安全？有没有被遗漏的关键？还缺什么检查？

这时，基层医生最需要的不是一个冷冰冰的知识库，而是一个真正懂临床、能并肩作战的“智能参谋”——未来医生AI工作室·临床决策AI助手。

△邓春华在日常工作中使用未来医生·临床决策AI助手（已获教授本人授权）

它的工作方式极其贴合临床实际：

输入极简
医生用口语描述病情都能被精准理解，无需规范术语
思考可视
自动梳理症状链、风险点及缺失信息
风险预警
实时提示药物冲突、高危体征、特殊人群禁忌，高度注重安全性
循证支撑
只引用高等级医学证据，每项建议都附证据卡，注明指南出处和证据等级

更重要的是，它不是靠宣传赢得认同，而是靠实战医生的检验赢得口碑。

多位专家与基层门诊的医生向我们反馈，未来医生·临床决策AI助手特别适合在高强度高负荷的节奏中，帮助医生更快看到风险点，理清复杂病例。

中⼭⼤学附属第⼀医院泌尿男科主任邓春华教授就是其中一名使用者。而之所以信赖使用，也与他和多位专家进行的一场“同题测评”有关。

他们曾从真实病例中抽取出一批分歧较大的典型疑难病例，分别交由GPT-5、OpenEvidence，以及未来医生·临床决策AI助手进行分析和决策，再从8个临床最关键的维度进行盲评。

结果显示，未来医生AI工作室·临床决策AI助手，在所有临床决策维度上均优于GPT-5和OpenEvidence。

△图源：https://ai.doctorwork.com/comparison

“它会帮我看到盲区，启发思考。”邓春华教授说，“这类思维链式的AI，能让基层医生也像专家那样看病例——有理、有据、有边界。”

这句话，也成了许多医生对这款工具最常见的反馈。

因为临床上最让人疲惫的不是“不会”，而是面对复杂病情时，怕遗漏、怕踩雷、怕不够稳。

如果有一个经过专家验证的工具，能帮你先把思路理顺，把风险点亮出来，那种心里的底气是实实在在的。

未来医生·临床决策AI助手真正做到的，就是让医生少一点焦虑，多一份把握。

诊后：怕失管？患者随访AI助手当你的「懂事助理」

诊中不易，但很多医生都清楚，真正容易出事的，往往发生在诊后。

尤其是慢病管理。

一个基层社区医生动辄要负责几百名患者，谁今天有点不舒服、谁症状悄悄变化了，很难有人能第一时间捕捉到。

医生嘴上不说，心里其实一直揪着。

未来医生·患者随访AI助手，就是专为这个阶段设计的。它代替医生“盯着”每一个诊后阶段的患者。

它像一位懂事的助理：

自动提醒患者复查、记录症状、调整生活方式；
对普通健康咨询即时答复；
一旦出现药物调整、症状加重等医疗问题，会自动上浮医生确认；
当患者提到“胸闷”“头晕”等高危词时，会自动识别风险进行高危预警。

不少社区医生体验后，都惊喜地说了同一句话：“原来随访也能这么省心。”

这种感受，在大医院同样出现。

解放军总医院第六医学中心（海军总医院）内分泌科主任医师、全科教研室主任郭启煜在连续使用一段时间后，给出了非常朴素却分量极重的评价：

它帮我看到那些已经出院、但仍需要被关注的人。

这句话说出来很轻，但每一位经历过慢病管理的医生都懂，平常真正让人担心的，从来不止在病房里的那几天，更是患者回家后的那几个月、几年。

能让这些人重新被“看见”，就是随访价值的核心。

△郭启煜教授在使用未来医生AI工作室 · 患者随访AI助手进行随访（已获教授本人授权）

诊中帮你“想得更全”，诊后帮你“看得更远”。

就这样一前一后，未来医生AI工作室的两款助手，接住了医生每天最吃力的两个环节。

好AI的标准很简单，那就是医生愿意用、放心用。

这种“少即是多”的设计理念，恰恰是未来医生AI工作室抓住了医疗AI落地的关键，没有追求花哨的功能，而是深耕临床最痛的两个环节。

不是替代医生，而是放大医生的价值。当AI真正融入工作流，成为医生敢依赖、离不开的伙伴，这场人机协同的变革才真正开始。

为什么主委们说：这是“基层+AI”目前看到的最佳实践？

很多医生跟我们说过一句很真实的话：“不是不想用AI，是一直找不到能放心托付的那一个。”

未来医生AI工作室能在一线快速用起来，其实靠的不是“功能多”，而是解决了最朴素、也是最关键的几个临床疑问：

我能看懂它是怎么想的吗？
它的建议，能让我一眼判断：用还是不用？
它是不是在我掌控下工作，而不是越界替我决策？

这三点，是医生判断一款AI能不能用的底线。

一句话总结就是：安全不安全？有效不有效？能不能掌控？

首先，未来医生AI工作室，先把“安全有效”拉满了。

从底层技术出发，未来医生AI工作室的大模型MedGPT就在安全性、有效性上大幅领先，并且还在临床推理实战中依然全面超越，被多位专家点赞。

它的建议，是安全有效、可信的，这就让医生有了第一重安全感。

其次，在产品层面，未来医生AI工作室又把“安全有效”拆成了医生能直接看懂的三层：可回溯、可解释、可预警。

这三点，精准击中医生最在意的东西，即不允许AI自作主张，不允许黑箱，不允许模棱两可。

它说的每句话都有出处、有边界，给了医生群体第二重安全感。

第三点也是最关键的一点，它一直坚持“人机协同”，而非取代医生。

不管是诊中还是诊后的协同过程，未来医生AI工作室的底层哲学都很明确：医生是所有诊疗行为的核心。

在整个诊疗链路中，AI的角色都是底层的思路提示、证据索引和风险提示支撑，只有医生牢牢掌握最终判断权。

这就带来了第三重安全感：不是“AI带着医生走”，而是“医生多了一双可靠的眼睛”。

三重安全感叠在一起，就构成了很多医生给我们的真实反馈——它不是替我做决定，而是让我做决定更稳。

这句话，也解释了为什么未来医生AI工作室能在一线快速落地，因为它不是在炫技，是给医生每天真正需要的那份放心感与掌控感。

目前，未来医生AI工作室已被数十位全国学科主委纳入日常使用。他们的使用反过来也在推动产品更贴近临床。

这次走访中，我们向所有专家都抛出了同一个问题：您心里AI赋能基层医疗的最佳实践是什么？

几乎所有人的回答都指向了同一个名字——未来医生AI工作室。

它的路径很简单。从临床中来，往临床里走。不浮夸，不炫技，也从不试图替代谁。

它关乎着每一位医生——无论身处顶尖医院还是基层卫生站——当面对复杂、模糊、容易踩雷的病情时，能让医生多一分从容、少一分不安。

未来医生AI工作室的价值，始终由临床现场的真实使用来定义，我们期待这样的AI助手能走进更多诊室，让AI真正融入基层医生的日常节奏，成为医疗现场里那份悄悄托底的力量。

小结

1、「AI+基层医疗」是国家重点政策导向场景，被放在「人工智能+医疗卫生」的八大重点方向的首位。

2、临床主委专家们一致认为，能真正帮到基层的AI，一定要满足2点：安全有效+人机协同。

3、未来医生的MedGPT在安全有效与临床实战评测中全面领先美国的 OpenAI的GPT5以及OpenEvidence。

4、「未来医生AI工作室」的临床决策辅助与智能随访能力，被临床主委专家们一致认为是AI赋能基层医疗的「最佳实践」，也得到了大量的一线基层医生的好评反馈。

如需体验，微信搜索“未来医生AI工作室”，即可进入超级医生个体时代。

参考文献：

[1]Shirui Wang, Zhihui Tang.A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains.
https://doi.org/10.48550/arXiv.2507.23486

[2]未来医生AI工作室与美国OpenEvidence、GPT5临床决策辅助场景评测对比.
https://ai.doctorwork.com/comparison

GPT-5败下阵，这款中国AI拿下全球第一，众多医生已在用它做诊断

GPT-5败下阵，这款中国AI拿下全球第一，众多医生已在用它做诊断

安全、有效性击败GPT，夺得全球第一

诊中怕误判，诊后怕失管？这两位AI助手接住了最吃力的环节

诊中：怕误判？临床决策AI助手当你的「智能参谋」

诊后：怕失管？患者随访AI助手当你的「懂事助理」

为什么主委们说：这是“基层+AI”目前看到的最佳实践？

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

2025 年 11 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

2025 年 11 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30