蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

497次阅读
没有评论

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

参数规模不是唯一解药,Agent Data才是破局关键

MedResearcher-R1团队 投稿

量子位 | 公众号 QbitAI

不卷参数的专业模型,会不会被通用大模型取代?

医疗领域,这个疑问正在被打破。

蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告,证明了一条关键路径:专业开源模型只要做好领域化设计,有机会在垂直赛道上“以小博大”,反超通用大模型。

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

团队发布的医学AI智能体MedResearcher-R1,靠2100条(约2K规模)训练样本,在权威医疗基准测试MedBrowseComp上,将复杂医疗研究任务的准确回答数量提升至27.5

刷新该榜单纪录的同时,超过o3、Gemini 2.5 Pro等领先通用大模型,突破了此前25.5的业界准确回答“卡点”。

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

让AI学会像医学专家那样思考

研究背景

现在,基于大语言模型 (LLM) 的Agent已展现出跨越多个领域的卓越能力。

例如深度研究系统在复杂信息搜索和合成任务中就展现了高性能。但它们在医疗等专业领域容易出现不同程度的“水土不服”,面对复杂医疗查询时也常“掉链子”,核心问题就两个:

  1. 缺“专业储备”:通用模型没有密集的医疗知识,面对罕见病、多病症关联等场景,支撑不了临床推理;
  2. 缺“精准工具”:依赖公开网页搜索的通用工具,要么找不到权威医疗数据,要么被错误信息干扰,无法保障推理严谨性。

而MedResearcher-R1的突破源于数据、工具、训练方法三大核心创新。

据此,蚂蚁团队提出了知识指引下的轨迹合成框架(KISA),在12个医学专业领域生成了2100多条不同的轨迹,每条轨迹平均与4.2个工具交互,为构建“专家级AI医疗研究员”提供了全新范式

三大核心技术:不堆参数,只做 “精准突破”

MedResearcher-R1没有走“堆参数、喂海量数据”的老路,而是从“让AI学会像医学专家那样思考”出发,做了三个关键设计:

1. 主动 “造难题”:从3000万文献里炼出“4.2步推理题”

传统AI训练靠“啃现成数据”,而MedResearcher-R1学会了“自己造题”,尤其是医疗领域的“高难度研究型问题”。

研究团队先从超过3000万篇医学文献中,筛选出罕见病、特殊药理机制等“冷门但关键”的医学实体,再围绕这些实体搭建知识图谱。

最核心的一步是:从知识图谱里提取“最长推理路径”——比如“罕见遗传病→关联基因→靶向药物→代谢副作用”的多环节链条,最终生成需要平均调用4.2次工具才能解决的复杂问题。

这意味着AI训练时学的不是“翻书查答案”,而是“拆解问题、逐步验证”的专家级思维,比如面对“某罕见心脏病的用药副作用”,它会主动追溯药物机制、临床数据,而非直接套模板回答。

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

2. 专属“工具箱”:不囿于公开搜索,直连权威医疗数据源

通用领域Deep Research Agent的“软肋”之一,是只能依赖公开网页搜索。

在医疗场景里,未经筛选的网络公开检索信息不仅可能过时,还可能混杂非临床级数据。

MedResearcher-R1直接配备了私有化部署的医疗专用工具集:通过直接访问国际医疗指南、核心医学期刊等一手权威信源,尽可能从根源上避免“信息噪音”。

比如在回答“某药物成分”时,它会直接调取官方药品注册数据,而非依赖可能出错的公开科普;验证“药物副作用”时,会对接临床验证结果,确保每一步推理都有权威依据。

3. 不教“背诵”教“思考”:「蒙版轨迹引导(Masked Trajectory Guidance)」技术“逼”出AI的自主能力

怕AI“死记硬背”?MedResearcher-R1的训练方法直接改道而行。

蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录

研究团队用了一种“蒙版轨迹引导(Masked Trajectory Guidance)”技术:训练时只给 AI一个“推理框架”(比如“疾病→药物→副作用”的逻辑链),但隐藏关键实体信息(比如具体疾病名称、药物成分)。

这就逼着AI必须主动调用工具:查疾病指南确认病症、搜药品数据库匹配成分、验临床数据验证副作用,最终自己“拼出”完整推理链。

这种训练不是“喂答案”,而是“教方法”——最终提升了小模型的泛化能力,在面对没见过的新医疗问题,也能像人类研究员一样自主拆解、验证。

举个具体例子:当被问及“某药物的活性成分(需满足质数剂量、受体拮抗机制等多条件)”时,通用AI通常会根据各种公开信息进行全面整理给出不同答案;

而MedResearcher-R1会先查企业史锁定药企,再调取药物信息,接着验证成分的化学结构与受体机制,最后确认副作用 ——整套流程复刻人类医学研究员的工作逻辑,最终给出具体药物名称。

既要追求专业,还要“不偏科”

更值得注意的是,蚂蚁还在攻克其专业模型的 “通用研究能力”提升,试图打破“专业模型只能干一行”的刻板印象。

从GAIA、xBench等通用AI助手基准测试结果来看,MedResearcher-R1的表现也保持业界前列,初步验证小规模模型可以同时兼具“领域深度”和“通用广度”,避免因为“专精医疗”而变成“偏科生”。

MedResearcher-R1等专业模型发展的意义,不在于一次次测试结果,而是验证另一种可能性:在医疗、法律、工业等专业领域,“参数规模”不是唯一解药,“Agentic Data”才是破局关键——通过精准的数据源搭建、专用工具开发、创新训练方法,小规模模型有机会能啃下硬骨头。

在容错率极低的医疗领域,专业模型仍然需要不断提升可解释性、合规性等,这也是行业未来面临的共同挑战。

目前,研究团队已宣布将MedResearcher-R1的代码和数据集开源,希望在推动全球研究者在该领域的协同创新,加速开发能够辅助人类专家、提升医疗研究效率与质量的下一代AI工具。

感兴趣的朋友可通过官网链接直接体验。

官网链接:https://chat.antaq.com/
报告地址:https://arxiv.org/abs/2508.14880

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026 西风 2025-12-13 12:5...
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了 鹭羽 2025-12-13 22:43:25 来源...
美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型 鹭羽 2025-12-13 22:41:00 来源:量子位 三连发:真实场景...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026 西风 2025-...