北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

十三
2025-06-10
14:08:10

来源：量子位

IDA-Bench：给AI一场真实的“随堂测验”

北大邓小铁课题组投稿

量子位 | 公众号 QbitAI

给大模型当老师，让它一步步按你的想法做数据分析，有多难？

结果是，连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手，都开始“不听话”了。

在一个全新的测试基准中，它们面对多轮、不断演进的指令，最终的任务成功率最高仅有40%。

这项名为IDA-Bench的新基准，就是为了模拟真实世界中这种“边想边改”的分析场景而生。

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

它不再是给模型一道题，让它一口气算完；而是模拟一位真实的数据分析师，在对话中不断给出新指令，考察Agent在多轮交互中的真实能力。

可以说，专治各种“自作主张”和“一意孤行”的AI。

值得一提的是，这项工作由一支星光熠熠的团队打造，汇集了北京大学与加州大学伯克利分校的顶尖学者，其中不乏机器学习泰斗Michael I. Jordan教授，仿真科学领域专家郑泽宇 (Zeyu Zheng) 副教授，以及ACM/IEEE Fellow邓小铁 (Xiaotie Deng) 教授的身影。

“不听话”的AI，问题出在哪？

目前，我们看到的很多大模型数据分析工具，比如OpenAI、Gemini和Claude的网页应用，能力已然非常强大。

但现有的评估基准，大多侧重于单轮互动：用户给出一个明确的、预设好的任务，然后看Agent能否成功执行。
可现实世界的数据分析，远非如此。

真实的数据分析师，工作流程是迭代式、探索性的。他们会先查看数据分布，再决定如何处理异常值；会根据初步结果，调整后续的分析策略。这些决策充满了基于领域知识的“主观性”，指令也是一步步演进的。

现有基准恰恰忽略了这种动态交互过程，因此无法全面评估Agent在真实协作场景下的可靠性。

IDA-Bench：给AI一场真实的“随堂测验”

为了解决这一痛点，IDA-Bench应运而生。它旨在忠实地反映真实数据分析的主观性和交互性特征。

整个测试框架包含四大核心组件：

指令材料 (Instruction Materials)：从真实的、复杂的Kaggle数据分析项目（Python notebooks）中提取，包含背景知识、分析目标和专家的“主观洞察”。
模拟用户 (Simulated User)：由一个大模型扮演，它会参照指令材料，像真人一样逐步向Agent下达指令，甚至会提出模糊或不断变化的要求。
Agent：即被测试的大模型，它的任务是严格遵循“用户”的指令，通过编写和执行代码来完成任务。
沙盒环境 (Sandbox Environment)：一个安全隔离的环境，Agent可以在其中执行代码、访问数据，并像在Jupyter中一样保持上下文。

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

△图1：(左) IDA-Bench的测试场景，(右) IDA-Bench中的任务轨迹示例

为了确保任务的真实性和时效性，防止数据污染，IDA-Bench的构建流程完全自动化。它能持续从Kaggle上发布的最新项目中提取任务，经过筛选、预处理和人工检查后，生成新的测试用例。

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

△图2: IDA-Bench的自动化构建流程

Agent惨遭滑铁卢，最高分仅40

在这样一套“严刑拷打”下，各大模型纷纷现出原形。

初步评估结果显示，即便是最先进的大模型，成功率也不足50%。

具体来看，Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表现位列第一梯队，但其“基准达成率”（即结果达到或超过人类基准）也仅为40%。

而DeepSeek系列中，作为指令模型的DeepSeek-V3（24%）表现明显优于其“思考型”模型DeepSeek-R1（12%），这揭示了一个核心挑战：在遵循指令和自主推理之间取得平衡，对当前Agent来说非常困难。

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

△表1: 各大模型在IDA-Bench上的表现

此外，Agent们在任务中还会犯下各种低级错误，导致提交结果无效。其中最主要的原因是根本没有生成提交文件，这往往源于模型的“幻觉”。

“自信”的Claude vs “谨慎”的Gemini

深入分析失败案例，研究团队发现不同模型展现出了迥异的“性格”。

Claude-3.7和DeepSeek-R1表现得像个“过度自信”的实习生。

它们不怎么遵循用户的具体指令，而是主动推进分析流程，结果常常因为“自作主张”而错过了关键步骤和信息。比如，用户建议用一种新方法改进模型，Claude-3.7不等尝试就直接否定，并提交了之前效果较差的结果。

相比之下，Gemini-2.5-Pro则像一个“过度谨慎”的助理。它每走一步都要反复向用户寻求确认，有时一个简单的数据清洗操作能来回沟通30轮，最终因超过回合数限制而任务失败。

幻觉或夸大：许多Agent会声称执行了并未进行的操作，比如号称“优化”了参数，但实际只是随机设置；更有甚者，凭空捏造从未生成的代码和不存在的数字结果。
格式错误：提交文件的列名大小写弄反，或数据类型不对（如在二分类任务中，要求提交标签“0”或“1”，模型却提交了标签为“1”的概率），都是常见的低级错误。
固守首次尝试：一些Agent在初期会做出一个简单粗暴的尝试（比如在预测任务中，模型在初期会直接用训练集的中位数作为预测值），然后就“固执己见”，在后续交互中不再根据新指令开发更复杂的模型。
级联错误：当一个代码块中途执行失败时，Agent有时会“假装”它成功了，导致后续代码块因为引用不存在的变量而出错，引发连锁反应。

这些发现凸显了当前LLM Agent在真正成为可靠数据分析助手之前，仍需在理解、遵循和交互能力上进行大量改进。

论文链接:
https://arxiv.org/abs/2505.18223

项目主页:
https://github.com/lhydave/IDA-Bench

2025 年 6 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

“不听话”的AI，问题出在哪？

IDA-Bench：给AI一场真实的“随堂测验”

Agent惨遭滑铁卢，最高分仅40

“自信”的Claude vs “谨慎”的Gemini

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定