首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

587次阅读
没有评论

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

南洋理工、新国大联手华为开源发布

FDABench团队 投稿

量子位 | 公众号 QbitAI

数据智能体到底好不好用?测评一下就知道了!

南洋理工大学、新加坡国立大学携手华为开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试FDABench

该基准横跨50+数据领域、设置了多种难度等级和任务类型,还独创了Agent-Expert协作框架,确保测试用例质量和数据一致性,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

团队使用FDABench对各种数据智能体系统进行了评估,发现每个系统在响应质量、准确性、延迟和token成本方面都表现出独特的优势。

下面详细来看。

将数据库、PDF、视频、音频异构数据源一网打尽

面对数据驱动决策的需求日益增长,这催生了对能够整合结构化和非结构化数据进行分析的数据智能体的迫切需求。

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽△Data Agent 样例
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽△Data Agent System架构

尽管数据智能体Data Agents在让用户执行复杂分析任务方面展现出潜力,但该领域仍存在三个关键局限性:

  • 首先,由于难以设计出能评估智能体在多源分析任务中各项能力的测试用例,全面的数据智能体Benchmark仍然缺失;
  • 其次,构建结合结构化和非结构化数据的可靠测试用例成本高昂且极其复杂;
  • 第三,现有基准的适应性和通用性有限,导致评估范围狭窄。

为应对这些挑战,团队提出了FDABench,这是首个专门为评估多源数据分析场景中的智能体而设计的数据智能体基准。

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽△FDAbench概览

这个基准涵盖了2007个不同的测试任务,覆盖50多个领域,比如金融、电商,还有简单、中等、难三种难度。 推理所需数据包括结构化数据库、PDF文档、视频、音频等异构数据源。

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确结论,包含具体数值和综合报告推理)、写报告(比如整合数据出分析报告),能全面测数据智能体的能力。

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽△FDABench样例

团队还设计了统一Agent-Expert协作框架,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式(规划Planning、工具使用Tool-use、反思Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。

不管数据智能体是靠“提前规划步骤”、“调用工具”、“自我修正”还是“多智能体协作”工作,都能兼容测试,不用换个数据智能体就重新搭测试框架。

研究人员用FDABench测试了市面上常见的几种数据智能体。

一类是通用的数据分析系统,比如能生成财务报告的DAgent、能处理多模态数据的Taiji;

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

一类是擅长语义理解的语义算子系统,比如能精准处理用户自然语言查询的LOTUS;

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据辅助分析)的系统,比如Data Agent+GraphRAG。

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

研究人员也提供了对于不同基础模型和智能体架构的全面测试:

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

团队还尝试去对每种数据智能体进行计算资源拆解,统计了数据智能体每个阶段的耗时和总体系统延迟:

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

测试后发现:

  • 架构复杂度权衡
  • 复杂Data Agent架构(如Multi-Agent、Reflection)在异构数据分析准确性上显著优于简单架构,但代价是计算成本成倍增加(6-20倍资源消耗),简单架构如Planning则在效率上占优但面对复杂问题适应性有限;
  • 计算资源重分配效应
  • 观察到不同Data Agent架构本质是通过重新分配计算开销实现优化——Reflection架构将26-29%计算用于重试机制换取高质量输出,Planning架构将32-35%用于生成阶段保证效率,这种“认知负载重分配”为根据任务场景选择合适架构提供了量化指导
  • 模型-架构适配性
  • 大规模Agenic Data下预训练的模型即使是Non-Thinking Model(如Kimi-k2)在复杂Multi-Agent和Reflection架构下依旧表现突出,一些Thinking Model(如DeepSeek-R1)在复杂Data Agent架构中反而出现“双重推理惩罚”现象,这表明模型选择需要匹配架构复杂度。

总结一下就是,没有完美的Data智能体,有的快但复杂任务拉胯,有的准却费钱又慢,选的时候要看需求。

而FDABench的作用,就是帮你清楚测出哪个系统最适合你的需求。

论文地址:https://arxiv.org/pdf/2509.02473
代码地址:https://github.com/fdabench/FDAbench

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
首家央企AI独角兽浮出水面!背靠自研大模型,4家国家队资本背书

首家央企AI独角兽浮出水面!背靠自研大模型,4家国家队资本背书

首家央企AI独角兽浮出水面!背靠自研大模型,4家国家队资本背书 Jay 2026-01-07 15:24:04...
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少 闻乐 2026-01-05 19:...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...