鄂维南李航领衔造高级论文搜索Agent，召回率和精准性超谷歌学术等，磕盐党狂喜

十三
2025-01-26
16:22:10

来源：量子位

复杂学术搜索告别人工

西风发自凹非寺

量子位 | 公众号 QbitAI

中科院院士鄂维南、字节AI实验室总监李航领衔，推出高级论文搜索Agent。

名为PaSa，两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务，模仿人类复杂学术搜索行为。

现在就有Demo可玩。

只需提供研究主题或描述想法，它就会迅速展开搜索并按相关度自动排列组织顺序。

点击标题卡，不用跳转页面，就能显示论文作者和摘要，再点击带有跳转链接的标题就能查看完整论文：

还可以点击每个标题卡后面的小方框，打包下载JSON、BIB格式文件：

更重要的是其召回率和精准性。

实验中，PaSa在召回率和精确率等指标上显著优于谷歌、谷歌学术、Google with GPT-4o、ChatGPT等基线模型。

在AutoScholarQuery测试集，与最强基线PaSa-GPT-4o相比，PaSa-7b的召回率提高了9.64%；在团队创建的数据集RealScholarQuery上，与最佳基于Google的基线Google with GPT-4o相比，PaSa-7b在召回率@20、召回率@50和召回率@100上分别提升37.78%、39.90%和39.83%。

磕盐党狂喜～

两个Agent组成

目前学术搜索系统，如谷歌学术搜索，常难以有效处理复杂的查询，导致研究人员需花费大量时间手动文献搜索。

比如询问”Which studies have focused on non-stationary reinforcement learning using value-based methods, specifically UCB-based algorithms?”。

（哪些研究聚焦于非平稳强化学习中基于值的方法，特别是基于UCB算法的研究）

虽然利用LLM来增强信息检索的研究越来越多，但学术搜索不仅需要检索，还需要深入阅读论文和检查引用，完成全面的文献调查。

为此，研究团队开发了PaSa系统，主要包含两个大模型Agent：Crawler（爬虫）、Selector（选择器）。

Crawler负责处理用户查询，生成多个搜索命令，并检索相关论文。

具体来说，它执行一个基于token的马尔可夫决策过程（MDP）。动作空间A对应于LLM的词汇表，其中每个token代表一个动作。LLM充当策略模型，Agent的状态由当前的LLM上下文和论文队列定义。

Crawler使用三个注册函数进行操作：

[Search]用于生成搜索查询并调用搜索工具
[Expand]用于展开论文的特定章节并提取其中的引用
[Stop]用于重置上下文到用户查询和队列中的下一篇论文。

当动作与函数名称匹配时，将执行相应的函数，进一步修改Agent的状态。

例如，如下图所示，Agent首先接收用户查询，将其纳入其上下文并开始执行动作。如果生成的token是[Search]，则LLM继续生成搜索查询，Agent调用搜索工具来检索论文，然后将这些论文添加到论文列表中。

如果token是[Expand]，则LLM继续从其上下文中的当前论文中提取子节名称。Agent随后使用解析工具提取该子节中引用的所有论文，并将它们添加到论文列表中。

如果token是[Stop]，则Agent将其上下文重置为用户查询以及论文队列中下一篇论文的信息，这些信息包括标题、摘要以及所有部分的概述。

Selector则负责仔细阅读每篇论文，评估是否满足用户查询要求。

它接收两个输入：一个学术查询和一篇研究论文（包括其标题和摘要），

生成两个输出：

一个单一的决策token，可以是“True”或“False”，表示论文是否满足查询，以及一个理由，包含m个支持该决策的token。理由有两个目的：通过联合训练模型生成决策和解释来提高决策准确性，并通过在PaSa应用中提供推理来提高用户信任。

实验中优于所有基线

团队使用包含来自AI顶会收录论文的35k个细粒度学术查询及其对应论文的合成数据集AutoScholarQuery，通过强化学习优化PaSa。

此外，还开发了一个收集真实世界学术查询的基准数据集——RealScholarQuery，用于在更现实的场景中评估PaSa 的性能。

实验中，Crawler和Selector均基于Qwen2.5-7b，最终的Agent称为PaSa-7b。

如下表5所示，PaSa-7b在AutoScholarQuery测试集上优于所有基线。

与最强的基线PaSa-GPT-4o相比，PaSa-7b的召回率提高了9.64%，精度相当。此外，PaSa-7b中Crawler的召回率比PaSa-GPT-4o高3.66%。

与最佳的基于Google的基线Google with GPT-4o相比，PaSa-7b在召回率@20、召回率@50和召回率@100上分别实现了33.80%、38.83%和42.64%的提升。

团队还观察到，在推理过程中使用多个Crawler集成可以提升性能。具体来说，在推理过程中运行两次Crawler，使 AutoScholarQuery上的Crawler召回率提高了3.34%，最终使整个PaSa系统的召回率提高了1.51%，同时保持精度相似。

为了在更现实的场景中评估PaSa，团队在RealScholarQuery上评估了其有效性。如表6所示，PaSa-7b在真实世界的学术搜索场景中表现出更大的优势。与PaSa-GPT-4o相比，PaSa-7b的召回率提高了30.36%，精度提高4.25%。

与RealScholarQuery上最佳的基于Google的基线Google with GPT-4o相比，PaSa-7b在召回率@20、召回率@50和召回率@100上分别超过Google 37.78%、39.90%和39.83%。

此外，PaSa-7b-ensemble进一步将Crawler召回率提高了4.32%，使整个系统的召回率提高了3.52%。

鄂维南、李航领衔

PaSa由中科院院士、北大教授鄂维南，字节跳动AI实验室总监*李航领衔提出。

鄂维南，中科院院士、“AI for Science”概念的提出者。

15岁就被中科大录取，可以进“少年班”的他还是选择了进数学系学习纯数学。

而在大四之时，由于希望“自己学的东西真正有用，而不是只有高深”，他突然改变方向，决定改读应用数学。

我的内心深处是属于入世的，想跟社会跟技术产生一点联系，我不是那种能一辈子待在象牙塔里的人。

最终，他一路从中国科学院、UCLA完成硕博士学位（博士期间的导师为著名应用数学家Bjorn Engquist教授）。

博士毕业之后几年，鄂维南进入普林斯顿高等研究院和纽约大学的库朗研究所，分别担任研究员和教授。并在1999年即36岁之时成为普林斯顿大学数学系和应用数学及计算数学研究所教授，转年加入北大。

2011年，48岁的鄂维南当选中国科学院院士。

其贡献包括：

与合作者一起把偏微分方程、随机分析及动力系统的理论进行巧妙结合，用于研究随机Burgers方程、随机passive scalar方程、随机Navier-Stokes方程和Ginzburg-Landau方程等，证明不变测度的存在性和唯一性，分析稳定解的特性，并在此基础上解决了Burgers湍流模型中一些存有争议的问题。
与合作者一起构建一种十分有效的数值方法——弦方法，使之成为研究物理、生物和化学领域中稀有事件的一个重要手段。
提出设计与分析多物理模型的多尺度方法的一般框架等等。

从2014年开始，鄂院士的职业生涯迎来又一个转折，他开始正式进入机器学习领域，并在2018年提出“AI for Science”的概念。

李航，字节跳动AI实验室总监之一，同时当选三大国际顶级学会（ACL，IEEE，ACM） Fellow。

他的主要研究方向包括信息检索、NLP、统计机器学习和数据挖掘。

他在日本京都大学电气工程系获得硕士学位，并于东京大学计算机科学博士毕业，曾担任日本NEC公司中央研究所研究员、微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室首席科学家。

论文链接：https://arxiv.org/abs/2501.10120
demo：https://pasa-agent.ai/

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

鄂维南李航领衔造高级论文搜索Agent，召回率和精准性超谷歌学术等，磕盐党狂喜

鄂维南李航领衔造高级论文搜索Agent，召回率和精准性超谷歌学术等，磕盐党狂喜

两个Agent组成

实验中优于所有基线

鄂维南、李航领衔

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

这个5亿播放的AI视频，邪乎得平平无奇

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

首批“数字员工”组团进大厂！7个岗位干爆KPI，提前锁定年度最佳企业级Agent

开源Qwen凌晨暴击闭源Claude！刷新AI编程SOTA，支持1M上下文

再次拔高上限！夸克健康大模型通过12门主任医师考试

马斯克xAI挖走何宜晖：英伟达顶级工程师，西安交大校友

3D生成补上物理短板！首个系统性标注物理3D数据集上线，还有一个端到端框架

国内首个通过主任医师评测的大模型，已在夸克AI搜索上线