LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

新智元报道

编辑：Mindy

【新智元导读】图是组织信息的一种有用方式，但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法，显著提高LLMs在图形问题上超过60%的准确性。

在计算机科学领域，图形结构由节点（代表实体）和边（表示实体之间的关系）构成。图无处不在。互联网本身就像是一张庞大的网络图，甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。但由于LLMs主要在常规文本上训练，并没有图的结构，将图转化为LLMs能理解的文本是一项非常复杂的任务。在ICLR 2024上，一支来自谷歌的团队探索了如何将图形数据转换为适合LLMs理解的形式。

论文地址：https://openreview.net/pdf?id=IuXR1CCrSi

使用两种不同的方法将图形编码为文本，并将文本和问题反馈给LLM的过程他们还创造了一个名为GraphQA的基准，用于研究不同的图推理问题解决方法，并演示了如何以一种让LLM能够解决图形相关问题的方式来表述图相关问题。使用正确的方法，使得LLMs在图形任务上最高得以提升60%的性能。

GraphOA：一场对LLMs的「考试」

首先，谷歌团队设计了GraphQA基准测试，它可以被看作是一门考试，旨在评估LLM针对特定于图形问题的能力。GraphOA通过使用多种类型的图表，确保广度和连接数量的多样性，以寻找LLMs在处理图形时可能存在的偏差情况，并使整个过程更接近LLMs在实际应用中可能遇到的情况。

使用GraphIQA对LLMs进行推理的框架虽然任务很简单，比如检查边是否存在、计算节点或者边的数量等等，但这些任务都需要LLMs理解节点和边之间的关系，对于更复杂的图形推理至关重要。同时，团队还探索了如何将图转换为LLMs可以处理的文本，比如解决了如下两个关键问题：节点编码：我们如何表示单个节点？节点可以包括简单整数、常用名称（人名、字符）和字母。边缘编码：我们如何描述节点之间的关系？方法可以包括括号符号、短语（如「是朋友」）和符号表示（如箭头）。最终，研究人员通过系统地结合各种节点和边的编码方式，产生了像下图中展示的那些函数。

图形编码函数的例子

LLMs表现怎么样呢？

研究团队在GraphOA上进行了三个关键实验：

测试LLMs处理图形任务的能力
测试LLMs的大小对性能的影响
测试不同图形形状对性能的影响

在第一个实验中，LLMs表现平平，在大多数基本任务上，LLMs的表现并不比随机猜测好多少。但编码方式显著影响结果，如下图所示，在大多数情况下，「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。

基于不同任务准确度的各种图编码器函数的比较在第二个测试中，研究人员在不同大小的模型上测试了相同的图形任务。就结论而言，在图形推理任务中，规模更大的模型表现更好，然而有趣的是，在「边存在性」任务（确定图中两个节点是否相连）中，规模并不像其他任务那么重要。即使是最大的LLM在循环检查问题上（确定图中是否存在循环）也无法始终击败简单的基线解决方案。这表明LLMs在某些图任务上仍有改进的空间。

模型容量对PaLM 2-XXS、XS、S和L的图推理任务的影响在第三个测试中，对于图形结构是否会影响LMMs解决问题的能力，研究人员通过GraphOA生成不同结构的图形进行分析。

GraphQA不同图形生成器生成的图形示例。ER、BA、SBM和SFN分别是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。结果得出，图的结构对LLMs的性能有很大影响。例如，在一个询问循环是否存在的任务中，LLMs在紧密相连的图形中表现出色（这里循环很常见），但在路径图中表现不佳（循环从不发生）。但同时提供一些混合样本有助于LLMs适应，比如在循环检测任务中，研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子，通过这种方式提高了LLMs的性能。

在不同的图任务上比较不同的图生成器。主要观察结果是，图结构对LLM的性能有显著影响。ER、BA、SBM和SFN分别指的是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

这仅仅是让LLMs理解图的开始

在论文中，谷歌团队初步探索了如何将图形最佳地表示为文本，以便LLMs能理解他们。在正确编码技术的帮助下，显著提高了LLMs在图形问题上的准确性（从大约5%到超过60%的改进）。同时也确定了三个主要的影响因子，分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。这仅仅是让LLMs理解图的开始。在新基准测试GraphQA的帮助下，期待进一步研究，探索LLMs的更多可能性。参考资料：https://blog.research.google/2024/03/talk-like-graph-encoding-graphs-for.html

2024 年 3 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

新智元报道

【新智元导读】图是组织信息的一种有用方式，但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法，显著提高LLMs在图形问题上超过60%的准确性。

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

文心AIGC