论文 | 最新204篇论文综述：大语言模型LLMs和知识图谱KGs的机遇和挑战

1,274次阅读

大语言模型 (LLMs) 席卷了知识表示乃至整个世界。这个拐点标志着从显性知识表示到重新关注显性知识和参数知识的混合表示的转变。在这篇立场文件中，我们将讨论社区内关于LLMs（参数知识）和知识图谱（显性知识）的一些常见争论点，并推测新的焦点带来的机会和愿景，以及相关的研究课题和挑战。

论文从LLMs for KGs和KGs for LLMs两个大方向展开。

论文 | 最新204篇论文综述：大语言模型LLMs和知识图谱KGs的机遇和挑战

https://arxiv.org/abs/2308.06374

背景

大型语言模型 (LLMs) 在大量自然语言任务（包括一些需要人类知识的任务）上展示了人类水平的性能。在此之后，人们逐渐开始接受用某些语言模型的参数来表示知识的可能性。LLMs的到来宣告了知识计算时代的到来，其中 KR 中的推理概念扩展到许多基于各种知识表示的计算任务。

这是知识表示领域的一大进步。长期以来，人们关注显性知识，例如嵌入文本中的知识，有时也称为非结构化数据，以及结构化形式的知识，例如数据库和知识图谱（KG）中的知识。从历史上看，长期以来，人类利用文本将知识代代相传，直到 20 世纪 60 年代左右，研究人员开始研究知识表示以更好地理解自然语言，并开发了早期系统，例如麻省理工学院的 ELIZA。在 2000 年代初期，知识表示和语义 Web 社区共同努力在网络规模上标准化广泛使用的知识表示语言，例如 RDF 和 OWL，使用这些语言的大规模知识库后来被更广泛地称为 KG，由于它们有用的图结构，可以实现逻辑推理和基于图的学习。

随着 LLMs 的到来，这个拐点标志着从显性知识表示到重新关注显性知识和参数知识的混合表示的范式转变。作为一种流行的显式知识表示方法，KG 现在被广泛研究与基于 Transformer 的 LLMs 的结合，包括像 BERT 和 RoBERTa 这样的预训练掩码语言模型 (PLM)，以及像 GPT 系列和 LLaMA 这样的最新生成 LLMs。一些工作使用 LLMs 来增强 KG，例如知识提取、KG 构建和细化，而其他工作则使用 KG 来增强 LLMs，例如训练和提示学习或知识增强。在本文中，考虑到 KG 的 LLMs 和 LLMs 的 KG 两个方向，我们更好地理解了从显性知识表示到重新关注显性知识和参数知识的混合表示的转变。

相关的调查论文对使用 LLMs 进行知识图谱构建和推理进行了全面的回顾，而我们的工作提供了对拐点的更深入的看法，不仅考虑了关系知识图谱，还考虑了以本体为模式的知识图谱，以及其他维度结构化知识，包括表格数据和数值。关于 LLMs 和 KG 交集的其他工作与我们论文中涵盖的主题有少量重叠；例如，关于使用 LLMs 作为 KG 的研究，关于使用 KG 来增强 LLMs 的研究，或者关于在三个知识相关任务（实体、关系和事件提取、链接预测和 KG 问题）上将 GPT-4 与 ChatGPT 和 SOTA 微调方法进行比较的研究回答。总的来说，这些论文都没有研究拐点对具体应用的影响。为此，本文总结了社区内的常见争论点，介绍了 KG 和 LLMs 相结合的一整套主题的最新技术，并进一步提出了机遇和挑战。

共同争论点

（1）知识表示与推理：知识图谱提供了具有明确关系的知识的结构化表示，从而实现推理和推理。批评者认为 LLMs 中的参数知识依赖于统计模式，而不是真正的理解和推理。LLMs 的支持者（例如 ChatGPT）强调了他们从大规模文本语料库中进行泛化的能力、捕获一系列信息的能力以及出色的语言理解能力。一方面，由于缺乏明确的知识表示，LLMs 可能会产生看似合理但不正确或无意义的反应，例如幻觉。还有人怀疑L是否有能力学习方向蕴涵或推断概念之间的包含。另一方面，KG 的构建成本可能很高。虽然 LLMs 的训练成本也很高，但它们可以很容易地用于支持许多下游应用程序，将人工智能从后台带到中心舞台。因此，参数化知识并不是 LLMs 的（唯一）目的地。总而言之，与知识表示中表达性和可判定性之间的经典权衡相比，这里考虑使用显式知识和参数化知识，我们在精度和召回率之间进行权衡在知识计算任务中。

（2）高精度方法：知识图谱的成功很大程度上归功于它们能够高精度地提供有关实体的事实信息。例如，YAGO 声称准确率超过 95%。同样，Google 需要其 KG 具有较高的准确性才能用于操作，例如，Knowledge Vault 的半自动构建方法并未在生产中使用，部分原因是其基准测试中无法达到所需的 99% 准确性。沿着这个思路，许多基于 LLM 的 KG 补全方法无法达到这些高性能水平，例如配备数千亿参数的 BERT 和 GPT-3 的性能。这就需要基于 LLMs 的新型高精度 KG 构建方法。

（3）数值：人们普遍认为，LLMs 正在努力处理数值问题。正如 Big-bench 的一项研究所强调的那样，即使是简单的算术任务对于 LMs 来说也可能是一个难题。这个缺点也延伸到了KG完成任务上。多个 LLMs 使用维基数据中的数字事实（例如个人的出生和死亡年份）完成知识图谱的能力进行了评估。然而，没有一个测试模型能够准确预测哪怕是一年。这就提出了关于当前 LLMs 在预训练期间正确记忆数字的能力的问题，以便使它们能够在后续 KG 完成中使用。虽然像 PaLM 这样的 LLMs 在处理数字方面表现出了一定的熟练程度，但更常用的较小模型似乎无法胜任这项任务。当考虑到指标的复杂性以及不同的编号格式和类型时，复杂性就会增加。目前，修改 LLMs 以处理数值的问题仍未解决，这使得它们用于数值 KG 补全似乎远不切实际。

（4）长尾知识：知识计算社区（及其他社区）对 LLMs 的关键研究问题之一是 LLMs 记住了多少知识。调查表明，与流行实体相比，在处理随机 Wikidata 事实（特别是与长尾实体相关的事实）时，LLMs 性能显着恶化，如 PopQA 数据集和其他数据集中所证明的那样。这种效应可以追溯到预训练语料库中实体出现的频率与 LLMs 的记忆能力之间的因果关系。即使是相当大的 LLMs 在试图保留有关长尾实体的信息时也会面临困难。KG 通过提供有关长尾实体的知识，本质上比 LLMs 具有优势，因此可以进一步帮助提高知识计算任务的召回率。

（5）偏见、公平及超越：批评者认为 LLMs 可以延续和放大训练数据中存在的偏见，从而导致有偏见的输出。如果训练数据包含刻板印象或歧视性信息，LLMs 可能会产生有偏见或偏见的反应。另一方面，支持者认为偏见不是 LLMs 固有的，而是反映了数据中嵌入的社会偏见。他们强调解决训练数据中的偏差和开发缓解技术的重要性。一项调查认为，自然语言处理（NLP）系统中的“偏见”采用了各种概念化，但没有得到从业者的批判性参与。知识图谱还用于大量下游任务，并且知识图谱嵌入中刻画的社会偏见得到传播。具体来说，本体创建通常包括由意见、动机和个人选择因素决定的手动规则，是偏见的根源。此外，用于 KG 建设的自动化管道也存在性别偏见。除了偏见和公平之外，LLMs 还存在其他类似的担忧，包括（但不限于）侵犯版权和错误信息。一般来说，由于参数知识的隐性性质，与显性知识相比，从 LLMs 中忘记此类有害信息不太容易。

（6）可解释性和可诠释性：在可解释性和可诠释性至关重要的场景中，知识图谱通常是首选，因为它们明确地表示实体之间的关系并提供结构化的知识表示。LLMs 的怀疑论者认为，这些模型缺乏透明度和可诠释性，因此很难理解它们是如何得出答案或建议的。LLMs 的支持者承认可解释性的挑战，但认为最近的研究工作正在通过注意力机制、模型内省等技术来提高 LLMs 的可诠释性。一些人还认为，思想链（CoT）也可以提高 LLMs 的可解释性，尽管问题分解和用 LLMs 精确回答子问题还远未解决。归因评估和 LLMs 的增强（例如源段落和句子）是另一个最近的研究主题，旨在提高其在问答中的可解释性。

机遇与愿景

（1）即时访问庞大的文本语料库：正如引言中提到的，长期以来，人类通过文本传递知识。因此，现在很多知识都是文本形式的。使用 LLMs 可以高速访问极大的文本语料库，最近甚至可以在消费类硬件上访问。这使得人工智能开发人员能够避免陷入以前围绕大规模数据收集、准备、存储和查询的关键挑战。它还有助于减少以前对信息检索领域的关键依赖。

（2）许多子任务的更丰富的知识：尽管 LLMs 最突出的功能（问答和对话）仍受到严格审查，但不应忽视的是，LLMs 显着推进并简化了知识工程管道的许多传统任务。开箱即用，通过对几个示例进行微调，或者通过几次提示，LLMs 已经推进了许多任务，例如依赖关系和结构化解析、实体识别和关系提取。正如错误沿着管道传播一样，改进也会沿着管道传播，从而使 KG 建设达到前所未有的规模和质量。此外，LLMs 很容易用于知识工程之外的许多下游任务。通过将显性的、特别是结构化的知识注入到 LLMs 中，例如通过检索增强方法，可以使显性知识更容易用于如此广泛的下游任务，进一步实现“知识就是力量”的愿景。

（3）更高级的语言理解：仅 LLMs 就已经显着推进了对自然语言的“理解”，文本蕴涵、摘要、释义检测和生成等任务就证明了这一点。这些功能对于使知识工程对语言差异、印刷错误、冗余和其他问题具有鲁棒性至关重要。人类书写、网络抓取和其他嘈杂文本形式的特征。现在，有了将参数化知识与显性知识相结合的潜在新方法，就有可能获得更高级的语言理解，不仅适用于文本蕴涵，还适用于其他 NLP 任务，例如摘要和一致生成。

（4）压缩意味着整合：传统知识工程的一个重要步骤是对冲突和并发的信息进行整合和聚合，通常需要复杂的方法来整合来自句子、模式和约束的观察结果。在 LLMs 训练中，聚合会自动发生。尽管这一步骤尚未完全被理解，但它给外包带来了知识工程领域的重大挑战。

在Explicit-Knowledge-First 显式知识优先中，我们的愿景是 LLMs 将启用、推进和简化知识工程管道中的关键步骤，从而使知识图谱达到前所未有的规模、质量和实用性。

在Parametric-Knowledge-First 参数知识优先中，我们的愿景是 KG 将改进、基础和验证 LLMs 代，从而显着提高 LLMs 使用的可靠性和信任度。

关键研究主题和相关挑战

（1）LLMs for KGs：知识提取和规范化

知识图谱构建是一项复杂的任务，需要从各种来源收集和集成信息，包括结构化、半结构化和非结构化数据。传统方法通常依赖于单独处理每种数据类型的特定模块，并且当内容多样化且结构异构时，它们会陷入困境。然而，LLMs 是强大的 NLP 模型，经过广泛的信息源训练，使其非常适合知识提取任务。

（2）LLMs for KGs: 知识图谱构建

我们强调L在改善知识图谱建设中发挥的重要作用，重点关注该领域当前的趋势、问题和悬而未决的问题。我们首先讨论链接预测，这是一种在给定现有知识图谱的情况下生成新事实的方法。接下来，我们研究归纳链接预测，这是一种预测未见关系的三元组的方法。然后我们的重点转移到一种更新的方法，其中三元组是直接从 LLMs 的参数知识中提取的。

作为本节的结论，我们讨论了基于 LLMs 的 KG 构建方法所面临的挑战。这些涉及长尾实体、数值以及这些方法的精度问题。

（3）LLMs for KGs: 本体模式构建

KG 通常配备有本体模式（包括规则、约束和本体），用于保证质量、更容易获取知识、支持推理等。同时，也可以认为是独立的本体，通常表示概念性知识，有时带有逻辑。作为一公斤。在这一部分中，我们介绍 LLMs 用于学习本体模式和管理本体的主题。

（4）KGs for LLMs: 训练和访问 LLMs

本节研究另一个方向，即使用 KG 来表示 LLMs。这里有几个维度。首先，KG 可以作为 LLMs 的训练数据。其次，KG 中的三元组可以用于快速构建。最后但并非最不重要的一点是，知识图谱可以用作检索增强语言模型中的外部知识。

应用领域

将 KG 和 LLMs 以统一的方式进行整合具有巨大的潜力，因为它们的组合以有价值的方式相互增强和补充。例如，KG 提供非常准确和明确的知识，这对于某些应用（例如医疗保健）至关重要，而 LLMs 因缺乏事实知识而受到批评，导致幻觉和不准确的事实。其次，LLMs 缺乏可解释性，而 KG 凭借其符号推理能力，能够生成可解释的结果。另一方面，知识图谱很难从非结构化文本构建，并且存在不完整性，因此，可以利用 LLMs 通过文本处理来解决这些挑战。各种应用程序都采用了这种将 LLMs 与 KG 相结合的方法，例如医疗保健助理、问答系统或聊天机器人以及可持续性等。

（1）常识性知识

大多数知识图谱捕获了人们在百科全书或关系数据库中可能遇到的事实。然而，常识知识是人工智能系统世界知识的另一种重要形式。例如，我们可能希望 KG 不仅能够捕获位于中非的刚果雨林，而且还能够捕获热带雨林拥有大量降雨和茂密的绿色植被。ConceptNet 是最著名的常识知识图谱，是使用手动众包和自动细化技术开发的。然而，众包是劳动密集型且成本高昂的，因此长期以来一直在寻找获取此类知识的替代方法。

（2）数字化构建环境

在建筑环境领域，以安全和可持续的方式设计和建造至关重要，需要满足许多法规和准则。自动合规性代码检查已经蓬勃发展以支持这一点，但在过去，由于文本的模糊性以及需要广泛的专业知识来解释，在 3D 模型中自动解释法规和执行规则仍然相当具有挑战性。目前该领域的许多应用程序都将 LLMs + KG 结合起来，通过遵循 LLMs 增强型 KG 方法来应对这些挑战。l 解释法规中的文本并增强规则的KG，这些规则使用dome领域特定语言进一步序列化。使用链接建筑数据方法询问建模为图形的 3D 模型是该领域的另一个挑战，因为它需要使用 SPARQL 等查询语言的技能。LLMs 正在帮助理解人类语言书面问题，并将其转换为相关的查询语言，通过引入领域专家交互和询问 3D 模型及其各种形式的新方式。AI 斑点就是一个例子。

（3）数字医疗

数字医疗保健领域在采用 LLMs 方面拥有巨大的潜力，包括临床文档的自动化、患者病史的综合以及临床试验潜在候选者的识别。尽管这些进步是显着的，但认识到在医疗保健中使用 LLMs 相关的潜在风险至关重要。事实上，数字医疗保健是采用 LLMs 的最关键的应用领域之一。主要利益相关者（即医生、医疗保健提供者和政策制定者）的需求与创建 LLMs 背后的范式相悖。特别是，这两个与模型准确性相关的重大风险以及其使用引起的隐私问题。

（4）领域特定内容搜索

最近，我们见证了 GPT-4 等模型在涉及多种模式和特定领域适应的众多 NLP 应用中取得的成功。虽然 LLMs 通常被视为生成模型，但它们可以轻松地应用于许多工具和管道的搜索和推理任务中。尽管如此，正如过去所见，所有这些专业领域都可以从机器方法中包含符号知识中更好地受益。在这里，我们重点关注两个不同的应用：（1）语义图像和视频搜索，（2）技术文档理解。

展望

总之，大型语言模型（LLMs）的最新进展标志着知识图谱（KG）研究的重要转折点。虽然关于结合它们的优势的能力的重要问题仍然悬而未决，但这些为未来的研究提供了令人兴奋的机会。随着 KBC-LM 研讨会和 LM-KBC 挑战等新颖论坛的出现，社区已经在迅速调整他们的研究重点，并且资源大规模转向知识提取、整合和使用的混合方法。我们给出以下建议：

（1）不要因范式转变而抛弃 KG：对于一系列可靠性或安全关键型应用，结构化知识仍然是不可或缺的，我们已经概述了 KG 和 LLMs 可以相互促进的多种方式。KG 会继续存在，而不是简单地抛弃它们。

（2）谋杀你的（管道）宠儿：LLMs 大大推进了KG和本体构建管道中的许多任务，甚至使一些任务变得过时。即使是最成熟的管道组件，也要格外小心地检查，并不断将它们与基于法学硕士的最新技术进行比较。

（3）保持好奇，保持批判：LLMs 可以说是过去几年人工智能研究中最令人印象深刻的产物。尽管如此，公众和研究文献中仍然存在大量夸大的主张和期望，人们应该保持一定程度的批判性反思。特别是，目前还看不到从根本上解决所谓的幻觉问题。

（4）过去的已经过去，让我们开始新的征程：LLMs 引发的进步以前所未有的方式将这个领域连根拔起，并让进入这个领域有了重大捷径。在知识计算相关领域重新开始的最佳时机莫过于现在。

尽管目前转型的方向是广泛开放的，但随着研究人员继续探索混合方法的潜力和挑战，我们可以期望看到知识表示和处理方面的新突破，这对知识计算等领域产生深远影响 NLP、AI 等领域。

论文 | 最新204篇论文综述：大语言模型LLMs和知识图谱KGs的机遇和挑战

微信群 公众号

论文 | 最新204篇论文综述：大语言模型LLMs和知识图谱KGs的机遇和挑战

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

论文 | 最新204篇论文综述：大语言模型LLMs和知识图谱KGs的机遇和挑战

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

具身智能机器人年度总结，来自英伟达机器人主管

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

具身智能机器人年度总结，来自英伟达机器人主管

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛