2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

今天是2023年12月30日，星期六，北京，天气晴，2023年倒数第二天

今天我们来聊聊一个有趣的话题，2023年学术界应对chatgpt守城之战，通过arxiv来看看目前学术界对chatgpt发起的各种“反击”【评估】，里面涉及到的知识图谱相关的评估结论很有趣。

但是，评测偏差，测试与工业界业务gap明显，谈不上如何规避，评测偏差，不要太迷信这些探索能力边界的论文，这半年做评估最大的感受就是，这些评估榜单【尤其是学术集合】，误导性不弱。评测结论以及泛化性，能把人带沟里。

此外，关于文档智能，我们在2023年讲了许多，其中包括Nougat(https://arxiv.org/pdf/2308.13418.pdf)等，而最近旷视开源的面向文档处理的大模型OCR引擎Vary，试了下，效果还不错，这里也做下介绍。

坚持一下，2023年马上过完，供大家一起参考。

一、2023年学术界应对chatgpt的守城之战一瞥

2023年，chatgpt引发了学术界的恐慌【大实话】，与chatgpt做对比的论文层出不穷，通过构造各种特定任务，来测试chatgpt，目的在于证明chatgpt不是无所不能，找到其缺点，很有趣。

1、关于chatgpt的一些论文

今年关于chatgpt，标题中很明确地提及chatgpt的，就包括670篇。

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

2、关于chagtpt can做啥的一些论文

今年，在标题中明确提及关于chatgpt can的，就包括45篇。

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

3、关于is chatgpt a good的一些论文

我们可以使用”is chatgpt a good”作为关键词，在arxiv中进行检索：

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

我们可以在搜索的结果中看到很多有趣的十分相似的论文来验证chatgpt的能力边界，比如推荐、情感分析、关键词生成、生成任务评估、翻译、多轮对话处理等。

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

4、其中一些很有趣的结论

我们重点来看看其中关于大模型与知识图谱、事理图谱的一些评估结论，讲三个，包括知识图谱问答、信息抽取以及事理图谱。

1）ChatGPT是个好的因果推理器么？

今天早上看到一个工作：《Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation》(https://arxiv.org/abs/2305.07375)，利用事件因果关系识别（ECI）任务、因果发现（CD）任务、因果解释生成（CEG）任务来测试chagpt的因果能力。

其结论在于：

ChatGPT不是一个好的因果推理器，但擅长因果解释生成，存在严重的因果幻觉，这可能是由于因果的报告偏见，随着ChatGPT版本的提升，以及ICL和CoT技术的应用，这种因果幻觉进一步加剧；

ChatGPT对于提示中表达因果概念的方式敏感，且开放式提示不适合ChatGPT，，对于句子中的事件，ChatGPT擅长捕捉明确的因果关系，在事件密度较低和事件距离较小的句子中表现更好。

开放式生成提示无法提高ChatGPT的因果推理能力。“

2）ChatGPT真的可以取代知识图谱问答吗？

又如比较早期的，也是今年3月份工作，《Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of the Question Answering Performance of the GPT LLM Family》(https://arxiv.org/abs/2303.07992)评估ChatGPT作为问答系统（QAS）利用其自身知识的表现，进行最小功能测试(MFT)、不变性测试(INV)和方向性期望测试(DIR），也得到了一些有趣的结论，如下：

在单语言的问答测试中，ChatGPT的大多数表现优于类似模型，但在回答数字或基于时间的问题时表现并不是最佳的。此外，在涉及多跳或星型事实推理的问题时，其表现也不如GPT3.5 V3。在多语言测试中，ChatGPT对于回答低资源语言问题表现更为优秀。

在CheckList测试中，ChatGPT在知识库问答方面存在一些限制，包括：MTF测试结果显示，它不擅长回答只涉及一种类型推理的问题。INV测试结果表明，与传统的KBQA相比，ChatGPT在处理相似或几乎相同的输入时不够稳定。DIR测试显示，ChatGPT并不总是对正确提示提供积极反馈。当面对修改后的测试样本时，其输出的变化并不总是符合我们的预期。

3）ChatGPT能解决信息抽取吗？

又如，今年8月份，Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors(https://arxiv.org/pdf/2305.14450.pdf)采用4类常见的信息抽取任务，包括命名实体识别(NER)，关系抽取(RE)，事件抽取(EE)和基于方面的情感分析(ABSA)，共包含14类子任务，对ChatGPT在信息抽取任务上的能力进行评估。

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

其也有一些有趣的结论：

ChatGPT和SOTA方法之间存在显著的性能差距；任务的难度越大，场景越复杂，性能差距越大；

在一些简单的情况下，ChatGPT可以达到或超过SOTA方法的性能；

使用few-shot ICL提示通常有显著提升(约3.0～13.0的F1值)，但仍明显落后于SOTA结果；

与few-shot ICL提示相比，few-shot COT提示的使用不能保证进一步的增益，有时它比few-shot ICR提示的性能更差。

二、可用于文档OCR与表格理解的大模型Vary

Vary(https://github.com/Ucas-HaoranWei/Vary)是旷视开源的大模型，支持中英文，识别图片中的文本、公式、表格，这个在之前的文档智能话题中，我们有介绍过其他方案。

这个实际测试过，效果还不错，但就是很慢，这个项目可以与我们的大模型RAG系统进行融合，通过RAG召回对应的图表，然后进行问答。也可以作为线下建知识库阶段进行使用，比如对图片解析内容以建立索引。

1）识别文本公式

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

2）识别表格

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

3）识别图表

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

技术细节可以查看技术报告《Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models》(https://arxiv.org/pdf/2312.06109.pdf)

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

项目地址：https://varybase.github.io/

总结

本文主要今天我们来聊聊一个有趣的话题，2023年学术界对抗chatgpt守城之战，通过arxiv来看看目前学术界对chatgpt发起的各种“反击”【评估】，里面涉及到的知识图谱相关的评估结论很有趣，尤其是关于事理图谱。

此外，面向文档处理的大模型OCR引擎Vary，感兴趣的也可以试试，进一步验证其在更多复杂场景下的效果。

参考文献

1、https://mp.weixin.qq.com/s/TeFxseHyqZ96aL6eN6X64g

2、https://mp.weixin.qq.com/s/zDCk4ZEfOyUggwfnVa-B7w

3、https://arxiv.org

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

2023 年 12 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

2023年KG学术界对chatgpt的守城之战：兼看OCR及图表理解的大模型文档处理工具Vary

一、2023年学术界应对chatgpt的守城之战一瞥

二、可用于文档OCR与表格理解的大模型Vary

总结

参考文献

关于我们

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了