情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

420次阅读
没有评论

今天是2023年9月18日,星期一,北京,天气晴。

我们再来谈谈关于事件图谱和情报分析的一些事。

实际上,在之前的分享中,我们已经讲过了许多关于事件抽取在情报方面的工作,并做了一些线上交流【可在社区查看】。包括:

《领域知识与事件图谱的建设与落地应用探索》

《事件驱动下的情报演化分析技术与代表案例–以学迹、eventregistry为例》

《领域事理图谱构建与应用初探》

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

也整理了关于事件图谱的专栏,从中我们可以略微地熟悉其中的一些做法,想法以及经验。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

而作为落地,我们可以进一步地看看一些真实产业界的一些实践。

晓航是我的目前接触过在事件图谱上很深耕的一位朋友,经常有一起讨论事件图谱方面的问题,而最近也有系统地论述工作出来。

最近他把文章给到我,我看过后,觉得很不错,工作跟系统,会有一些启发,所以决定分享出来,供大家一起参考。

一、背景

在当今高度互联的世界中,海量的信息和数据以惊人的速度在全球范围内传播,全球事件的发生和传播越来越呈现出高度复杂性和不确定性。

如何从这些繁杂的数据中提取有价值的信息,洞察世界范围内的事件和趋势,成为摆在我们面前的一项重要挑战,全球事件图谱构建正是为了解决这一问题而提出的。

提到全球事件,不禁会让我们联想到GDELT。GDELT是一个庞大的开放数据集,它汇总了全球范围内的新闻报道、博客、社交媒体帖子等信息,将它们转化为结构化的数据。

这个数据集的规模和工程化程度令人印象深刻,它包含了自1979年来数千万事件的记录,为研究者和决策者提供了宝贵的资源。但GDELT的数据是从各种来源自动提取,并基于TABARI进行处理的,因此在质量方面存在一定的不确定性。

数据中普遍存在的错误或不一致,影响到我们对事件的准确理解。同时,GDELT提供了关于事件的基本信息,但它出于某些原因并不提供对事件要素的深入解释(如:文本数据会有实体链接结果,但事件数据用CAMEO编码,没有相关信息)。

全球事件图谱应用的业务场景:对领域指标体系评估(如风险评估)、对已发生事件的追溯(查询问答、事件脉络、国际态势)、对未发生事件的预警预测。 全球事件图谱构建面临的困难: 

a)数据量大,带来如何筛选高价值数据与如何分配系统算力的问题。

b)事件图谱、知识图谱都需要动态演化,事件链接、实体链接要求高。

c)纯粹的事件图谱业界研究较少,具有很强的业务属性。

d)通用领域的事件图谱构建难度大,但经常与领域事件高度相关。

因此,我们需要建立要素全面、解释更清晰,能与实体知识关联的全球事件图谱。

本文将从工程思维的角度,介绍我们对全球事件图谱构建的实践方法。

二、功能架构

基于事件图谱的全球事件分析相关产品的功能架构:

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

全球事件分析相关产品功能架构

其中的核心组件:规则流程引擎、知识图谱、NLP信息抽取、事件图谱。

三、用更高算力消耗的模型处理更高价值的数据

我们每天各种渠道汇聚的数据量非常大,光文本数据就超过百万。如何从这些数据中准确的筛选出高价值数据非常重要。有些数据可能目前并不重要,但长远看,未来有很高的统计价值。比如有大量新闻是报道犯罪事件的,单个新闻可能不重要,但对分析一个地区的政局、社会或治安稳定性是重要的表征数据。

我们采用了分层处理的方式:

第一层:去重。按来源和语种分类,由于我们的系统是中英双语系统,只保留了中英文数据。部分其他语种文本按媒体重要程度,翻译成英文。

第二层:类似Gdelt的TABARI,我们用AC自动机+规则流程引擎进行文本打标操作。这里目标是召回有价值的新闻文本,同时业务人员可以随时改变需求,调整策略,所以没有采用训练多层多分类模型的方式进行处理。关于标签体系与规则流程引擎在后面介绍。

第三层:通过标签和规则引擎筛选出比较有价值的文本以后,这里需要进行单文本NLP处理,如:信息抽取、实体链接。这里我们还定义了新的任务:中心事件、子事件、核心事件分类。基于信息抽取结果,继续应用规则流程引擎更新标签,筛选数据。

第四层:对抽取的篇章级事件进行事件共指、事件链接等操作,更新事件图谱。这里已经形成了实体、事件、新闻两两多对多的信息网络,又有知识图谱与事件图谱支撑,可以继续应用规则流程引擎对实体、事件、新闻三类数据更新标签,做进一步筛选。

第五层:结合大模型的事件分析应用。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

事件分析首页

四、标签体系与规则流程引擎

我们基于ConceptNet建立了中英文概念标签体系,包括2000+概念标签,为70000+词汇标注概念标签。

针对业务中的实体,标注实体概念标签,这个需要为每个国家和业务领域、行业定义关键实体,基于Wikipedia等知识库数据标注概念标签。

然后基于词汇与实体的概念标签,为400+基础标签建立打标规则与相关性评价计算公式,用于对新闻、实体、事件数据的基础标签打标。而业务相关或者用户自己定义的标签,通过规则流程引擎进行处理。

整个过程,规则流程引擎作为一个核心工程框架,应用到了整个处理流程的所有层面。

业务人员可以像商品运营一样在数据处理的每个环节敏捷化的调整策略逻辑,计算指标数据,并不需要编写任何代码。

而低算力消耗模型产出的重要标签也能在高级模型结果出来之后,通过规则引擎进行修正。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

某新闻的标签

五、单文本信息抽取

利用深度学习和自然语言处理技术,对单篇文本中的信息进行提取,以作为后续各类整合、分析技术的基础素材。所提取内容包括但不限于,篇章中所包含的各类实体、事件的表述,实体和实体,实体和事件,事件和事件之间存在的关系,实体表述、事件表述所包含的属性信息等。

采用技术以预训练语言技术为主,在预训练模型的基础上,根据所关注的事件类型、实体类型等,定义模式规范,定制化训练、开发模型。采用编码-分类的网络结构,利用多任务学习的策略,实现对各类信息的综合提取,避免编码模型重复运算,实现高效推理。

1、实体/事件信息联合抽取模型

我们采用端到端句子级别的的联合抽取模型,对句子级别的文本同时抽取其中的实体、关系与事件。并在篇章中通过实体共指与触发词片段共指进一步优化。

模型首先对句子进行编码,然后采用序列标注的方式,识别出其中的所有实体和事件片段(触发词片段),以这些实体和事件片段作为图模型的节点。然后利用句子的局部信息,计算各个节点之间的连接的边,以及标签的得分。最后采用束搜索(Beam Search)算法,解码得到最优的图,作为模型的输出结果:

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

实体/事件信息联合抽取模型

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

信息抽取与事件共指结果可编辑标注

2、实体共指

利用深度学习技术,训练判别模型,结合依存句法信息,将一篇文本中所出现的所有实体表述,共指为若干实体节点,即所有指代同一个实际世界实体的表述,构成一个实体节点。实体共指解决了文本中的代词、名词短语、专有名词等不同方式引用相同实体的问题,从而有助于建立文本的语义关系。

采用模型结构为片段级编码信息融合,结合判别器进行分类,判断所有候选实体表述之间,是否构成共指。所输入候选实体表述,由单文本信息抽取产品提供。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

实体共指/事件共指模型

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

实体共指与实体链接结果

3、实体链接

通过利用实体链接技术,将文本中抽取到的实体节点,链接到数据库中的节点。可以应对三种情况:

待链接的实体成功指向数据库中已知实体;

待链接实体没有指向数据库中任何已知实体,但该实体在篇章中发挥重要作用,或在一段时间内,在多篇文本中频繁地被提取到,即NIL实体,此时将在NIL实体数据库中新建该实体的词条;

待链接实体没有指向数据库中任何已知实体,在文章中提及也不多(即共指不多),此种实体不会被写入数据库。

具体而言,实体链接在实现方式上分为两类,

其一是采用查询字典表的方式,从实体表述名称,直接映射到数据库中某实体,只有高频出现且不存在歧义的实体,会采用此种形式;

其二是采用深度学习模型的方式实现,通过两路召回、候选剪枝、候选重排的流程实现。对于没有链接成功的作为NIL实体,通过NILINKER(NILINKER: Attention-based approach to NIL Entity Linking,Pedro Ruas ∗ , Francisco M. Couto)进行再次链接入NIL实体库。

通过实体链接技术,可以进一步丰富实体所蕴含的信息,利用知识图谱、数据库,获取到更多有价值内容,为进一步的分析提供依据。

4、事件共指

事件共指技术将一个篇章中所有事件表述,共指为若干事件节点,将描述或指代现实世界中实际发生的同一事件的所有事件表述,形成一个事件节点,以丰富事件中所包含的要素,辅助确定篇章中的关键事件、核心事件,以及梳理事件发展脉络。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

事件抽取与事件共指结果

5、时序关系预测

实现对自然语言算法处理的事件节点进行事件时间顺序关系预测的重要功能模块。事件间的时间关系,包括前、后、同时和模糊等四种关系,预测准确率可达75%-85%。

6、时间推理与标准化

基于@刘焕勇老师分享的时间标准化工程,结合文章发表时间,考虑时态变化因素,上下文时间因素,推理事件实际发生时间。例如:(发表时间2023年9月1日)30号发生了(2023-08-30)……,之前一个月……。鉴于事件时间的重要性,我们延续@刘焕勇老师的思路,组合了大量的规则进行推理。

有了大模型以后,我们也进行了测试,大模型一次答对的比例还是比规则推理低,可能需要设计更好的prompt。并且大模型也不可能用在数据的预处理打标签阶段。

7、地理推理与标准化

基于GEONames(http://www.geonames.org/)进行地点推断,通过上下文推断地理范围,通过实体链接的手段,获取Wiki_Qid、地理坐标、行政区域等信息。

8、中心事件、子事件与核心事件抽取

现实世界中的事件具有不同的粒度,我们事件图谱的层级结构:从顶级主题到关键事件,再到关键事件对应的子事件序列,进一步还可能发现与具体行动相对应的事件提及。

通常的建模方法从两端入手:从顶向下的主题挖掘模型,或者从底向上的基于动作提及的事件抽取模型,都不能全面的建模理解真实世界中的事件层级。

我们聚焦分析处于中间层关键事件检测任务,旨在在同一主题下,检测关键事件与其子事件序列。希望可以在事件理解和结构之间架起桥梁,在不同的粒度事件类型中概括事件提及模式,构建整个主题-事件的层次结构。 对于一篇文章而言,我们定义了如下子任务:

中心事件:一是判断一篇文章的目的是否是介绍一个事件的,二是要选出这个事件,一般来说这个事件的内容可以作为标题,有明确的时间指示(有时需要通过子事件推理中心事件时间)。

核心事件:不是这篇文章的中心事件,但可能作为其他新闻中心事件的事件。与中心事件有一定时空距离、语义距离,或者能链接到事件图谱的某个关键事件。一篇文章的中心事件与核心事件,都是事件图谱的关键事件候选。

子事件:与中心事件时空或语义接近,经常会发现与中心事件有因果、顺承、条件等关系。一般不会在不说明中心事件的情况下,单独提及。例如:灾害事件相关的人员伤亡事件,游行示威事件相关的逮捕事件。 我们不对子事件进行事件链接。

实现对进行事件分析后的文章进行核心事件和中心事件抽取的重要功能模块。核心事件(多个)抽取准确率可达70%-80%左右,中心事件(0-2个)抽取可达70%以上,并且可预测中心事件附属子事件。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

层次化事件结构

9、事件模式匹配与事件图补全

实现对新实例图进行事件模式图匹配,并根据预设定的事件模式图(Event Schema)对未匹配节点进行图补全的重要功能模块。子图匹配算法准确率可达80%-95%。结果可以对中心事件-子事件关系进行确定,建立事件的上下位层级关系。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

RESIN: A Dockerized Schema-Guided Cross-document Cross-lingual Cross-media Information Extraction and Event Tracking System, Haoyang Wen, Heng Ji, 2021

10、单文本NLP处理流程

单篇文本的信息抽取与加工处理流程如下:

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

单文本NLP处理流程

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

单文本核心事件图

五、事件图谱构建

1、跨篇章事件共指

单文本信息抽取结果中,事件节点的信息已经比较丰富了,特别是中心事件的信息更加完整,既有论元中实体节点与实体链接结果,也有标准化的时间地点信息,还有触发词span的向量表示。通过事件表示算法与上述这些信息特征结合,可以判断跨篇章的两个事件的共指关系。

 由于新发生的事件会在最新的新闻媒体数据中集中出现,因此,线上系统会对近期的新闻媒体数据进行聚类,通过热度、媒体权威系数、主题等指标标签数据,辅助进行事件共指,在事件图谱中新建一个临时事件,其中的关键事件-子事件会不断更新。

当关键事件及其子事件更新的频率降低到某个阈值,系统将对关键事件的子事件进行共指、筛选和校正(例如:死亡人数相关的子事件,经常会有变化,我们考虑了最新更新时间和媒体权威系数进行校正)。

子事件校正完成后的关键事件,将会相对固定的成为事件图谱中一个新的事件树,或者事件树的一个新分枝。

2、事件关联关系

经过上述处理过程,我们已经围绕着实体、文本、事件建立关联,且两两之间有多对多关系,例如:文本可能涉及多个事件、多个实体;一个事件可能涉及多个实体,出现在多个文本中等。基于假设:新闻报道的作者经常会提及与中心事件相关的其他关键事件。

因此,可以基于文本中事件的共现关系,分析事件间的关联关系,共现次数越多的事件间有更强的关联。事件关系也需要基于共现关系进行分类:子事件、顺承、因果、条件等。我们基于时间范围、子事件、顺承等关系构建事件树。事件树之间会建立路径,路径基于时序关系定义方向,路径代表事件树间的关联关系,路径可定义为发展、影响、对立、因果等类型。

最终,事件图谱的形式是主题事件森林的形式构建并更新的。

3、事件链接与融合

事件链接的目的是将事件的提及链接到事件图谱,找到对应的事件树或者节点。事件融合的目的是将各类事件库如:WikiEvent、ICEWS等与事件图谱融合。本质上都是通过事件共指的方法,从一定时间区间内找到共指一致的事件,进行查询、更新或新建的操作。

五、事件图谱应用

全球事件图谱应用场景分为三类:对领域指标体系评估、对已发生事件的追溯、对未发生事件的预警预测。

例如:主题事件脉络生成、领域事件森林可视化、事件森林路径预测、突发事件告警、领域事件预警预测、区域风险指标计算、供应链安全预警、事件情报整编、全图事件推理等。应用内容涉及很多具体的业务场景,不能详细展开说了。

情报分析产业落地关键技术分享:工程思维下的全球事件图谱构建

基于InVision大模型的内容整编

总结

本文介绍了事件图谱地系统,系统解决的核心问题如下:

通过层次化筛选加工的策略,解决从海量数据中如何筛选高价值数据与如何分配平台算力的问题。

通过实体链接、事件共指的算法,对事件、实体、文本三类数据进行关联分析。

通过规则流程引擎,用户不需要编程就能把knowhow的方法流程知识在系统中外显化,并帮助发现新的知识,实现企业知识的螺旋。

通过与其他高质量事件库融合链接,实现事件图谱的初始化,解决开放域历史事件来源问题。

本文由傅晓航(邮箱 fuxiaohang@yuchen.net.cn)投稿。晓航是中科雨辰科技有限公司算法研究部负责人,所属团队30余人,核心成员来自清华、北理、北航、人大等985院校,多次在用户组织或CCKS等全国性的算法与应用系统比赛中取得好成绩。

团队自18年开始从事事件分析相关产品的研究与实践,主要服务于军工、政企等领域,于2021年启动全球事件图谱构建,所支撑的产品“全球事件智能分析系统”已应用于多家重点单位。

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

​​​​​​​​​​     

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy