再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

1,084次阅读
没有评论

Schema自动生成是一个很有意思的话题,我们在之前的多篇文章中进行了介绍。在上一篇文章《事件图谱schema生成关键前沿技术:如何基于语言模型生成Event Schema代表工作解读》,中我们介绍了一种基于语言模型生成的方法。
而在之前的调研工作中,我们发现,schema自动生成工作除了在事件抽取这一信息抽取任务之外,在对话领域也有着十分重要的作用。因为在对话中,每一类意图都对应着一些槽位,如果将意图当做事件类型,那么槽位就是事件要素。
与制约事件抽取落地的问题一样,如何针对具体的问答场景自动的归纳出问题意图以及对应的槽位,也是提升业务能力的重要问题。
因此,本文围绕对话领域的schema induction这一话题,以两个代表性的工作为引,进行介绍。供大家一起参考。

一、平安寿险:面向对话的意图schema生成

1、问题的提出

准确地识别用户的意图,并从他们的口语中填充相关的槽,对于对话系统的成功至关重要。传统的方法需要手动定义DOMAIN-INTENT-SLOT模式,并要求许多专家对相应的语料进行注释,在此基础上训练神经模型。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

例如,传统的程序需要领域专家手动注释到DOMAIN-INTENT-SLOT模式(见左上角方框)和许多手动注释的模式(见左中角方框)。

这个过程带来了信息共享障碍、模式外或开放领域对话系统中数据稀少的挑战。为了解决这些问题。

文章《Automatic Intent-Slot Induction for Dialogue Systems》探索了一个新的自动意图槽归纳任务,并提出了一个新的独立于领域的工具。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析
该工作设计了一个从粗到细的三步程序,包括角色标签、概念挖掘和模式挖掘(RCAP),将该schema形式化定义为:{Action, Argument, Problem, Question} ,

1、实现方式

下图展示了一个基本的流程图:

其中,意图-角色的提及和概念用不同的颜色突出显示

论点为蓝色,行动为灰色,问题为洋红色,问题为绿色。

每个意图角色上挖掘的概念在左下角的表格中用方括号显示。挖掘出来的意图角色模式是与顺序无关的。Argument中的圆括号意味着没有提及或数次提及。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

整个流程分成三步,其中:

(1)角色标签识别IRL

从用户的话语中提取关键短语,并通过序列标签将它们分类到四种粗略定义的意图角色中。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

具体的,在意图角色标签(IRL)上, 在一个有𝐿注释的语料库上训练IRL模型。也就是说,给定一个有𝑚个子词的语料,u = 𝑢1 . . 𝑢𝑚,训练一个IRL模型来输出相应的标签,r = 𝑟1 …𝑟𝑚,𝑟𝑖可以从9个标签中选择一个,如B-Action和I-Argument。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析为了进行对比,该步骤还进一步使用词性标注POS和依存分析DP进行处理,例如下图中将词性为n或nz的座位argument,带走否定词的动词作为问题problem。再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析(2) 概念挖掘概念挖掘上, 概念挖掘的目标是获得确定的意图-角色提及提供精细的标签。为了实现这一目标,将同一意图角色中的提及分组,并通过一个细粒度的标签将每个分组分配给相应的概念。
再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析在具体实现上,有两个主要步骤:提及嵌入和提及聚类。提及嵌入上,分别使用word2vec,phrase2vec以及CNN作为向量化表示,提及聚类上,使用kmeans,最小熵以及LPA等方法进行处理。
之后,再为集群分配抽象的细粒度的名称。在获得提及嵌入后,对同一意图-角色内的提及进行聚类,将其归入相应的概念
下图对比了不同方法的具体效果:
再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

(3) 模式挖掘

应用Apriori算法挖掘意图角色模式,并利用这些粗粒度的意图角色标签和细粒度的概念自动推断出意图槽的位置,如下图所示。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析下图展示了一个最终形成的结果,比较有意思。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

二、美团:面向对话领域的事件图谱schema生成

文章《江会星:基于交互的推理⸺事件图谱在美团智能客服问答中的应用》 介绍了面向客服问答领域的事件图谱schema构建方法。

如下图所示,该工作将事件图谱表示成<s,p,o>的三元组结构,在缺省条件下,(subject,predicate)、(predicate, object)或者 (subject,predicate,object)构成其中:

s为事件或者实体,实体如功能、产品、人或物等专名;

p 为事件的触发(trigger)词, 通常为谓词,如“投诉、打赏、退订”等;

o 为事件所关联的业务,如电子商务平台所涉及的配送 服务、保险服务、商家服务、商品价格、营销活动、APP使用等。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

而进一步的,一个事件的schema是具有层次性的,这种层次性体现出了事件的多级,如下图展示了EventtypeL1,eventtypel2两个层级,通过对客服场景中的会话事件进行整理归纳,分成了额办理、现象、咨询以及投诉四个细分大类。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

首先,从会话session中生成关键词短语候选,由分词后的ngram构成。

其次,生成关键词短语候选的特征,具体特征如上图右边所示,包括位置、⻆色、左右熵、标 签模板等特征。

最后,模型预测每个关键词短语候选的得分,选择得分高的关键词短语作为会话的事件。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

此外,实际业务中各业务Event Schema归纳的SOP流程为先从会话中进行事件抽取(keyphrase抽 取),然后与Event Schema中已有的事件进行匹配,判断是否是已有事件,如果是可以将说法添加到已有事件的具体说法中。

再谈事件图谱中的Event Schema自动生成技术:对话领域的schema构建代表工作浅析

如果不是则可能是新事件,最后将所有识别的新事件候选进行聚类,并将聚好的类交由业务运营人员或者数据标注同学进行整理和归类归纳,进而扩充现有的事件体系。

总结

与制约事件抽取落地的问题一样,如何针对具体的问答场景自动的归纳出问题意图以及对应的槽位,也是提升业务能力的重要问题。

本文围绕对话领域的schema induction这一话题,以两个代表性的工作为引,进行了简要的介绍。

从中可以看到,不同的形式化定义会决定出不同的方法,但步骤可以大致分为角色标注以及聚类两个组成部分,这也是和我们之前文章中所民多次提过的一样。

当然,本文只是简要的介绍,对于进一步的细节,可以查看参考文献,阅读原文,相信会有更多收获。

参考文献

1、https://www.youtube.com/watch?v=rO0UoZssTvc
2、https://arxiv.org/abs/2103.08886
3、https://mp.weixin.qq.com/s/lVk5yxVQZeOk2VO_pbyT3g

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...