开放可用的多领域开源专业词库:涵盖68个领域、共计916万词的专业词库开放

658次阅读
没有评论

今天是2024年1月6日,北京,天气晴,我们开看看一些语言资源建设的工作。

来看看早年的一些工作:

https://github.com/liuhuanyong/DomainWordsDict

涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能。

供大家一起参考。

一、项目由来

1、领域性是自然语言处理中十分重要的一类问题,不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段,例如,在没有标注语料进行有监督的领域文本分类中,利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。

2、当前,纵观中文开放语言资源,并未有出现较大规模的领域性资源,如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。
为了填补这一空白以及对领域性词库进行基础语言资源建设,本项目被提出。

二、数据来源

通过对领域垂直网站的解析、领域文本的特征词提取,近几年来对领域词典的收集与整理,人工清洗等处理工作之后, 最终形成了数学科学、人力招聘、天文科学、餐饮食品、外语学习等共计68个领域,共计916万词的较大规模领域词汇库。

三、数据介绍

数据放在data文件夹下,共68个txt文件,每个文件以领域的名称命名。每个文件中的每一行包括两列(以tab符分开),分别代表词语名称以及对应的权重。文件中的词语按照权重从大到小的方式排列,权重越高,该词对于领域的代表性或区分能力就越强。在使用的过程中,我们可以设定具体的权重域值在选用不同的词语来用于特定任务。

开放可用的多领域开源专业词库:涵盖68个领域、共计916万词的专业词库开放开放可用的多领域开源专业词库:涵盖68个领域、共计916万词的专业词库开放

总结

本项目开放了一个涵盖68个领域,带有行业代表性权重的领域词库,规模达到了916万词,是目前开放词典资源中较大规模的一个,填补了一定的空缺。

领域词汇库的构建和开放,是一项基础、必要且重要的工作。可以通过领域开放文本进行挖掘,如基于垂直网站解析、文本特征词提取等诸多方法来实现。

关于领域词汇知识库的构建方法和理论,可以参考之前写的博客《领域词汇知识库的类型、可用资源与构建技术漫谈》:https://blog.csdn.net/lhy2014/article/details/103995629。

语言资源、经典词库的构建,与目前盛行的深度学习自然语言处理并行不悖。将已构建好的领域词库或者知识库融合到深度学习模型当中,是一个很好的前进方向。需要且必要地关注底层语义资源的建设。

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy