Gitee 推荐 | 少数民族语言预训练模型 CINO

1,713次阅读
没有评论

中文说明 | English


Gitee 推荐 | 少数民族语言预训练模型 CINO


Gitee 推荐 | 少数民族语言预训练模型 CINO

在自然语言处理领域中,预训练语言模型(Pre-trained Language Model, PLM)已成为重要的基础技术,在多语言的研究中,预训练模型的使用也愈加普遍。为了促进中国少数民族语言信息处理的研究与发展,哈工大讯飞联合实验室(HFL)发布少数民族语言预训练模型CINO (Chinese mINOrity PLM)。

中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知识蒸馏工具TextBrewer | 模型裁剪工具TextPruner

查看更多哈工大讯飞联合实验室发布的资源:https://github.com/ymcui/HFL-Anthology

新闻

2022/10/29 我们提出了一种融合语言学信息的预训练模型LERT。查看:https://github.com/ymcui/LERT

2022/8/23 CINO被国际重要会议COLING 2022录用为长文。camera-ready结束后,我们将更新论文最终版并发布相应资源。

2022/02/21 更新CINO-small模型,6层transformer结构,参数量148M。

2022/01/25 更新CINO-v2模型与WCM-v2数据集,少数民族语言分类任务效果提升。

2021/12/17 哈工大讯飞联合实验室全新推出模型裁剪工具包TextPruner,欢迎试用。

2021/10/25 CINO-large模型、少数民族语言分类任务数据集Wiki-Chinese-Minority(WCM)数据集已开放下载使用。

内容导引

章节
描述

简介
介绍少数民族语言预训练模型与相关数据集

模型下载
模型下载地址与使用说明

快速加载
介绍了如何使用🤗Transformers快速加载模型

少数民族语言分类数据集
介绍少数民族语言分类数据集

实验结果
列举了模型在NLU任务上的效果

引用
技术报告与引用

简介

多语言预训练模型(Multilingual Pre-trained Language Model),如mBERT、XLM-R等,通过在预训练阶段增加语言数量、采用MLM自监督训练等方式,使预训练模型具备了多语言(multilingual)和跨语言(cross-lingual)理解的能力。然而,由于国内少数民族语言语料的稀缺以及国际上研究的忽视,现有的多语言模型无法很好地处理国内少数民族语言文字。

本项工作的主要贡献:

  • CINO (Chinese mINOrity PLM) 基于多语言预训练模型XLM-R,在多种国内少数民族语言语料上进行了二次预训练。该模型提供了藏语、蒙语(回鹘体)、维吾尔语、哈萨克语(阿拉伯体)、朝鲜语、壮语、粤语等少数民族语言与方言的理解能力。

  • 为了便于评价包括CINO在内的各个多语言预训练模型性能,我们构建了基于维基百科的少数民族语言分类任务数据集Wiki-Chinese-Minority(WCM)。具体见少数民族语言分类数据集

  • 通过实验证明,CINO在Wiki-Chinese-Minority(WCM)以及其他少数民族语言数据集:藏语新闻分类 Tibetan News Classification Corpus (TNCC) 、朝鲜语新闻分类 KLUE-TC (YNAT) 上获得了最好的效果。相关结果详见实验结果

该模型涵盖:

  • Chinese,中文(zh)
  • Tibetan,藏语(bo)
  • Mongolian (Uighur form),蒙语(mn)
  • Uyghur,维吾尔语(ug)
  • Kazakh (Arabic form),哈萨克语(kk)
  • Korean,朝鲜语(ko)
  • Zhuang,壮语
  • Cantonese,粤语(yue)


Gitee 推荐 | 少数民族语言预训练模型 CINO

模型下载

直接下载

目前提供PyTorch版本的CINO-small、CINO-base和CINO-large模型的下载(推荐使用v2版本),后续将陆续更新其他规模与版本的模型。

  • CINO-large-v2:24-layer, 1024-hidden, 16-heads, vocabulary size 136K, 442M parameters
  • CINO-base-v2 12-layer, 768-hidden, 12-heads, vocabulary size 136K, 190M parameters
  • CINO-small-v2 6-layer, 768-hidden, 12-heads, vocabulary size 136K, 148M parameters
  • CINO-large:24-layer, 1024-hidden, 16-heads, vocabulary size 275K, 585M parameters

注意:

  • v1模型(CINO-large)支持XLM-R中的所有语言再加上少数民族语言;
  • v2模型(CINO-large-v2,CINO-base-v2和CINO-small-v2)的词表针对预训练数据做了裁剪,仅支持中文与少数民族语言。

模型简称
模型文件大小
Google下载
百度网盘下载

CINO-large-v2
1.6GB
PyTorch模型
PyTorch模型(密码3fjt)

CINO-base-v2
705MB
PyTorch模型
PyTorch模型(密码qnvc)

CINO-small-v2
564MB
PyTorch模型
PyTorch模型(密码9mc8)

CINO-large
2.2GB
PyTorch模型
PyTorch模型(密码wpyh)

通过🤗transformers下载

通过🤗transformers模型库可以下载TensorFlow (v2)和PyTorch版本模型。

下载方法:点击任意需要下载的模型 → 选择”Files and versions”选项卡 → 下载对应的模型文件。

模型简称
模型文件大小
transformers模型库地址

CINO-large-v2
1.6GB
https://huggingface.co/hfl/cino-large-v2

CINO-base-v2
705MB
https://huggingface.co/hfl/cino-base-v2

CINO-small-v2
564MB
https://huggingface.co/hfl/cino-small-v2

CINO-large
2.2GB
https://huggingface.co/hfl/cino-large

模型使用

PyTorch版本包含3个文件:

pytorch_model.bin # 模型权重
config.json # 模型参数
sentencepiece.bpe.model # 词表

CINO的结构与XLM-R相同,可直接使用Transformers中的XLMRobertaModel模型进行加载:

from transformers import XLMRobertaTokenizer, XLMRobertaModel
tokenizer = XLMRobertaTokenizer.from_pretrained(“PATH_TO_MODEL_DIR”)
model = XLMRobertaModel.from_pretrained(“PATH_TO_MODEL_DIR”)

快速加载

依托于🤗Transformers,可轻松调用以上CINO模型。

from transformers import XLMRobertaTokenizer, XLMRobertaModel
tokenizer = XLMRobertaTokenizer.from_pretrained(“MODEL_NAME”)
model = XLMRobertaModel.from_pretrained(“MODEL_NAME”)

其中MODEL_NAME对应列表如下:

模型名
MODEL_NAME

CINO-large-v2
hfl/cino-large-v2

CINO-base-v2
hfl/cino-base-v2

CINO-small-v2
hfl/cino-small-v2

CINO-large
hfl/cino-large

少数民族语言分类数据集

Wiki-Chinese-Minority(WCM)

我们基于少数民族语言维基百科语料及其分类体系标签,构建了分类任务数据集 Wiki-Chinese-Minority(WCM)。该数据集覆盖了蒙古语、藏语、维吾尔语、粤语、朝鲜语、哈萨克语,中文,包括艺术、地理、历史、自然、自然科学、人物、技术、教育经济和健康十个类别。

各个语言上取weighted-F1为评测指标。计算所有语言的weighted-F1平均作为总体评价指标。

数据集名称
Google下载
百度网盘下载

Wiki-Chinese-Minority-v2(WCM-v2)
Google Drive

Wiki-Chinese-Minority(WCM)
Google Drive

注:语料数据无法通过百度网盘分享,请通过Google Drive下载。

WCM-v2版本调整了各类别与语言的样本数量,分布相对更均衡。WCM-v2版本数据分布:

类别
蒙古语
藏语
维吾尔语
粤语
朝鲜语
哈萨克语
中文-Train
中文-Dev
中文-Test

艺术
135
141
3
387
806
348
2657
331
335

地理
76
339
256
1550
1197
572
12854
1589
1644

历史
66
111
0
499
776
491
1771
227
248

自然
7
0
7
606
442
361
1105
134
110

自然科学
779
133
20
336
532
880
2314
317
287

人物
1402
111
0
1230
684
169
7706
953
924

技术
191
163
8
329
808
515
1184
134
152

教育
6
1
0
289
439
1392
936
130
118

经济
205
0
0
445
575
637
922
113
109

健康
106
111
6
272
299
893
551
67
73

总计
2973
1110
300
5943
6558
6258
32000
3995
4000

数据说明:

  • 包含两个文件夹:zh和minority
  • zh:中文的训练集、开发集和测试集
  • minority:所有语言(各少数民族语言与方言)的测试集

该数据集尚处于alpha阶段,之后的版本可能会有一定改动。
后续还将有其他数据集发布,敬请期待。

实验结果

我们在YNAT、TNCC和Wiki-Chinese-Minority三个数据集上比较了不同模型的效果。

对于同一任务上的各个预训练模型,使用统一的训练轮数、学习率等参数。

朝鲜语文本分类(YNAT)

#Train
#Dev
#Test
#Classes
Metric

45,678
9,107
9,107
7
macro-F1

实验参数:学习率为1e-5,batch_size为16。

实验结果:

模型
开发集

XLM-R-large[1]

87.3

XLM-R-large[2]

86.3

CINO-small-v2
84.1

CINO-base-v2
85.5

CINO-large-v2
87.2

CINO-large
87.4

[1] 论文中的结果。
[2] 复现结果,与CINO-large使用相同的学习率。

藏语文本分类(TNCC)

#Train[1]

#Dev
#Test
#Classes
Metric

7,363
920
920
12
macro-F1

实验参数:学习率为5e-6,batch_size为16。

实验结果:

模型
开发集
测试集

TextCNN
65.1
63.4

XLM-R-large
14.3
13.3

CINO-small-v2
72.1
66.7

CINO-base-v2
70.3
68.4

CINO-large-v2
72.9
71.0

CINO-large
71.3
68.6

注:原论文中未提供train/dev/test的划分方式。因此,我们重新对数据集按8:1:1做了划分。

Wiki-Chinese-Minority

在中文训练集上训练,在其他语言上做zero-shot测试。各语言的评测指标为weighted-F1。

实验参数:学习率为7e-6,batch_size为32。

WCM-v2实验结果:

模型
蒙古语
藏语
维吾尔语
粤语
朝鲜语
哈萨克语
中文
Average

XLM-R-base
41.2
25.7
84.5
66.1
43.1
23.0
88.3
53.1

XLM-R-large
53.8
24.5
89.4
67.3
45.4
30.0
88.3
57.0

CINO-small-v2
60.3
47.9
86.5
64.6
43.2
33.2
87.9
60.5

CINO-base-v2
62.1
52.7
87.8
68.1
45.6
38.3
89.0
63.4

CINO-large-v2
73.1
58.9
90.1
66.9
45.1
42.0
88.9
66.4

示例代码

参见examples目录,目前包括

引用

如果本目录中的内容对你的研究工作有所帮助,欢迎引用下述论文。

@inproceedings{yang-etal-2022-cino,
title = “{CINO}: A {C}hinese Minority Pre-trained Language Model”,
author = “Yang, Ziqing and
Xu, Zihang and
Cui, Yiming and
Wang, Baoxin and
Lin, Min and
Wu, Dayong and
Chen, Zhigang”,
booktitle = “Proceedings of the 29th International Conference on Computational Linguistics”,
month = oct,
year = “2022”,
address = “Gyeongju, Republic of Korea”,
publisher = “International Committee on Computational Linguistics”,
url = “https://aclanthology.org/2022.coling-1.346”,
pages = “3937–3949”
}

关注我们

欢迎关注哈工大讯飞联合实验室官方微信公众号,了解最新的技术动态。

Gitee 推荐 | 少数民族语言预训练模型 CINO

问题反馈

如有问题,请在GitHub Issue中提交。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...