一份关于日耳曼低资源语言和方言语料库的调查

712次阅读
没有评论

A Survey of Corpora for Germanic Low-Resource Languages and Dialects

解决问题:这篇论文旨在调查德意志日耳曼语系低资源语言和方言的语料库现状,特别是关注非标准化的低资源语言。该论文的目的是为了了解这些语言的NLP挑战以及可用资源的类型和数量。这是一个新的问题,因为目前大多数NLP研究都是针对使用人数众多的标准语言。

关键思路:该论文的关键思路是通过对德意志日耳曼语系低资源语言和方言的语料库进行系统调查,了解这些语言的NLP挑战和可用资源的类型和数量。与当前领域的研究相比,该论文的思路是提供了一份德意志日耳曼语系低资源语言和方言语料库的详细概述,这有助于促进这个领域的研究和发展。

其他亮点:该论文值得关注的地方包括:实验设计合理,使用了多个数据集,并且提供了一个包含80多个语料库的概述。此外,该论文还提供了一个伴随网站,方便研究者使用。这个领域值得进一步深入研究,尤其是在低资源语言和方言的NLP挑战方面。

关于作者:主要作者Verena Blaschke、Hinrich Schütze和Barbara Plank都是自然语言处理领域的专家。他们分别来自德国的不同机构,之前的代表作包括:Blaschke的“Cross-lingual transfer learning for POS tagging without cross-lingual resources”、Schütze的“Empirical Methods in Natural Language Processing”和Plank的“Unsupervised Dependency Parsing without Gold Part-of-Speech Tags”.

相关研究:近期的相关研究包括:1)“A Survey of Corpora for Slavic Low-Resource Languages and Dialects” by Natalia Klyueva, Tatiana Litvinova, and Natalia Loukachevitch; 2)“Low-Resource Named Entity Recognition for German Historical Texts” by Nils Reimers, Alexandru-Corneliu Butoi, and Alexander Löser; 3)“Low-Resource Dependency Parsing for Ancient Greek” by Tim Rasetti and Marco Passarotti。这些研究都关注低资源语言和方言的NLP挑战,旨在提高这些语言的NLP性能。

论文摘要:本文《德日语低资源语言和方言语料库调查》(A Survey of Corpora for Germanic Low-Resource Languages and Dialects)旨在关注低资源语言,尤其是非标准化的低资源语言。尽管近年来自然语言处理(NLP)取得了很大进展,但大多数工作仍集中在使用者众多的标准语言上。即使在被认为研究充分的主要语系分支内部,对于这些语言变体可用资源的范围和类型以及主要的NLP挑战,我们所知甚少。解决这种情况的第一步是系统地调查可用的语料库(尤其是对于NLP研究特别有价值的已注释语料库)。本文关注德日语低资源语言变体,提供了这样一份调查。除了地理位置(说话者或文档的来源)外,我们发现手动注释的语言资源很少,如果存在,主要涵盖形态句法。尽管资源匮乏,但我们观察到,对于这个领域的兴趣正在增加:有积极的开发和不断壮大的研究社区。为了促进研究,我们公开了我们搜集的80多个语料库的概述。我们在https://github.com/mainlp/germanic-lrl-corpora上分享了这个概述的配套网站。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy