HausaNLP at SemEval-2023 Task 12: Leveraging African Low Resource
TweetData for Sentiment Analysis
解决问题:本文旨在解决使用非洲低资源推特数据进行情感分析的问题。具体而言,通过在SemEval-2023 Task 12中提供三个子任务,即单语情感分类、多语言情感分类和零样本情感分类,来评估使用预训练模型进行情感分析的效果。
关键思路:本文的关键思路是利用预训练的Afro-xlmr-large、AfriBERTa-Large、BERT-base-arabic-camelbert-da-sentiment(Arabic-camelbert)、Multilingual-BERT(mBERT)和BERT模型,对14种非洲语言进行情感分析。作者通过对这些语言的推特数据进行标注,构建了一个多类别标记的黄金标准数据集,并对模型进行了评估。实验结果显示,Afro-xlmr-large模型在大多数语言数据集中表现更好,尼日利亚的豪萨语、伊博语和约鲁巴语的表现也优于其他语言。
其他亮点:本文的代码已在github上开源。作者的工作值得继续深入研究,尤其是在非洲低资源语言情感分析领域。同时,本文还提供了一个多类别标记的黄金标准数据集,可供其他研究者使用。
关于作者:本文的主要作者是Saheed Abdullahi Salahudeen、Falalu Ibrahim Lawan和Ahmad Mustapha Wali。他们分别来自尼日利亚科技大学和尼日利亚伊利林大学。根据我的数据库,他们之前没有代表作。
相关研究:近期其他相关的研究包括:
- “A Survey on Sentiment Analysis in African Languages”,作者为Oluwaseyi Feyisetan、Mojisola Elebe、Olusegun Folorunso、Olaniyi O. Folorunso和Emmanuel Adetiba,来自尼日利亚伊利林大学和拉各斯大学。
- “Exploring the Use of Machine Learning Techniques for Sentiment Analysis of African Languages: A Survey”,作者为Oluwaseyi Feyisetan、Mojisola Elebe、Olusegun Folorunso、Olaniyi O. Folorunso和Emmanuel Adetiba,来自尼日利亚伊利林大学和拉各斯大学。
论文摘要:本文介绍了SemEval-2023 Task 12的研究结果,该任务是使用Twitter数据集进行低资源非洲语言情感分析的共享任务。该任务包括三个子任务:子任务A是12个单语言跟踪的单语言情感分类,子任务B是使用子任务A的跟踪的多语言情感分类,子任务C是零样本情感分类。本文介绍了子任务A、子任务B和子任务C的结果和发现,并在github上发布了代码。我们的目标是利用预训练的Afro-xlmr-large、AfriBERTa-Large、Bert-base-arabic-camelbert-da-sentiment(阿拉伯骆驼bert)和多语言BERT(mBERT)模型,对14种非洲语言的情感进行分析。这些子任务的数据集包括来自这些语言的黄金标准多类标签Twitter数据集。我们的结果表明,在大多数语言数据集中,Afro-xlmr-large模型表现更好。同样,在尼日利亚语言中,豪萨语、伊博语和约鲁巴语的表现比其他语言更好,这可以归因于这些语言中存在更多的数据量。