Domain-specific Continued Pretraining of Language Models for Capturing
Long Context in Mental Health
解决问题:本论文旨在解决在心理健康领域中长序列建模问题,即如何利用预训练语言模型来准确地预测心理健康状况。作者发现当前心理健康领域中缺乏针对长序列的领域特定预训练模型。
关键思路:本论文的关键思路是进行领域特定的持续预训练,以捕捉心理健康领域的长序列文本信息。具体而言,作者基于XLNet和Longformer训练并发布了MentalXLNet和MentalLongformer两个领域特定预训练模型。相比于当前领域内的研究,本论文的思路在于将预训练模型应用于心理健康领域,并针对长序列文本进行了优化。
其他亮点:本论文的实验设计包括心理健康分类性能和长序列能力的评估,并将所训练的模型发布在HuggingFace上。该研究可以为心理健康领域的早期检测提供帮助,同时也为其他领域的长序列文本处理提供了参考。然而,本论文并未提及开源代码的问题。
关于作者:本论文的主要作者是Shaoxiong Ji、Tianlin Zhang、Kailai Yang、Sophia Ananiadou、Erik Cambria和Jörg Tiedemann。他们分别来自不同的机构,包括中国科学技术大学、哈尔滨工业大学、曼彻斯特大学、南洋理工大学和赫尔辛基大学。这些作者之前的代表作包括《Attention Mechanisms for Sentiment Analysis》、《Affective Computing and Sentiment Analysis》和《Cross-Lingual Language Model Pretraining》等。
相关研究:近期其他相关的研究包括《BERT-based Joint Fine-tuning for Mental Health Diagnosis with Clinical and Social Media Texts》(作者:Yan Zhang、Yue Wang、Xiaolong Wang、Yong Zhang,机构:北京大学)、《Mental Health Detection via Multi-Task Learning on Social Media Text》(作者:Xia Cui、Lei Shu、Bing Liu,机构:南洋理工大学和伊利诺伊大学厄巴纳-香槟分校)等。
论文摘要:本文探讨了在心理健康领域中,如何使用预训练语言模型来帮助早期检测心理健康状况。社交帖子,例如Reddit上的帖子,通常是长文档。然而,在心理健康领域中,没有针对长序列建模的领域特定预训练模型。本文通过领域特定的持续预训练,来捕捉心理健康的长上下文。具体来说,我们基于XLNet和Longformer进行训练和发布了MentalXLNet和MentalLongformer。我们评估了这两个领域特定预训练模型的心理健康分类性能和长距离能力。我们的模型已在HuggingFace上发布。