一种用于语音情感识别的矢量量化掩蔽自编码器。

573次阅读
没有评论

A vector quantized masked autoencoder for speech emotion recognition

解决问题:论文旨在解决情感识别领域中标记数据有限的问题,提出了一种自监督学习的方法,即基于向量量化的掩蔽自编码器(VQ-MAE-S)。

关键思路:VQ-MAE-S模型基于掩蔽自编码器(MAE),通过在向量量化的变分自编码器的离散潜空间中操作,实现对情感的识别。相比于当前领域的研究,该论文的思路在于采用自监督学习的方法,利用无标记数据进行预训练,从而提高了情感识别的性能。

其他亮点:该论文在VoxCeleb2数据集上进行了预训练,并在情感语音数据上进行了微调,结果表明VQ-MAE-S模型在情感识别方面优于基于原始频谱图表示的MAE模型和其他先进方法。该论文开源了代码,可供研究者使用。值得进一步研究的工作包括如何利用更多的无标记数据进行预训练以及如何将该方法应用于其他语音任务中。

关于作者:Samir Sadok、Simon Leglaive、Renaud Séguier分别来自法国国家科学研究中心(CNRS)和巴黎高科技学院(EPITA)。他们之前的代表作包括:“AutoEncoder-Based Unsupervised Domain Adaptation for Speech Emotion Recognition”(Samir Sadok等,2020)和“Deep Learning for Music Genre Classification: A Comparison of Transfer Learning Strategies”(Simon Leglaive等,2019)。

相关研究:近期其他相关的研究包括:“Self-Supervised Learning for Speech Emotion Recognition using Contrastive Predictive Coding”(Shanxin Yuan等,2021)和“Self-supervised Learning for Speech Emotion Recognition using Pitch-based Prediction”(Yi Ren等,2021),这些研究也探索了自监督学习在情感识别领域的应用。

论文摘要:最近几年,深度学习技术的进步使得语音情感识别(SER)取得了显著进展。然而,标记数据的有限可用性仍然是该领域的一个重要挑战。自监督学习最近已经成为解决这个挑战的一种有前途的解决方案。在本文中,我们提出了一种基于向量量化掩蔽自编码器(VQ-MAE-S)的自监督模型,该模型经过微调可以识别语音信号中的情感。VQ-MAE-S模型基于一个在向量量化变分自编码器的离散潜在空间中运行的掩蔽自编码器(MAE)。实验结果表明,VQ-MAE-S模型在VoxCeleb2数据集上进行预训练并在情感语音数据上进行微调后,表现优于基于原始频谱图表示的MAE和其他最先进的SER方法。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy