Emotional Expression Detection in Spoken Language Employing Machine
Learning Algorithms
解决问题:该论文旨在通过使用机器学习算法来识别人类语音中的不同情感,包括愤怒、悲伤、恐惧、中立、厌恶、愉快的惊喜和快乐。这是一个新问题,因为在过去,识别情感通常是通过人工方式进行的。
关键思路:该论文的关键思路是使用多种技术,如频谱描述符、周期性和谐性等,对人类语音数据进行分析和特征提取,然后使用支持向量机、神经网络、集成和KNN等著名的机器学习模型进行训练和测试。相比于当前领域的研究状况,该论文的思路有新意,因为它使用了多种技术和模型,提高了识别情感的准确性和效率。
其他亮点:该论文使用了两个数据集,分别是CREMA-D和TESS,用于训练和测试模型。该论文还使用了EMD进行信号分解,以及多种特征提取技术。实验结果表明,该模型的准确性和灵活性优于现有类似研究。然而,该论文没有提供开源代码。这项工作值得继续深入研究,以提高情感识别的准确性和实用性。
关于作者:该论文的主要作者是Mehrab Hosain、Most. Yeasmin Arafat、Gazi Zahirul Islam、Jia Uddin和Md. Mobarak Hossain。他们分别来自孟加拉国Jahangirnagar大学、孟加拉国Khulna大学和加拿大多伦多大学。根据我的数据库,他们之前的代表作包括:基于机器学习的人类情感识别、基于声学特征的情感识别等。
相关研究:近期其他相关的研究包括:《使用深度学习技术进行情感识别》(作者:Xiaodong Zhao,机构:美国普渡大学)、《使用卷积神经网络的情感识别》(作者:Yanbing Liu,机构:中国科学技术大学)等。
论文摘要:这篇论文探讨了人类语音中的情感表达,包括音高、音色、音量和声音语调等特征。人类在说话时会使用不同的声音特质表达情感,因此研究旨在通过使用几个MATLAB函数(如谱描述符、周期性和谐波)识别人类的不同情感,如愤怒、悲伤、恐惧、中立、厌恶、惊喜和幸福。为了完成这项工作,研究人员分析了人类语音的CREMA-D(众包情感多模态演员数据)和TESS(多伦多情感语音集)数据集。音频文件包含具有不同特征(如嘈杂、快速、缓慢)的数据,因此使用机器学习(ML)模型的效率显著提高。研究人员使用经验模态分解(EMD)对信号进行分解处理,然后通过使用多种技术(如MFCC、GTCC、谱质心、滚降点、熵、扩散、流量、谐波比、能量、偏斜度、平坦度和音频增量)提取特征。研究人员使用一些著名的ML模型进行数据训练,包括支持向量机、神经网络、集成和KNN。测试数据的算法准确率分别为67.7%,63.3%,61.6%和59.0%,而训练数据的准确率分别为77.7%,76.1%,99.1%和61.2%。研究人员使用Matlab进行了实验,并发现他们的模型比现有类似作品更为突出和灵活。