从文字到音乐:符号音乐生成中子词标记化技术的研究

653次阅读
没有评论

From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation

解决问题:本论文旨在研究在基于Transformer模型的符号音乐生成中,采用子单词分词技术(如BPE)的有效性,以及其对生成音乐整体结构的影响。这是一个相对新的问题,因为在符号音乐生成领域,子单词分词技术的应用还未被广泛研究。

关键思路:本论文的关键思路是探索在符号音乐生成中采用子单词分词技术的有效性,并比较BPE和Unigram两种子单词分词方法。相比当前领域的研究状况,本论文的思路是新颖的,因为它将自然语言处理领域的成功经验引入到符号音乐生成领域。

其他亮点:本论文使用了三种类型的MIDI数据集进行实验,分别是单轨旋律、单乐器多轨和多乐器多轨。实验结果表明,采用子单词分词技术可以在相同的时间内生成更长的音乐,并且可以提高生成音乐的整体结构。本论文的实验设计合理,数据集来源清晰,但未提及是否有开源代码。本论文的研究值得进一步深入,特别是在涉及多轨音乐等复杂数据的情况下。

关于作者:本论文的主要作者是Adarsh Kumar和Pedro Sarmento。Adarsh Kumar是印度理工学院(IIT)的博士生,Pedro Sarmento是葡萄牙大学的博士后研究员。他们的代表作尚未在我的数据库中找到。

相关研究:近期其他相关的研究包括:

  • “Music Transformer: Generating Music with Long-Term Structure”,由Hang Chu等人于2019年发表在Google Research机构。
  • “MIDI-VAE: Modeling Dynamics, Instruments, and Tempo with Hierarchical Variational Autoencoders”,由Yiyang Yang等人于2021年发表在香港科技大学。
  • “A Survey of Deep Learning Techniques for Music Generation”,由Eduardo Fonseca等人于2021年发表在西班牙巴塞罗那大学。

论文摘要:本文介绍了子词分词在基于Transformer模型的自然语言处理(NLP)任务中的广泛应用。由于Transformer模型在符号音乐相关研究中越来越受欢迎,因此有必要探究子词分词在符号音乐领域的有效性。本文探讨了字节对编码(BPE)等子词分词技术在符号音乐生成中的应用及其对生成歌曲整体结构的影响。实验基于三种类型的MIDI数据集:仅包含单个音轨旋律、带有单个乐器的多轨和多乐器的多轨。研究人员在音乐后处理的基础上应用子词分词,并发现它可以在相同时间内生成更长的歌曲,并改善生成音乐的整体结构,如结构指标(SI)、音高类熵等客观指标。研究人员还比较了两种子词分词方法,BPE和Unigram,并观察到两种方法都可以带来一致的改进。该研究表明,子词分词是符号音乐生成的一种有前途的技术,对音乐创作可能具有更广泛的影响,特别是在涉及多轨歌曲等复杂数据的情况下。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy