《Large-Scale Automatic Audiobook Creation》[Microsoft] (2023)
Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
传统的有声读物制作需要数百小时的人工工作,本文介绍了一个从电子书自动生成有声读物的系统。利用神经文本转语音的进展,从古腾堡项目中创建了数以千计的高质量、开放授权的有声读物。
可以识别各种结构电子书的适当文本内容,并对数百本书进行并行处理。用户可以用少量音频样本自定义语速/语调、情感语气和语音。
该系统贡献了超过五千本开放授权的有声读物,以及一个快速创建自定义有声读物的演示。
论文地址:https://arxiv.org/pdf/2309.03926.pdf
正文完
可以使用微信扫码关注公众号(ID:xzluomor)