AI说书媲美真人!豆包语音大模型升级长上下文理解

1,218次阅读
没有评论

AI说书媲美真人!豆包语音大模型升级长上下文理解

优化后的豆包语音模型在小说演播场景,CMOS(Comparative Mean Opinion Score,与真人打对比分的一种主观评分方式)已达一流主播的90%+效果。

允中 发自 凹非寺

量子位 | 公众号 QbitAI

市面上很多的语音模型已经能保证足够自然的合成表现,但在音质、韵律、情感,以及多角色演绎上还有探索空间。特别是在小说演播场景下,想要媲美一流主播细腻的演播效果,要做好旁白和角色的区分演绎、角色情感的精确表达、不同角色的区分度等。

传统的小说TTS生成方式,需要提前给对话旁白、情感、角色打标签,而豆包语音模型则可以做到端到端合成,无需额外标签标注。

AI说书媲美真人!豆包语音大模型升级长上下文理解

△传统语音模型和豆包语音模型合成链路的区别

改进Seed-TTS技术,合成语音效果媲美真人

原始Seed-TTS(技术报告:https://arxiv.org/pdf/2406.02430)是一种自回归文本到语音模型,主要分为4个主要模块:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。

其中Speech Tokenizer解析了参考音频信息,决定了合成音频的音色和全局风格;Autoregressive Transformer接收传入的目标文本和Speech Tokenizer的输出,进而生成出包含语义信息的Semantic Token;Diffusion Model会基于Semantic Token建模出包含语音信息的Acoustic Token;Acoustic Vocoder负责将Acoustic Token重建还原出最终的音频。

AI说书媲美真人!豆包语音大模型升级长上下文理解

△原始Seed-TTS架构

为进一步提升小说演播下的语音表现力和长文本的理解,豆包技术团队对Seed-TTS进行了改进

  • 在数据上,小说音频做章节级别处理,保证了长文下的语音一致性和连贯性。
  • 在特征上,融合TTS前端提取的音素、音调、韵律信息和原始文本,提升发音和韵律的同时,保留小说语义。
  • 在结构上,将speech tokenizer改为speaker embedding,解除reference audio对于语音风格的限制,因而同一个发音人能在不同角色上作出更贴合人设的演绎。
  • 最后在目标合成文本之外,额外加入了上下文的信息,从而使得模型能够感知更大范围的语义信息,旁白和角色音表现更精准到位。

经过专业评测,优化后的豆包语音模型在小说演播场景,CMOS(Comparative Mean Opinion Score,与真人打对比分的一种主观评分方式)已达一流主播的90%+效果。

AI说书媲美真人!豆包语音大模型升级长上下文理解

△优化后的豆包语音模型结构

技术落地番茄小说,惠及听书用户

豆包语音大模型团队以王明军、李满超两位演播圈大咖的声音为基础,采用新技术合成的千部有声书,已上线番茄小说,题材覆盖了历史、悬疑、灵异、都市、脑洞、科幻等热门书目类型。

AI说书媲美真人!豆包语音大模型升级长上下文理解
AI说书媲美真人!豆包语音大模型升级长上下文理解

据了解,未来豆包语音模型会继续探索前沿科技与业务场景的结合,追求更极致的“听”体验。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...