超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

568次阅读
没有评论

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

创新性提出Flow-VAE,更好把握克隆细节

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

超越OpenAI

国产大模型突袭,AI语音生成天花板被重新定义了。

MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech ArenaHugging Face TTS Arena两项全球权威语音基准测评第一

而且还是榜单前十名中唯一的国产玩家。

要知道,这俩榜首长期被OpenAI、ElevenLabs占据,前者不用多介绍,公认的AI领域全球NO.1梯队成员,后者也是专精AI语音合成赛道的领军玩家。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

具体效果如何?一手实测在此:

用专业播音腔读一读量子位的文章?So easy~

直接根据文章内容配上相应的语气和情绪,中英混杂轻松搞定,各种停顿和重音,完全就是顶级新闻播报员的感觉。

还能让霉霉为我们读论文。不仅是熟悉的美音,而且非常还原她个人特点。

如上效果,只需几秒语音参考,即可让大模型当场完成超逼真复刻。

并且在提供SOTA级性能同时,定价仅为ElevenLabs的一半甚至四分之一,性价比也称得上“全球SOTA”了。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

如此能力,不少人其实不知不觉体验到了。

比如前段时间大火的吴彦祖陪你学英语中的“AI阿祖”,底层能力正是来自MiniMax。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

还有个人开发者打造的出圈案例——故宫AI向导,正是基于MiniMax MCP Server,支持通过简单文本输入,完成图像、语音、视频生成以及声音克隆等多项能力。其中语音生成与克隆的能力,就是靠MiniMax Speech模型完成。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

果然,MiniMax还是一如既往闷声搞大事啊。

那么借着这次语音模型重磅更新,来扒一扒MiniMax是如何发起突袭的。

全球首个实现多样化、个性定义的语音模型

总结来看,Speech-02兼顾了三方面亮点:

  • 超拟人
  • 个性化
  • 多样性

首先,在最关键的“超拟人”方面,Speech-02的还原度不说是100%,也几乎是天衣无缝了。

比如这段脱口秀,无论是中文咬字还是英文发音,都非常完美。同时还带有自然的情绪起伏、停顿和重音,给人以更丰富的听觉感受。

其次在个性化方面,Speech-02现在已经提供了丰富音色可供选择。

细分维度包括语言、口音、性别和年龄。目前已经支持32种语言。中英文这样常用的选项里,还包含不同的口音。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

同时,它也支持对任意音色进行复刻。

由于不局限于只学习精品音色,它具备极强泛化能力,最少只需听10秒参考样本,即可完成对一种说话人声音的模仿。而且还支持对音色进行进一步细节调整。

声音参考这一功能为例(这一功能在国内仅对B端用户开放),只需提供10-300秒声音参考样本,Speech-02就可以开始完成复刻。上传文件or直接录音都可以。也就是说,对着模型说几句话,它就已经能学会你的音色了。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

它支持自动剔除背景噪音,对上传音频的质量要求不高。

比如生成霉霉音色时,我们使用了她在纽约大学演讲的片段,其中包含了掌声、欢呼声等噪音影响,但是对生成结果的影响很小。

此外还支持情绪等更细微的调整,能满足专业领域人士的需求。

最后,在多样性方面,Speech-02可以支持32种语言。

不仅支持不同语言之间无缝切换,而且在音色生成时就可以完成语种跨越。比如喂给它霉霉英文语音素材,让它生成中文版音色。

生成的语音也支持多语言之间无缝切换,如下是英语、西班牙语之间切换。

由此几方面优势结合,用Speech-02完成电影级配音,也不是问题了。

从数据维度看,Speech-02的表现也是全方位碾压。

通过词错误率(WER)和说话者相似度(SIM)两个维度,在Seed-TTS Test数据集上,Speech-02在零样本克隆中实现了更低词错误率,one-shot下SIM得分与真实音频(Ground Truth)相当,表明模型能够有效提取和保留说话者音色特色。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

在多语言评估上,Speech-02在包含24种语言的测试集上,它的WER表现与ElevenLabs Multilingual v2相当,在中文、粤语、泰语、越南语和日语等复杂语言中表现更好,甚至在英语上也完成了对ElevenLabs的全线超越

在SIM方面,MiniMax-Speech在所有测试语言中均优于ElevenLabs Multilingual v2,表明其说话者编码器和合成流程在保留说话者身份方面更为有效。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

A语音音频直接克隆至B语言语音,MiniMax-Speech的zero-shot在所有测试语言中都实现了更低WER,发音准确度最高。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

创新性提出Flow-VAE,更好把握克隆细节

所以,Speech-02为啥这么强?

还得看技术细节。目前Speech-02论文已全面公开,还被很多海外AI博主关注到了。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!
超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!
超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

从技术维度,Speech-02实现了只需极少样本、甚至在没有训练数据的情况下,仅通过参考音频,就能生成与目标说话人极为相似的音色,并且可以转换成多种语种。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

具体而言,它使用了基于自回归Transformer的架构

大多数自回归TTS在语音克隆中需要语音和对应文字转录作为提示。提示语音和目标语音在语义或语言上存在不匹配、解码长度限制等问题,往往会造成生成质量欠佳。

为此,Speech-02引入了独特的可学习说话者编码器(Learnable Speaker Encoder),直接与TTS模型一起训练。输入仅为一段参考音频,输出为一个固定大小的“声音特征向量”。

核心解决了三方面问题:

1、无需参考文本即可通过语音提示实现零样本语音克隆;
2、跨语言语音生成,它只关注声音的特征而不关心语音内容,因此即使参考音频是英文,但是也可以使用该音色直接生成其他语言的语音;
3、根据生成任务实际需求,提取出对音质和相似度更有用的特征

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

模型另一个重要创新在于引入了基于Flow-VAE的流匹配模型,进一步提升了生成语音的音质和说话人相似性。

VAE(Variational Autoencoder)用来学习语音的潜在特征表示(比如音色、韵律、情感等),它通常假设潜在空间服从标准正态分布,这可能会限制模型对复杂数据分布的建模能力。

由此引入Flow模型,通过一系列可逆转换,将潜在空间映射到更复杂的分布,从而更准确地捕捉数据中的复杂结构和分布特性。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

此外,研究团队还探索了模型的多种下游应用。比如通过LoRA实现对合成语音情感更精细控制、文本驱动音色生成以及专业语音克隆(通过微调参数为特定说话人生成更高保真度语音)。

为行业造AI语音引擎

不过,技术上领先还只是其一,在AI语音行业落地上,MiniMax也已悄悄领先。

落地案例多元、跨行业、全球化。与不同行业玩家共同开拓AI语音的应用前景。具体包括:

  • 成熟场景:教育、有声书等
  • 新鲜场景:AI伴读、智能硬件、汽车智能座舱、3A游戏实时交互等

比如在教育领域,MiniMax与高途共同探索出了24小时可定制化的AI语言陪练系统。

最近全网爆火的“吴彦祖教你学口语”中的“AI阿祖”,就是基于此实现,通过对吴彦祖音色精品复刻,在高途推出的吴彦祖英语课中,AI阿祖可以24小时随时在线陪练。

在智能座舱方面,MiniMax多个大模型已入驻极狐汽车,为用户提供即时问答服务。

值得一提的是,作为大模型技术厂商,MiniMax还一直与不同行业玩家共创,开拓AI应用边界、激发场景创新。

在一些前沿落地场景里,总能看到MiniMax。

比如大模型趋势下爆火的AI玩具领域,MiniMax为热度top1的跃然创新haivivi提供底层语音合成和文本模型能力。支持BubblePal能够随时灵活回答小朋友们的“十万个为什么”。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

基于MiniMax语音能力的「AI语音挂件」(售价399-449元),上线2个月销量突破2万台。

AI教育硬件方面,MiniMax为听力熊团队提供底层模型支持,专为青少年解决学习、生活中的各种问题,不局限于问题回答,还可以进行适当的反馈和情感表达,兼顾教育与陪伴场景。听力熊AI听说学习机T6已接入。

更为新鲜的,MiniMax与香港电视台尝试了使用语音模型的粤语能力做天气预报,进一步开拓落地场景。

在海外也与Hedra合作,打造了可以定制化的数字角色分身。

可以明显感知到,MiniMax不仅在商业价值已得到初步验证的领域积极落地,也重点关注了AI语音在更多新场景的应用,推动技术创新同时更为行业带来新价值。

可以感知到,与MiniMax达成合作的行业玩家中,不乏领域内领军者,更有很多来自新兴赛道。前者的落地价值已经初步被验证,后者则蕴藏着巨大潜力。

Always MiniMax,Why?

所以,为啥它们不约而同选择MiniMax?

技术领先性是最首要的。MiniMax是AI领域头部玩家,在大模型技术浪潮之前,已经抢先布局自研多个模态的基础模型,覆盖文本、语音、视觉三大领域。

显然在AI语音领域,MiniMax长线布局,而且一直走在行业前沿。

而且,MiniMax还有天然的技术试炼场——星野、Talkie等。这意味着,MiniMax更懂实际落地、更懂如何将实验室中的前沿技术输送到用户面前。所以,MiniMax也是国内最早用大模型架构提供语音服务的公司。

这或许也是为何MiniMax始终低调,但又一直被行业青睐。

而透过这次动作,MiniMax的布局战略,也呈现出更清晰的全貌——

布局全模态,且纷纷拿下SOTA。

以最初的三大基础模型为起点,MiniMax在短短2年时间内已经完成了对全模态能力的完整布局。

文本方面,MiniMax打破了传统Transformer架构限制,首次大规模实现了线性注意力机制,这种架构创新极大地提升了模型的计算效率,降低了成本,尤其在处理超长文本场景中,展现出显著的可扩展性。这也是对Agent时代进行抢先押注,从中也足见MiniMax领先于行业的技术。

就在年初,MiniMax还完成了MiniMax-01系列开源,包含两个模型,基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01,为开源社区提供优质选择。

语音方面,随着Speech-02发布,MiniMax在AI语音领域的领先地位更加不可动摇。

视频方面,海螺AI已经是全球最大的生成式AI视频平台,它为用户提供了高度自由的创作控制能力,用户可以通过简单的输入(如一张图片或一段文字)生成视频,并且能够像专业导演一样自由掌控镜头语言。

超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

如今,大模型趋势来到应用落地侧,MiniMax依旧坚持原始性创新,不断刷新领域内新纪录。

底层技术是AI厂商的源头优势,是长期估值的压舱石,也是唯一不可被快速复制的壁垒。

而在落地方面,MiniMax低调推进,与不同行业合作。一些AI落地爆款背后,总能看到MiniMax的身影。这既是技术领先的进一步验证,也是其落地能力的直接证明。

可以看到,随着大模型发展驶入“深水区”,更关键在于,谁能构建起“模型即产品”机制,不断将AI技术从一线实验室向千行百业输送。

在这之中,布局全、壁垒深、落地广的玩家,更值得被关注。

MiniMax已经为行业打了个样,不是吗?

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...