清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

352次阅读
没有评论

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

两项目的第一作者均为李畅和陈泽华

音频超分辨率(Audio Super-Resolution, Audio SR),即从低采样率音频恢复出高采样率版本,是提升语音清晰度、音乐细节与沉浸式音频体验的关键技术

无论是在老旧录音修复、语音通信增强,还是音乐制作与多模态生成中,高分辨率音频都能显著提升听感与表现力。然而,由于高频细节在低采样率信号中被严重损失,这一任务一直是音频生成领域的核心挑战。

值得注意的是,近期由OpenAI推出的有声视频模型Sora 2已能生成采样率高达96 kHz的音频,为高保真音频生成树立了新的技术标杆。而现有学术界的音频超分模型大多仍局限于48 kHz以内,缺乏能够稳定支持更高采样率的通用框架。

在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议ICASSP 2025机器学习顶级会议NeurIPS 2025发表了两项连续成果:

轻量化语音波形超分模型Bridge-SR,以及面向高达192 kHz母带级音频的多功能超分框架AudioLBM。

其中,AudioLBM覆盖语音、音效与音乐等多类内容,在通用高分辨率音频生成方面展现出重要的扩展潜力。

从数据到数据:Bridge-SR的探索

2025年发表于ICASSP的Bridge-SR工作首次将薛定谔桥(Schrödinger Bridge)模型引入语音超分任务,在“数据到数据”的生成范式下建立了低分辨率波形与高分辨率波形之间的可解桥接过程。

不同于扩散模型从随机噪声逐步生成信号的“噪声到数据”方式,Bridge-SR直接利用低分辨率波形作为生成先验,使模型在轻量化网络(仅1.7M参数)下就能以“数据到数据”范式实现高效、高保真的语音超分,并在VCTK语音测试集上优于多项主流方法。

这一工作为先验驱动的音频超分提供了新思路,也为后续更通用、更高质量的音频超分模型奠定了理论与实验基础。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图一:波形空间的轻量化桥类超分模块设计

通过非对称的噪声调度设计,频域幅度谱、相位谱的辅助监督,与一阶PF-ODE采样,Bridge-SR在音频波形空间采用基线模型中最轻量级的1.7M网络即实现了语音超分的质量突破。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图二:VCTK Benchmark测试集的语音超分质量对比

近日,团队继续深入研究,开发针对语音、音效、音乐全音频信号的通用超分模型,设计“隐空间桥类模型”AudioLBM,在Any-to-48 kHz的音频超分任务中大幅超越基线模型,实现音频超分新范式。并成功实现了96kHz和192kHz音频超分的工程突破,使得母带音质不再稀缺。

从隐变量到隐变量:AudioLBM的突破

在 Bridge-SR 的基础上,团队进一步提出了AudioLBM,论文已发表于 NeurIPS 2025。

该研究探索了从“波形域生成”到“隐空间建模”的转变,实现了基于桥类模型的通用音频超分。AudioLBM首次在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程

研究团队通过变分自编码器(VAE)将波形压缩为连续隐空间表征,并在该空间中学习概率生成映射,从而保留输入波形的结构化先验信息,同时提升模型的泛化建模能力。

下图为,音频超分任务(上)、传统在频谱隐空间的扩散模型(中)、和波形隐空间桥类模型(下):

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

为应对高分辨率数据稀缺问题,提升训练效率,AudioLBM提出了频率感知机制(frequency-aware LBM),在训练中显式感知先验采样率与基于团队设计的信号处理手段自动检测的目标采样率,使模型能够学习“任意采样率到任意采样率”(any-to-any)的超分过程。

进一步地,为了有效实现采样率上限突破,团队设计了级联桥类模型(cascaded LBM),将模型能力从48 kHz扩展至96 kHz与192 kHz,首次实现了音频超分研究中覆盖192 kHz工业级采样率的探索。

通过先验增强(prior augmentation)与潜空间模糊(latent blurring)策略,模型能够在多阶段生成中保持高频细节与能量一致性。同时,团队对各阶段压缩网络和桥模型进行级联微调,有效利用低分辨率模型作为更高分辨率模型的强大先验。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图四:级联桥类模型设计

在跨语音、音效与音乐的多域评测中,AudioLBM在Any-to-48kHz超分任务上取得新的SOTA(state-of-the-art)表现:

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图五:通用音频超分的质量对比

相较于基线模型AudioSR与FlowHigh,在对数谱距离(LSD)上均明显下降,同时在96 kHz与192 kHz任务中保持稳定性能。该方法在统一框架下实现了对语音、音效与音乐的高保真重建,显著提升了通用性。实现了从语音到音乐的统一高分辨率生成。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图六:音频超分结果的频谱展示

针对音频数据的其他表征空间,如波形空间、谱空间,团队也做出消融实验。对于语音、音效、音乐通用音频超分任务,波形隐空间达到最佳效果:

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

△图七:音频波形空间、谱空间、波形隐空间超分结果与真值的频谱展示

作者介绍

此两项目的第一作者均为李畅陈泽华

李畅是中国科学技术大学少年班学院的本科生,主要研究方向是语音,音频相关的生成建模与表征学习,曾以第一作者身份在多个CCF-A/B类会议发表音频相关学术研究。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

陈泽华是清华大学计算机系水木学者博士后,博士毕业于英国帝国理工学院电气与电子工程系,主要研究方向为概率生成模型,及其在语音、音效、生物电信号合成等方面的应用。在语音和机器学习领域的重要会议与期刊上持续发表相关研究工作。

清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式

【Bridge-SR】
论文地址:https://arxiv.org/pdf/2501.07897
样本展示:https://bridge-sr.github.io/

【AudioLBM】
论文地址:https://arxiv.org/pdf/2509.17609
样本展示:https://audiolbm.github.io/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...