ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

551次阅读
没有评论

ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

OmniAudio团队 投稿

量子位 | 公众号 QbitAI

空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。

然而,现有的技术大多基于固定的视角视频,缺乏对360°全景视频中空间信息的充分利用。

在这样的背景下,一项在空间音频生成领域具有里程碑意义的研究应运而生——OmniAudio:它能够直接从360°视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。

相关代码和数据集已开源

https://github.com/liuhuadai/OmniAudio

为何需要从360°视频生成空间音频?

传统的视频到音频生成技术主要关注于生成非空间音频,比如手机外放或者耳机里的声音,这些音频缺乏方向信息,无法满足沉浸式体验对3D声音定位的需求。

所以看VR电影或者玩动作游戏的时候,总会觉得少了些代入感。

随着360°摄像头的普及和虚拟现实技术的发展,如何利用全景视频生成与之匹配的空间音频,就成为了一个亟待解决的问题。

ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

为应对这些挑战,OmniAudio的研究团队提出了360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从360°视频生成FOA(First-order Ambisonics)音频。

FOA是一种标准的3D空间音频格式,使用四个通道来表示声音,包含声音的方向信息,可实现真实的3D音频再现。

与传统的立体声相比,FOA音频在头部旋转时也能够保持声音定位的准确性。

ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

Sphere360:第一个大规模360V2SA数据集

数据是机器学习模型的基石,然而,现有的配对360°视频和空间音频数据极为稀缺。

为此,OmniAudio团队设计了一个高效的半自动化pipeline,用于构建Sphere360数据集:

首先,通过关键字在YouTube上爬取包含FOA音频和360°视频的候选素材,应用技术过滤器剔除不符合条件的视频,并采用频道为单位进行聚合式爬取。

然后,人工审核补充剩余视频。

在清洗环节,针对视频静态、音频静音、过多语音内容以及视音频不匹配等问题设计了具体检测算法,确保高质量对齐。

ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

Sphere360数据集是一个包含超过103,000个真实世界视频片段的数据宝库,涵盖288种音频事件,总时长达到288小时。收集到的视频既包含 360° 视觉内容,又支持FOA音频,并具有高质量和高可用性。

与其他现有数据集相比,Sphere360在规模和适用性上均存在显著优势。

ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

OmniAudio:创新技术实现空间音频生成

OmniAudio的训练方法可分为两个阶段:自监督的coarse-to-fine流匹配预训练,以及基于双分支视频表示的有监督微调

ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

简单地说,在预训练阶段,先用普通立体声音频转换为“伪FOA”格式训练模型,同时通过自监督的掩码预测方法,让模型学会音频的基本结构和时间规律;再使用真实FOA精细训练,提高掩码概率,让模型能够更好地理解声音的空间信息。

相比起直接训练,这种“先普通音频,再空间音频”的两步法显著改善了模型对空间特征的泛化能力与生成质量。

在完成自预训练后,OmniAudio团队将模型与双分支视频编码器结合,同时提取视频的全局特征和局部视角,进行有监督微调,以达成模型可根据360° 视频生成高保真、方向准确的空间音频的效果。

详细方法可见文末项目链接。

成果与展望

OmniAudio团队在Sphere360-Bench,以及来自YT-360的外部分布测试集YT360-Test上进行有监督微调与评估。

主要结果显示,OmniAudio在两套测试集上均显著优于所有基线。

ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频

但OmniAudio也有一定的局限性:例如,面对包含大量发声物体的复杂场景时,模型在事件类型识别上仍存在挑战。

OmniAudio的研究团队表示,未来的工作将探索更好地理解多目标360° 视频的技术,并通过持续收集和扩充数据集,进一步推进该领域的发展。

项目主页: https://omniaudio-360v2sa.github.io/

开源仓库:https://github.com/liuhuadai/OmniAudio

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...