快来关注➡️ 2025-05-29 17:26 浙江

OmniAudio 重新定义沉浸式体验

当你置身于一场音乐会，闭上眼睛，仍能凭借声音判断乐器的位置；在电影院，环绕音效让我们仿佛置身于电影场景之中；这是我们大脑对声音的“空间感知”。

空间音频，作为一种能够模拟真实听觉环境的技术，正逐渐成为提升沉浸式体验的关键。然而，现有的技术大多基于固定的视角视频，缺乏对 360° 全景视频中空间信息的充分利用。

如何让 AI 看懂 360° 视频，并“听”出对应的空间音频？我们带来一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio，它能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。

佩戴耳机🎧体验更加哦～

📖 项目主页

https://omniaudio-360v2sa.github.io/

✅ 代码和数据开源仓库

https://github.com/liuhuadai/OmniAudio

📒 论文地址

https://arxiv.org/abs/2504.14906

传统的视频到音频生成技术主要关注于生成非空间音频（如单声道或立体声），这些音频缺乏方向信息，无法满足沉浸式体验对 3D 声音定位的需求。此外，这些技术通常基于有限视角的视频，错过了全景视频所能提供的丰富视觉上下文。

随着 360° 摄像头的普及和虚拟现实技术的发展，如何利用全景视频生成与之匹配的空间音频成为一个亟待解决的问题。

为应对这些挑战，通义实验室语音团队提出了 360V2SA（360-degree Video to Spatial Audio）任务，旨在直接从 360° 视频生成 FOA（First-order Ambisonics）音频。FOA 是一种标准的 3D 空间音频格式，能够捕捉声音的方向性，实现真实的 3D 音频再现。它使用四个通道（W、X、Y、Z）来表示声音，其中 W 通道捕捉整体声压，X、Y、Z 通道分别捕捉前后、左右和垂直方向的声音信息。与传统的立体声相比，FOA 音频在头部旋转时能够保持声音定位的准确性。

数据是机器学习模型的基石，然而，现有的配对 360° 视频和空间音频数据极为稀缺。为此，研究团队精心设计并构建了 Sphere360 数据集。

Sphere360 数据集包含大量高质量的 360° 视频和相应的 FOA（First-order Ambisonics）空间音频。这是一个包含超过 103,000 个真实世界视频片段的数据集，涵盖 288 种音频事件，总时长达到 288 小时。既包含 360° 视觉内容，又支持 FOA 音频。

在数据集的构建过程中，研究团队采用了一系列严格的筛选和清洗标准。在清洗环节，针对视频静态、音频静音、过多语音内容以及视音频不匹配等问题设计了具体检测算法，例如利用帧间均方误差（MSE）检测静态视频，使用滑动窗口和 dBFS 计算判定音频是否为静音，调用 SenseVoice 模型检测语音含量，并使用 ImageBind 检测音视频一致性，确保高质量对齐。

OmniAudio 的训练方法可分为两个阶段：自监督的 coarse-to-fine 流匹配预训练，以及基于双分支视频表示的有监督微调。

阶段一

研究团队针对数据稀缺问题，充分利用大规模非空间音频资源（如 FreeSound、AudioSet、VGGSound 等），先将立体声转换为“伪 FOA”格式——W 通道为左右声道之和，X 通道为左右声道之差，Y、Z 通道置零——再送入四通道 VAE 编码器获得潜在表示。

对于这些潜在表示，团队以一定概率 pₘ 进行随机时间窗掩码（mask span 最小长度 lₘ），并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异，实现对音频时序和结构的自监督学习。

这一“粗”阶段使模型掌握了通用音频特征和宏观时域规律，为后续空间音频精细化提供了坚实基础。

阶段二

研究团队仅使用真实的 FOA 音频数据，继续沿用掩码流匹配的训练框架，但此时模型的全部注意力集中在四通道的空间特性上。通过对真实 FOA 潜在序列进行更高概率的掩码，模型不仅强化了对声源方向（W/X/Y/Z 四通道之间的互补关系）的表征能力，还在解码端提升了对高保真空间音频细节的重建效果。

相较于仅以真实 FOA 进行直接拟合，此粗-细预训练策略显著改善了模型对空间特征的泛化能力与生成质量。

在完成自监督预训练后，团队将模型与双分支视频编码器结合，进行有监督微调。针对输入的 360° 全景视频，使用冻结的 MetaCLIP-Huge 图像编码器提取全局特征；同时，从同一视频中裁取 FOV（field-of-view）局部视角，亦通过相同编码器获得局部细节表征。

全局特征经最大池化后作为 Transformer 的全局条件，局部特征经时间上采样并与音频潜在序列逐元素相加，作为逐步生成过程中的局部条件。在保持预训练初始化参数的大致走向下，高效微调条件流场，从噪声中有针对性地“雕刻”出符合视觉指示的 FOA 潜在轨迹。

微调完成后，仅需在推理阶段采样学得的速度场，再经 VAE 解码器恢复波形，便可输出与 360° 视频高度对齐、具备精确方向感的四通道空间音频。

通过上述两阶段训练，OmniAudio 不仅在音频生成质量上实现了从宏观到微观的跨域迁移，也借助视觉条件保证了空间定位的准确性，为 360V2SA 任务奠定了坚实的技术基础。

在实验设置中，研究团队在 Sphere360-Bench，以及来自 YT-360 的外部分布测试集 YT360-Test 上进行有监督微调与评估。视频帧率统一为 8FPS，音频采样率为 44.1kHz。评估指标分为两大类：

客观指标

非空间音频质量：采用 Fréchet Distance（FD）衡量生成音频和真实音频在 OpenL3 特征空间的分布差异（越低越好）；采用 Kullback-Leibler 散度（KL）衡量两者标签分布差异（越低越好）。

空间音频准确度：按照 Heydari 等（2024）的方法，计算声源方向估计误差，包括绝对方位角误差 Δabsθ、绝对仰角误差 Δabsϕ，以及综合角度误差 ΔAngular（均越低越好）。

主观指标

通过人工打分得到空间音频质量 MOS-SQ 和视音对齐保真度 MOS-AF，两者均为 0–100 分（越高越好），均报告平均值与标准差。

对于比较基线，研究人员实现了四套系统：

Diff-Foley + AS：使用 Diff-Foley 生成非空间音频后接 Audio-Spatialization；

MMAudio + AS：使用 MMAudio 生成非空间音频后接 Audio-Spatialization；

ViSAGe (FOV / 360)：分别以 FOV 和全景视频为输入的空间音频生成模型；

OmniAudio：文章的方法，包含预训练与双分支微调。

在主要结果中，OmniAudio 在两套测试集上均显著优于所有基线。

在 YT360-Test 上，OmniAudio 获得 FD=92.57、KL=1.64，相较于 Diff-Foley+AS（FD=361.65、KL=2.22）和 MMAudio+AS（FD=190.40、KL=1.71）均大幅降低；同时 ΔAngular=1.27（ViSAGe≈1.99），空间定位误差降低。

在 Sphere360-Bench 上，OmniAudio 同样取得 FD=88.30、KL=1.58、ΔAngular=1.28，超越 ViSAGe (360) 的 FD≈219.66、KL≈2.96、ΔAngular≈1.51。

在人机主观评估中，OmniAudio 分别在空间音频质量和视音对齐两项上获得 MOS-SQ=84.67±1.06、MOS-AF=87.23±0.98(Sphere360-Bench)，而最优基线仅为 MOS-SQ≈75–77、MOS-AF≈76–77，体现出 OmniAudio 合成结果在清晰度、空间感及与画面同步性方面均更佳。