ICML25 | 讓耳朵「看見」方向!僅依靠360°全景影片,就能生成3D空間音頻
OmniAudio團隊 投稿
量子位 | 公眾號 QbitAI
空間音頻,作為一種能夠模擬真實聽覺環境的技術,正逐漸成為提升沉浸式體驗的關鍵。
然而,現有的技術大多基於固定的視角影片,缺乏對360°全景影片中空間信息的充分利用。
在這樣的背景下,一項在空間音頻生成領域具有里程碑意義的研究應運而生——OmniAudio:它能夠直接從360°影片生成空間音頻,為虛擬現實和沉浸式娛樂帶來了全新的可能性。
相關代碼和數據集已開源:
https://github.com/liuhuadai/OmniAudio
為何需要從360°影片生成空間音頻?
傳統的影片到音頻生成技術主要關注於生成非空間音頻,比如手機外放或者耳機里的聲音,這些音頻缺乏方向信息,無法滿足沉浸式體驗對3D聲音定位的需求。
所以看VR電影或者玩動作遊戲的時候,總會覺得少了些代入感。
隨著360°攝像頭的普及和虛擬現實技術的發展,如何利用全景影片生成與之匹配的空間音頻,就成為了一個亟待解決的問題。

為應對這些挑戰,OmniAudio的研究團隊提出了360V2SA(360-degree Video to Spatial Audio)任務,旨在直接從360°影片生成FOA(First-order Ambisonics)音頻。
FOA是一種標準的3D空間音頻格式,使用四個通道來表示聲音,包含聲音的方向信息,可實現真實的3D音頻再現。
與傳統的立體聲相比,FOA音頻在頭部旋轉時也能夠保持聲音定位的準確性。

Sphere360:第一個大規模360V2SA數據集
數據是機器學習模型的基石,然而,現有的配對360°影片和空間音頻數據極為稀缺。
為此,OmniAudio團隊設計了一個高效的半自動化pipeline,用於構建Sphere360數據集:
首先,通過關鍵字在YouTube上爬取包含FOA音頻和360°影片的候選素材,應用技術過濾器剔除不符合條件的影片,並採用頻道為單位進行聚合式爬取。
然後,人工審核補充賸餘影片。
在清洗環節,針對影片靜態、音頻靜音、過多語音內容以及視音頻不匹配等問題設計了具體檢測算法,確保高質量對齊。

Sphere360數據集是一個包含超過103,000個真實世界影片片段的數據寶庫,涵蓋288種音頻事件,總時長達到288小時。收集到的影片既包含 360° 視覺內容,又支持FOA音頻,並具有高質量和高可用性。
與其他現有數據集相比,Sphere360在規模和適用性上均存在顯著優勢。

OmniAudio:創新技術實現空間音頻生成
OmniAudio的訓練方法可分為兩個階段:自監督的coarse-to-fine流匹配預訓練,以及基於雙分支影片表示的有監督微調。

簡單地說,在預訓練階段,先用普通立體聲音頻轉換為「偽FOA」格式訓練模型,同時通過自監督的掩碼預測方法,讓模型學會音頻的基本結構和時間規律;再使用真實FOA精細訓練,提高掩碼概率,讓模型能夠更好地理解聲音的空間信息。
相比起直接訓練,這種「先普通音頻,再空間音頻」的兩步法顯著改善了模型對空間特徵的泛化能力與生成質量。
在完成自預訓練後,OmniAudio團隊將模型與雙分支影片編碼器結合,同時提取影片的全局特徵和局部視角,進行有監督微調,以達成模型可根據360° 影片生成高保真、方向準確的空間音頻的效果。
詳細方法可見文末項目鏈接。
成果與展望
OmniAudio團隊在Sphere360-Bench,以及來自YT-360的外部分佈測試集YT360-Test上進行有監督微調與評估。
主要結果顯示,OmniAudio在兩套測試集上均顯著優於所有基線。

但OmniAudio也有一定的局限性:例如,面對包含大量發聲物體的複雜場景時,模型在事件類型識別上仍存在挑戰。
OmniAudio的研究團隊表示,未來的工作將探索更好地理解多目標360° 影片的技術,並通過持續收集和擴充數據集,進一步推進該領域的發展。
項目主頁: https://omniaudio-360v2sa.github.io/
開源倉庫:https://github.com/liuhuadai/OmniAudio