SDS 技術首次用於音頻:英偉達攜手 MIT 推 Audio-SDS,參數化控制 AI 音效生成
IT之家 5 月 13 日消息,科技媒體 marktechpost 昨日(5 月 12 日)發佈博文,報導稱英偉達攜手麻省理工學院(MIT),推出了 Audio-SDS,一種基於文本條件的音頻擴散模型擴展技術。
音頻擴散模型近年來在生成高質量音頻方面表現卓越,但其局限在於難以優化明確且可解釋的參數。
英偉達和 MIT 的科研團隊首次將 Score Distillation Sampling(SDS)方法應用於音頻領域,結合預訓練模型的生成能力與參數化音頻表示,無需大規模特定數據集,可應用於 FM 合成器參數校準、物理衝擊音合成和音源分離三大任務。
SDS 技術廣泛應用於文本生成 3D 圖像和圖像編輯中,英偉達融合該技術推出 Audio-SDS,結合預訓練模型的生成先驗知識,能夠直接根據高級文本提示調整 FM 合成參數、衝擊音模擬器或分離掩碼。

研究團隊通過基於解碼器的 SDS、多步去噪和多尺度頻譜圖等方法,實驗結果表明,Audio-SDS 在主觀聽覺測試和客觀指標(如 CLAP 分數、信號失真比 SDR)上均表現出色。


Audio-SDS 的創新在於,它用單一預訓練模型支持多種音頻任務,消除了對大規模領域特定數據集的依賴。儘管如此,研究團隊也指出,模型覆蓋範圍、潛在編碼偽影和優化敏感性等問題仍需解決。
IT之家附上參考地址