Stable Audio 2.5 企業級音頻生成 AI 模型發佈,號稱「3 分鐘曲目 2 秒鍾完成」
IT之家 9 月 14 日消息,Stability AI 現已正式發佈企業級音頻生成模型 Stable Audio 2.5,相對上一代主要圍繞音頻細節、生成速度方面進行提升,號稱「僅需 2 秒鍾即可創建 3 分鐘音頻曲目」。

據介紹,Stable Audio 2.5 的核心改進集中在音樂生成能力方面,號稱生成結果更加貼合實際編曲邏輯,可呈現前奏、發展與結尾等完整多段式結構。同時新模型對提示詞的理解更為準確,尤其在情緒描述和音樂風格詞彙的把握上,響應更符合預期。
此外,新版模型還顯著改進了音頻生成速度,Stability AI 稱這主要得益於研發團隊提出的後訓練方法 ARC(IT之家註:Adversarial Relativistic-Contrastive),這一技術通過結合相對式對抗訓練與對比判別器,加速擴散模型的生成過程,可在保證音軌質量的同時顯著降低 GPU 推理耗時,從而實現 2 秒鍾生成長達 3 分鐘的音頻內容。
除此之外,Stable Audio 2.5 還新增了音頻修補能力,用戶可以導入自己的音頻文件,並指定「延展位置」,模型即可根據音頻前後內容及整體曲風,將音頻一鍵「延長」,特別適合剪輯等場景。
目前,Stable Audio 2.5 已可通過 StableAudio 官網直接試用,同時支持本地化部署。不過官方規定,用戶上傳的音頻文件不得包含受版權保護的內容,StableAudio 網站將利用自帶的內容識別系統進行檢測,以確保不侵犯他人版權。
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。














