火爆全球的AI音頻大模型，最新技術細節揭秘

智東西7月24日消息，Satbility AI於7月19日在Arxiv上分享了Stable Audio Open的研究論文，公開了該模型背後的技術細節。

Stable Audio Open是StabilityAI於今年6月推出的開源文本轉音頻模型，可免費生成長達47秒的樣本和音效，還可生成44.1kHz高質量立體聲音頻，並且能在消費級GPU上運行。除了免費、開源，該模型還注重保護創作者版權，在數據訓練中盡力避免倫理道德問題。

論文透露，Stable Audio Open是StabilityAI於今年3月推出的商用Stable Audio 2的變體模型，整體架構保持一致，但在訓練數據的採用和部分架構上採取了調整，關鍵架構由自動編碼器、基於T5的文本嵌入以及擴散模型（DiT）構成。

論文地址：https://arxiv.org/html/2407.14358v1

一、3個關鍵架構提供支持，免費生成44.1kHz高質量立體聲短音頻

Stable Audio Open引入了一種文本轉音頻模型，有3個主要架構：

自動編碼器：將波形數據壓縮到可管理的序列長度；
基於T5的文本嵌入；
基於transformer的擴散模型(DiT)：在自動編碼器的潛在空間中運行。

自動編碼器是一種神經網絡架構，由編碼器和解碼器組成，編碼器將輸入的數據壓縮成一個較小的潛在空間表示，解碼器則將這個潛在表示解壓還原。Stable Audio Open中的自動編碼器把音頻波形壓縮成一個較短的序列，以便後續處理。

T5（Text-to-Text Transfer Transformer）是一個由Google開發的自然語言處理模型，它可以將輸入的文本轉換為另一種文本表示。在Stable Audio Open中，T5模型將用戶輸入的文本轉換成文本嵌入（text embedding），以便於將文本信息融入到音頻生成過程中。

DiT（Diffusion Transformer）是一種擴散模型，在自動編碼器的潛在空間中運行，對編碼器壓縮後的數據進行處理和優化，確保解碼器能還原出連貫、高質量的音頻。

作為Stable Audio 2的變體模型，Stable Audio Open在訓練數據的採用和部分架構上進行了調整。採取了完全不同的數據集，並且使用T5代替了CLAP（Contrastive Language-Audio Pretraining）。前者由Google開發，專注於文本數據，完成各種自然語言處理任務，而後者由OpenAI研發，即可處理語言數據，也可處理音頻數據。

作為一個開源免費的模型，Stable Audio Open無法生成連貫完整的曲目，也不會針對完整的曲目、旋律或人聲進行優化。

Stability AI稱，Stable Audio Open專注於音頻demo和音效製作，可免費生成最長47秒的44.1kHz高質量立體聲音頻。經過專業訓練後，該模型非常適合創建鼓點、樂器重覆樂段、環境音、擬音錄音和其他用於音樂製作和聲音設計的音頻樣本。

此次開源版本還有一個關鍵優勢，即用戶可以根據自己的自定義音頻數據對模型進行微調，這樣，用戶就可以用自己的鼓聲錄音來訓練模型，用自己的風格生成獨特的節奏。

二、訓練過程著重保護版權

在生成式AI快速發展的背景下，人們對音樂行業使用人工智能的爭論日益激烈，特別是在版權問題上。Stability AI前音頻副總裁Ed Newton-Rex於2023年底離職，理由是他不同意Stability AI在訓練模型時使用受版權保護的音頻，認為此舉存違背倫理道德。他曾參與開發Stable Audio。

生成式AI的數據訓練像是一個黑箱里進行，除了開發商，誰也不知道訓練所使用的數據是否受版權保護。Newton-Rex說：「許多價值數十億美元的科技公司在未經許可的情況下，利用創作者的作品訓練生成式人工智能模型，然後使用這些模型生成新內容。」他在一封公開辭職信中表示，他不接受這種依靠侵犯創作者版權而牟利的行為。

Stability AI表示，為尊重創作者版權，Stable Audio Open使用的數據集來自Freesound和免費音樂檔案(FMA)，所有使用的錄音均是CC（Creative Commons）許可下發佈的音頻錄音。CC是一種版權許可機制，該機制允許創作者共享他們的作品，並規定他人如何使用這些作品。