火爆全球的AI音頻大模型,最新技術細節揭秘

智東西7月24日消息,Satbility AI於7月19日在Arxiv上分享了Stable Audio Open的研究論文,公開了該模型背後的技術細節。

Stable Audio Open是StabilityAI於今年6月推出的開源文本轉音頻模型,可免費生成長達47秒的樣本和音效,還可生成44.1kHz高質量立體聲音頻,並且能在消費級GPU上運行。除了免費、開源,該模型還注重保護創作者版權,在數據訓練中盡力避免倫理道德問題。

論文透露,Stable Audio Open是StabilityAI於今年3月推出的商用Stable Audio 2的變體模型,整體架構保持一致,但在訓練數據的採用和部分架構上採取了調整,關鍵架構由自動編碼器、基於T5的文本嵌入以及擴散模型(DiT)構成。

論文地址:https://arxiv.org/html/2407.14358v1

一、3個關鍵架構提供支持,免費生成44.1kHz高質量立體聲短音頻

Stable Audio Open引入了一種文本轉音頻模型,有3個主要架構:

  1. 自動編碼器:將波形數據壓縮到可管理的序列長度;
  2. 基於T5的文本嵌入;
  3. 基於transformer的擴散模型(DiT):在自動編碼器的潛在空間中運行。

自動編碼器是一種神經網絡架構,由編碼器和解碼器組成,編碼器將輸入的數據壓縮成一個較小的潛在空間表示,解碼器則將這個潛在表示解壓還原。Stable Audio Open中的自動編碼器把音頻波形壓縮成一個較短的序列,以便後續處理。

T5(Text-to-Text Transfer Transformer)是一個由Google開發的自然語言處理模型,它可以將輸入的文本轉換為另一種文本表示。在Stable Audio Open中,T5模型將用戶輸入的文本轉換成文本嵌入(text embedding),以便於將文本信息融入到音頻生成過程中。

DiT(Diffusion Transformer)是一種擴散模型,在自動編碼器的潛在空間中運行,對編碼器壓縮後的數據進行處理和優化,確保解碼器能還原出連貫、高質量的音頻。

作為Stable Audio 2的變體模型,Stable Audio Open在訓練數據的採用和部分架構上進行了調整。採取了完全不同的數據集,並且使用T5代替了CLAP(Contrastive Language-Audio Pretraining)。前者由Google開發,專注於文本數據,完成各種自然語言處理任務,而後者由OpenAI研發,即可處理語言數據,也可處理音頻數據。

作為一個開源免費的模型,Stable Audio Open無法生成連貫完整的曲目,也不會針對完整的曲目、旋律或人聲進行優化。

Stability AI稱,Stable Audio Open專注於音頻demo和音效製作,可免費生成最長47秒的44.1kHz高質量立體聲音頻。經過專業訓練後,該模型非常適合創建鼓點、樂器重覆樂段、環境音、擬音錄音和其他用於音樂製作和聲音設計的音頻樣本。

此次開源版本還有一個關鍵優勢,即用戶可以根據自己的自定義音頻數據對模型進行微調,這樣,用戶就可以用自己的鼓聲錄音來訓練模型,用自己的風格生成獨特的節奏。

二、訓練過程著重保護版權

在生成式AI快速發展的背景下,人們對音樂行業使用人工智能的爭論日益激烈,特別是在版權問題上。Stability AI前音頻副總裁Ed Newton-Rex於2023年底離職,理由是他不同意Stability AI在訓練模型時使用受版權保護的音頻,認為此舉存違背倫理道德。他曾參與開發Stable Audio。

生成式AI的數據訓練像是一個黑箱里進行,除了開發商,誰也不知道訓練所使用的數據是否受版權保護。Newton-Rex說:「許多價值數十億美元的科技公司在未經許可的情況下,利用創作者的作品訓練生成式人工智能模型,然後使用這些模型生成新內容。」他在一封公開辭職信中表示,他不接受這種依靠侵犯創作者版權而牟利的行為。

Stability AI表示,為尊重創作者版權,Stable Audio Open使用的數據集來自Freesound和免費音樂檔案(FMA),所有使用的錄音均是CC(Creative Commons)許可下發佈的音頻錄音。CC是一種版權許可機制,該機制允許創作者共享他們的作品,並規定他人如何使用這些作品。

為了確保避免使用任何受版權保護的材料,Stability AI稱通過使用音頻標記器識別Freesound中的音樂樣本,並將識別出的樣本被發送到Audible Magic的內容檢測公司,以確保從數據集中刪除潛在的受版權保護的音樂。

Stability AI表示:「這讓我們能夠創建一個開放的音頻模型,同時又能充分尊重創作者的權利。」

結語:開源、免費模型讓文生音頻更普及

Stable Audio Open的推出展示了Stability AI在文本轉音頻模型領域的創新和進步。雖然該模型在生成音頻長度和連貫性上存在一定的限制,但其優點也顯而易見。它能免費生成高質量的44.1kHz立體聲音頻,並且能在消費級GPU上運行,降低了文生音頻的使用門檻。

同時,Stable Audio Open在開放音頻生成技術的同時,也為版權保護樹立了新標杆。在今後,隨著技術的不斷進步和道德規範的完善,Stable Audio Open有望在更多應用場景中發揮其潛力,推動音頻生成技術的發展和普及。

目前,Stable Audio Open模型權重可在機器學習模型平台Hugging Face上獲取。Stability AI鼓勵聲音設計師、音樂家、開發人員以及任何對音頻感興趣的人探索該模型的功能並提供反饋。

本文來自微信公眾號「智東西」,作者:孟強,編輯:雲鵬,36氪經授權發佈。