震動的藝術:AI音樂大模型背後的技術突破、版權訴訟和資本蛋糕

文 | 矽谷101,作者|陳茜

音樂,對你來說,是什麼?

音樂對於我們中的許多人來說,是生活中不可或缺的一部分。它不僅僅是娛樂,更是一種情感的表達和交流方式。音樂是一種語言,可以用來表達感受,描繪作曲家想要傳達的某種情緒或感覺,同時每個人也會對原始樂譜進行自己的解讀。 

但在2024年,我聽到了一個截然不同的答案。

如果以「微小單元空氣震動的排列組合」來定義音樂,這簡直太符合這一輪生成式人工智能的能力覆蓋範圍了。

果不其然,在2024年,以Suno為首的眾多AI音樂模型和產品爆火,這些用簡單提示詞、幾十秒就能生成的AI作詞、作曲、演唱曲目,效果好到讓人大為震撼。

音樂AI模型是怎麼發展起來的?中間的技術細節是如何實現的?AI音樂目前能否替代人類歌手或音樂家呢?以及AI浪潮將會如何影響整個音樂產業市場?

矽谷101接觸了AI音樂模型從業者、打擊樂教授、樂隊和各種樂器的演奏者,和大家一起來共同探索AI音樂的顛覆與技術邊界。

01 Suno AI的風靡與爭議

2024年5月末,總部位於波士頓的AI音樂公司Suno在社交媒體X上宣佈成功完成了1.25億美元的 B輪融資,投後估值達到5億美元,用戶數量快速增長至超過1000萬。微軟等科技巨頭更是將 Suno的AI音樂創作功能直接整合到了旗下的Copilot產品中。

像這輪AI浪潮中的眾多明星項目一樣,Suno的創立時間很短,2022年才成立,在B輪融資之前公司僅有12人。

在2024年3月,Suno突然爆火。Text to music,文生音樂的能力巨大提升,讓大家驚呼:AI音樂的ChatGPT時刻,就這麼到來了。

乍一聽,真的覺得AI作曲已經非常好聽了,不管是曲調,還是歌詞,還是歌手唱腔,作為一個音樂小白和唱歌經常走調的人,我覺得這些歌已經非常好聽,遠超現在的一些十八線歌手的網絡口水歌。而這會不會掀起音樂市場和唱片公司這些資本方的腥風血雨呢?

2024年6月底,根據美國唱片業協會(Recording Industry Association of America, RIAA)的官方通告,包括索尼、環球和華納在內的三大唱片公司及旗下廠牌集體向Suno和另外一家AI音樂應用Udio發起訴訟。起訴狀中提供了旋律雷同的例子和細節對比數析,而原告要求每一首侵權作品需賠償15萬美元。

這個官司打出結果可能還需要一段時間,不過我其實對這起訴訟也並不感到意外。首先,AI音樂的出現勢必會動到傳統音樂資本的市場蛋糕,肯定會引發牴觸,這個市場蛋糕是具體哪一塊我們稍後會分析。

其次,在Suno剛火起來的時候,有AI模型的業內人士就對我們表達過懷疑,他們認為,Suno的效果這麼好,可能是因為用了有版權的音樂做訓練。

我們在這裏不作任何的結論,只是單純的傳達出業內人士的困惑:他們認為,AI音樂這個產品很多科技公司,如果說Google和Meta都在做,但效果都不如Suno AI,難點都不在模型本身,難點是在於可以用來訓練的參數,也就是沒有版權問題的歌曲。

比如說:一線歌手的流行音樂不能用,有版權;影視作品音樂不能用,有版權;就連已經算作public domain(公有領域)的交響樂,只有曲譜是沒有版權問題的,而被各大樂團演奏出來的版本依然是有版權限制的,也是不能拿去做AI訓練的。

也就是說,可能人類目前最頂尖的音樂作品,很大一部分都是無法擺脫版權問題而拿去給AI訓練的。那麼Google和Meta怎麼解決這個問題呢?

作為科技巨頭,他們花了天價,去雇一群音樂創作人,專門給他們自己創作不同類型的音樂,然後用這些沒有版權顧慮的音樂去訓練自己的AI音樂模型。這個成本,顯然是Suno等小創業公司無法去負擔的。

這場官司會如何發展,Suno到底有沒有用有版權的音樂訓練模型,我們也會繼續關注事態的發展。

不過,我們來繼續聊點好玩的,這期節目我們也邀請到了Meta的Music Tech Lead(AI音樂技術主管)Roger Chen,來跟我們一起詳細聊一下AI音樂模型的細節。

02 AI音樂模型拆解

Chapter 2.1 第一層壓縮及碼本

Roger就告訴我們,用機器學習做音樂這件事情已經做了好幾年了。在業界大家已經意識到,如果「音樂的定義」可以被理解成,聲音在空氣中的震動產生不同的頻率和幅度,那我們可以把聲音標記成電信號。

我們知道,在如今基於Transformer架構的大語言模型中,token代表模型可以理解和生成的最小意義單位,是模型的基礎單位。

而在AI音樂中,各種音樂維度都可以表達成token序列,包括:節奏、速度、和聲、調性、段落、旋律、歌詞還有唱腔音色等等,一切皆可token化。

但是,這裏的技術難題是:音頻中的信息太豐富了。舉個例子:音樂被錄製下來之後,如果用離散的數字來表示,每秒鍾通常是有44100個采樣。如果大家仔細看之前買的CD,上面會標註44.1kHz的字樣。

如果1秒有44100個采樣,那麼3分鐘的一首歌,就有3×60×44100=7938000這麼多個采樣。如果把每個采樣都對應一個token,那麼對於模型訓練來說是一個天文數字。

如何將音頻token化,這成為了AI在音樂模型上發展的難題。直到幾年前,Meta和Google在音頻采樣壓縮技術上出現了技術突破,能實現將音頻采樣轉化為更少量的token,其中的壓縮幅度達到幾十幾百倍,因此,AI音樂的發展才開始提速。

Google的SoundStream,以及Meta的EnCodec技術,能讓3分鐘音樂的7938000采樣,被大幅度壓縮到以幾毫秒甚至幾十毫秒的長度來計算的token序 列。每一個token,都可以用一個數字對應表示。

用數字表現音頻,這被稱為codebook(碼本)。在實際操作中,人們發現,當把音樂轉換成一串數字的時候,它會有一定的程度的失真。也就是說,碼本的大小會決定音頻的質量。

Roger Chen

Meta音樂技術負責人 

假如說我們一共只用1000個數字來表示天底下所有的音頻的話,那麼它失真會非常嚴重,但是我們用100萬個,那可能失真就不那麼嚴重了。

然而,雖然從事AI音樂的研究員們意識到大語言模型理解和生成token的方式是一種新的生成音樂的方式,但難點是,音樂的序列很長。比如每個token代表5毫秒,3分鐘的歌曲就有36000個token。

即使Google和Meta的壓縮技術已經將三分鐘音頻的7938000個采樣的信息量壓縮到了36000個token,已經縮小了這麼多倍,但依然,這樣的token量對於大語言模型來說,還是太大了。

這就形成了一個悖論:碼本小,失真嚴重,效果不好;碼本大,效果好,但token量太大而沒法拿去GPT生成。

由於這麼大的token量無法用GPT模型來完成,在AI音樂的前幾年,效果一直沒那麼驚豔。

當時,AI生成音樂的普遍做法是把音頻先轉換成頻譜frequency spectrum,就是這種圖,然後再用圖片的方式從擴散模型diffusion model去生成。擴散模型的AI生成原理我們在之前講Sora影片生成的時候詳細講過,感興趣的小夥伴可以去往回翻去看看那期。

但是,用擴散模型生成出來的音頻效果非常不好,因為模態轉換期間,會有很多細節信息丟失,導致生成成品的失真。而如果要用GPT模型的話,必須要解決音樂序列長、token太多的問題。這個時候,又一個重要的技術出現了突破:第二層音頻壓縮技術。Chapter 2.2 第二層音頻壓縮技術簡單來說,在基本無損音頻信息的情況下,人們發現,音頻token還能被繼續壓縮。首先,研究員們發現,音頻的token可以進行分層壓縮及解碼,來減小大模型中Transformer架構的上下文壓力。我們剛才說3分鐘的音樂有36000個token,如果將這些token序列三個分為一組,先將它們打包,在這一層做一個小小的壓縮,36000個token就被壓縮到12000個token了,然後放進GlobalTransformer大語言模型,等模型輸出了12000個token之後,再把每個token通過LocalTransformer展開成三個原來的token數量。

所以,這樣將Token先壓縮分層,再展開的方式讓大模型的上下文壓力減小,也能讓生成的時間變得更快。從最開始的三分鐘音樂的7938000個采樣,到如今的12000個token,這麼多倍的壓縮。才有了AI音樂大模型的風靡全球。而我們不排除以後有技術可以把音頻token量壓縮得更小,讓音樂生成更快、更順滑、有更多的細節和信息。我們來總結一下:先是將音樂token化的技術,加上近年音頻壓縮技術的出現和發展,伴隨著GPT這樣的大語言模型能力的增強,還有text to speech(文生語音)模型的進步,使得AI音樂的能力得到了飛速提升,無論在作曲、作詞還是演唱上,都越來越逼真、越來越擬人。這也就造就了Suno AI的爆火。從Roger跟我們的分析來看,只要AI學了足夠多的參數和曲目,就可以生成任何風格的作品。

所以,如果你是一個音樂從業者的話,面對如今AI音樂的能力,你是否擔心自己的工作不保呢?AI音樂會對我們的娛樂產業造成顛覆性的影響嗎?音樂家和歌手們的飯碗還能保得住嗎?我們跟一眾音樂家們聊了聊,但好像,大家並沒有太擔心被取代這件事情。那麼,AI取代的會是誰呢?

03 AI音樂帶來的顛覆

Chapter 3.1 AI能替代人類音樂家嗎?

在做Suno和AI音樂這個選題的前後這麼幾個月的時間,我自己也在嘗試不同的作曲,試試各種的prompt詞和調裡面的變量,還是挺好玩的,我也會去聽聽Suno或者其它AI音樂平台的榜單,聽一下別人用AI創作的歌,真的很不錯。我也建議大家都去玩玩看。

但是聽久了我發現一個問題:AI創作出來的歌曲雖然乍一聽還不錯,但不會有那種讓我一遍又一遍很上頭的音樂,不會讓我特別有感情上的共鳴,風格也慢慢變得很雷同。可能是訓練參數的匱乏,讓AI音樂很難創造出人類頂級水平的歌曲,因此我很難想像,這些AI音樂會在五年或者十年之後,有任何一首能經得起時間的檢驗,還能在人們之中口口相傳。

那麼,Suno在專業音樂人眼中是如何的存在呢?能掀起什麼風浪呢?我們接觸了知名音樂博主「叨叨馮」,也是我自己很喜歡看的一個頻道。叨叨原名是馮建鵬,是美國Hartford大學音樂學院打擊樂講師,也是紐約百老彙全職演奏家。他認為,AI目前可以達到音樂屆的平均水平,但這樣的平均水平,不足以在這個行業中出挑。

馮建鵬在自己的頻道上也做了多期用AI作曲的影片,嘗試了各種曲風,包括更細節嚴謹的prompt來控制樂器、節奏、音樂風格等等,結論是AI作曲還有非常多的缺陷,包括Suno無法理解鋼琴的賦格,特定樂器的要求也沒有達到,生成複雜一點的音樂形式,比如說交響曲,效果非常差。他認為,之後AI模型的能力肯定會越來越強,但距離替代音樂人還早,但如今音樂從業者也不用抗拒AI,反倒是可以利用AI來作為更好的創作工具。

而馮建鵬屢次提到的音樂「態度」和「情緒」,也是我們在跟眾多音樂演奏者們聊天的時候他們提到的最多的關鍵詞。他們認為,這是人類在演奏樂器或演唱的時候,最重要的元素。就如同,同樣的一個曲譜,不同演奏者會有不同的解讀和表現方式,而就算是同一首曲子同一個演奏者,他的每一次表演都是不同的,都是獨一無二的。而情感的共鳴,是對於接受音樂欣賞音樂的作為觀眾的我們來說,最珍貴的部分。

建議大家可以去影片里聽聽Kevin演奏的不同風格的曲子。Chapter 3.2 版權音樂和口水歌將受衝擊我想了想,我會買高價票去看朗朗或者王羽佳的演奏會,但我估計不會買票去聽機器人彈鋼琴。那麼問題來了,AI音樂,如果以現在的能力來看,它衝擊的是什麼市場呢?MetaMusicandcopyrights團隊的技術負責人HuangHao告訴我們,版權庫音樂和口水歌市場將會是受到衝擊的市場蛋糕。

第二階段我覺得做口水歌的這些網紅歌手可能就沒了。其實在國內抖音上面幾乎被這種非常低質量的口水歌完全佔據了,這些歌你拿來做影片是非常有意思,因為它的節奏一般都很歡快,然後它的旋律實際上是大眾都已經熟知的那些和旋。我覺得這些網紅歌、口水歌可能會很快的被替代掉。

那什麼是沒法或者說很難去替代呢?就是很強的音樂人,比如說周杰倫,Taylor Swift、Billie Eilish這種,Coplay這些我覺得都很難(被替代)。所以非常有創意的這些音樂,我覺得還是有它存在的價值,但是可以看得到其實對音樂人,對整個市場,我覺得還是有很大的擠壓的。

對於音樂創作者和演奏者來說,音樂的功能性和商品性也許慢慢會被AI替代,但音樂的精神共鳴層面永遠處於個人。

那我們現在清楚了在音樂創作上和市場衝擊上,AI音樂技術的邊界。而在立法上,大公司們以及政策製定者們也正在行動,而這將更加規範AI音樂的未來發展。

04 訴訟、立法、零樣本訓練與AI音樂的未來

在2024年7月12日,美國參議院的三位國會議員提出了一個針對AI版權的新法案COPIED Act,全稱是The Content Origin Protection and Integrity from Edited and Deepfaked Media Act,直譯過來是「內容來源保護和完整性防止編輯和深度偽造媒體法案」。

這個法案的目的,主要是製定完善的規則來標記、驗證和檢測生成式AI產品,包括文字、圖片、音頻和影片,提升生成內容的透明度防止被非法亂用以及保護公眾的個人數據和隱私。同時保護記者、音樂人、演員和其他藝術、商業群體的利益,並保留對非法使用數據訓練AI大模型的法律追究權益。

比如說,法案規定,任何商業生成式AI產品必須讓用戶知道這是AI生成的,比如說ChatGPT生成的廣告文案或社交媒體帖子,一旦是商用範疇,就必須要明確標註是由AI生成,並且禁止任何人故意移除或篡改AI生成的標註信息。

另外這個法案重要的一點是給出了明確的賠償機制,明確禁止AI廠商在未經明確、知情同意的情況下,使用具有受版權保護作品的數字內容來訓練AI大模型和算法。如果侵犯便需要進行賠償。

這個法案一出,是受到了各種工會、唱片協會、新聞聯盟等等組織的大聲叫好。

所以,我們在開頭提到的Suno被三大唱片公司起訴的官司可能會根據這個最新的法案來宣判指導,我們也會為大家繼續關注這方面的法律進展。

但毫無疑問的是,技術和法律的關係,有時候,總是很模糊,經常是上有政策下有對策。

比如說,我最近學習到,AI音頻上還有一個技術被稱為「零樣本訓練」(Zero-shot learning)。

在學術上的解釋是:訓練AI模型來識別和分類對象或概念,而無需事先見過這些類別或概念的任何示例。

簡單一點來說,就是把「數據」和「大模型的學習方式」給解耦合,比如說你告訴大模型我要生成一個跟某位歌手很像的聲音,或者是一段這個樂器音色很像的曲子,那麼通過「零樣本訓練」,大模型雖然沒有見過或者通過特定樣本訓練,但它也可以模仿進行輸出。

「零樣本訓練」目前在音樂生成上還沒有被廣泛應用,但在語音合成上已經很成熟了,所以我們可以預見,以後如果用戶拿著幾秒種的音頻文件作為例子,大模型就可以迅速複製例子音色,這樣的技術對產權保護更難監管。

突然想到,前段時間OpenAI在發佈產品GPT-4o的時候,語音的音色被認為很像電影《Her》的配音演員斯嘉麗·莊臣。而莊臣爆料說,之前OpenAI CEO Sam Altman確實找過她希望用她的聲音給4o配音,但她拒絕了。

但4o出來的語音模式,有一說一,確實很像寡姐在Her中的聲音。

在GPT4o發佈之後,莊臣大為震驚和惱怒,雖然沒有正式去OpenAI提起訴訟,但已經組織好了律師團隊來準備下一步的法律動作。OpenAI這邊是否認了使用莊臣的聲音作為訓練樣本,而是使用的另外一位配音演員。

我也不知道OpenAI是否使用了零樣本訓練的技術,但我相信,隨著各種生成式AI技術和產品能力的提升,法律、商業以及社會都需要一些新的共識。

05 新的共識與不完美的人類

但我想,不變的,依然是人類對音樂的需要,無論是聽眾還是演奏者,無論是大師還是我這樣主要為了自嗨的業餘小白。

人類的創作是充滿不確定性的,有激進,有感性,有隨心所欲,有噴薄而出的情感,有為了追求完美的一萬小時定律,也有為了追求與眾不同的鋌而走險。

人類是會犯錯的,但正是因為有這些錯誤,才讓完美更加難能可貴。而當完美唾手可得,那藝術也不再是眾人的信仰了。

AI的能力會持續進步,但人類的音樂追求也會持續進步。頂級的創造力,將不會被替代。

最後,我用Suno寫了一首歌,prompt詞大概是我們矽谷101從事科技與商業內容製作的願景。很短的prompt,用幾十秒就生成出來了,歡迎大家鑒賞、留言告訴我們,你們對AI生成音樂的看法。