讓普通人也能當「作曲家」，研究人員探索音樂藝術創作和心理治療新方法

10月12日 17:42 新浪網 news-china-auto-hilite

AI，讓音樂創作更加民主化？這是 25 歲的浙大博士生王子豪的夢想。

他目前是浙江大學計算機科學與技術學院 NEXT Lab 的一名博士生，專注於研究 AI 音樂生成。

同時，自 2019 年以來王子豪一邊讀書一邊實踐，曾擔任愛歌科技創始人兼 CEO、對牛彈琴科技聯合創始人兼技術總裁。

在今年夏天的 2024 年全球數字經濟大會上，由對牛彈琴科技的深度合成算法所創作的主題曲《數字北京歡迎您》在現場展出，展示了公司產品的落地願景。

王子豪的創業歷程開始於本科階段。作為較早進入這一領域的開發者之一，王子豪最初在愛歌科技帶隊研發的初創產品叫做「愛寫歌」，它能將用戶的清唱轉化為帶有編曲伴奏與混音的完整歌曲作品。

完成這一款面向專業音樂人的小眾項目之後，他希望推進音樂創作的民主化，即讓一個人無論是否具備音樂靈感或歌唱才能，都能用 AI 來生成音樂的方式表達心中所感。

用 AI 賦能音樂藝術創作和心理治療

2023 年，在導師張克俊教授的指導下，王子豪與創業公司的同事、NEXT Lab 成員們提出一款名為 MuSiT 的與普通人日常用語對齊的 AI 音樂生成機制。

該機制除了用於自身模型生成外, 還可以廣泛用於業界通用模型上，增強其對通俗口語描述的理解能力。

圖 | 浙江大學計算機科學與技術學院博士生王子豪（來源：資料圖）

MuSiT 能夠顯著增強 AI 對於通俗日常表達的解析能力，從而能夠有效彌合用專業音樂術語訓練的 AI 系統與業餘普通人在表達和認知上的鴻溝。

在個性化音樂創作領域：

這套機制可以讓用戶能以日常口語的形式來傳達個人情感、生活體驗或定製需求，進而使用 AI 創作獨一無二的原創音樂。

比如，在駕車途中用戶心有所感時，只需簡單的表達就能讓 AI 創作出符合語境的精準歌曲。

再比如，當影片創作者或遊戲製作者給影片或遊戲配樂時，也可以通過非專業的表達來生成匹配氛圍的音樂。

而在音樂治療和心理諮詢領域：

通過理解患者的口語化通俗描述，AI 能夠生成有助於情感表達和心理疏導的歌曲。

比如，患者通過描述自己的情緒狀態，能讓 AI 生成對應的音樂，從而幫助他們更好地表達和理解自己，進而輔助於心理治療和情緒調節等。

總的來說，本次技術不僅在音樂藝術層面開闢了個性化創作的新路徑，也在心理健康等跨學科領域展現了潛在價值。

打造能聽懂業餘人士心聲的 AI 音樂創作模型

事實上，根據給定數據自動創作音樂的 AI 音樂模型並非新鮮事。但是，在此之前這些軟件距離人們的期待還有一定的落差。

要想理解這種落差首先得從「AI 對齊」說起。它指的是讓 AI 理解並適應人類價值觀，從而讓其在執行任務時更加符合人類的期望。

比如，對於 AI 自動歌曲創作來說，人們的主要期待有：能否充分理解人類指示？能否生成滿足人類聽覺需求、以及符合預期結構的歌曲？

圖丨問題提出和團隊願景（來源：受訪者提供）

此前該領域的現狀是：雖然有許多工具在某些方面已經相當不錯，例如可以從文字生成音樂，以及可以從樂譜生成歌曲等。但是，依舊缺少一款能夠真正理解業餘人士訴求的工具。

因此，對於那些喜歡以通俗日常用語方式來描述自己思維的普通用戶來說，仍然很難生成讓其滿意的 AI 音樂。

該團隊認為導致上述局面的原因主要有兩個：

首先，是因為缺乏高質量的大規模數據集，尤其是缺乏能夠解析「通俗日常用語」歌曲描述的數據。

其次，是因為現有的 AI 模型的訓練和推理過程還不足以充分理解「通俗日常用語」的詞彙和句子，自然也就無法準確地生成符合人類用戶想法的歌曲。

為此張克俊建議王子豪等人攻關這樣一個課題：讓通俗日常描述也能實現 AI 歌曲生成。即讓 AI 能夠充分理解非專業人士的口頭描述，從而創作出符合用戶要求的音樂作品。

要想實現這一目標：一是要對「通俗日常用語」表達方式進行深入理解；二是要能夠精準把握歌曲中的複雜結構，比如曲段構成和韻律結構。

研究中：

他們面臨的第一個問題是如何解決通俗描述-音樂配對數據的稀缺問題。對於這些數據來說，它必須包含各種通俗日常描述、音樂結構、流派以及情感等信息。

他們面臨的第二個問題是要解決人機對齊的問題。目前，對於使用 AI 音樂生成產品的普通用戶來說，往往存在口語描述和 AI 音樂模型反饋行為無法良好匹配的問題。

圖丨數據集的構建（來源：受訪者提供）

為瞭解決數據稀缺的問題，王子豪等人創建了 Muer 音樂註釋平台（MuerAP），通過實施多人、多階段的質量保證流程，來保證數據註釋的準確性和一致性。

同時，他們分別邀請一批專業音樂家標註者和業餘普通人標註者，讓雙方針對同一首歌進行標註。

不過在標註時，讓他們分別使用不同的標籤集合，從而能夠針對同一首歌曲獲得兩種不同視角的結果，借此形成一個高精度的與公眾理解一致的數據集（即 Muer 音樂數據集（MuerData））

王子豪表示：「MuerData 是第一個包含中文口語化通俗描述的開源音樂數據集，涵蓋音樂專業人士和業餘人士兩種不同視角下的口語描述（風格和情感等維度），同時也涵蓋了音樂結構的各個層次，旨在為端到端模型的微調訓練提供精準的數據。」

相比已有的其他公開數據集，MuerData 更加適合從業餘描述到歌曲的端到端模型微調，讓模型能夠充分理解業餘人士的表達，從而可以滿足大眾的音樂欣賞訴求。

圖丨模型的訓練過程（來源：受訪者提供）

而為瞭解決人機對齊的問題，王子豪等人提出一種單階段通俗日常描述到歌曲生成框架，並將其命名為 MuSiT。

MuSiT 能在通俗日常描述和音樂音頻聽感之間進行跨模態理解，從而能在生成音樂時能與用戶對齊。

據王子豪介紹，在已有的開源文本-音頻對比預訓練模型的訓練文本中，並未出現過中文通俗日常通俗描述的詞彙和短語。為此，他們基於文本-音頻跨模態理解模型的通用架構，採用 MuerData 數據集來訓練 ChinMu Cross-Modal Encoder。

此外，MuSiT 使用用 fine-tuned LLM 來生成 Lyrics，因此可以通過相應的口語描述，來生成帶有樂句結構和押韻方案等附加信息的歌詞。

而對於歌詞以及額外的結構信息，王子豪等人採用交叉注意機制，來將它們作為 DiT（Diffusion Transformer）和 SiT（Scalable Interpolant Transformer）捕捉歌詞和音頻之間相關性的條件。

除了歌詞之外，只需使用一個 DiT/SiT 模型，就能以端到端的形式生成人聲、伴奏、旋律、和聲、混響等全部音樂內容。

這樣的好處在於：所生成歌曲的各個音樂內容之間，在聽感上非常協調，不存在割裂感。

然後，他們將上述控制條件為輸入，並使用在變分自編碼器潛在空間中運行的、基於 Transformer 的擴散模型（DiT/SiT），來生成與口語描述貼合的高質量歌曲。

同時，還使用變分自編碼器的 Decoder 來將歌曲內容解碼為 wav 文件。

在訓練上，他們先是基於私有的大規模「歌詞-歌曲音頻」成對數據集，來針對變分自編碼器進行無監督預訓練、針對 DiT/SiT 做有監督預訓練。

接著，他們在「通俗描述 to 歌曲」的任務上，基於 MuerData 數據集，來針對 DiT/SiT 進行微調訓練，以便生成貼合人類通俗描述的、結構良好的歌曲。

讓普通人也能實現音樂家夢想

作為第一作者王子豪認為，正是因為有了導師的指導，以及創業公司的同事們、實驗室師兄師姐師弟師妹們的大力支持，才讓本次研究得以順利完成。

圖 | 模型推理時的結構（來源：受訪者提供）

他們通過採用有監督學習的方法、以及採用專業人士-業餘人士雙視角的數據標註，並使用端到端的 single-stage 方式來完成了模型訓練。

借此確保了 AI 生成音樂與人類訴求的協調和對齊，同時也讓 AI 模型得以更好保持人類音樂的結構規範。

日前，關於數據集和標註平台的論文以《MuChin：一種用於評估音樂領域語言模型的中文通俗日常用語描述基準》（MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music）為題發表在 2024 年國際人工智能聯合會議（IJCAI，International Joint Conference on Artificial Intelligence）上[1]，相關數據集已開源 [2]，後續研究工作也正有序開展 [3-5]。

關於未來的研究，他們也製定了一些計劃。

首先，要進一步深挖專業人士和業餘人士對相同歌曲的語義描述差異，並結合腦電和核磁等手段對相同歌曲在不同背景人類腦區所造成的差異性影響。

這將有助於相關算法在音樂的心理療愈上發揮更大作用，並且將 MuerData 數據集從文本-音頻擴充到更多的模態表示上。

其次，會更加關注大模型的安全和法律問題，在未來研究方向上也會涉及到 AI 大模型對於音樂版權的自動鑒定侵權與自動治理，確保模型輸出的合法性。

「希望不僅能滿足那些記譜高手和寫歌高手的需求，更能讓普通大眾用音樂來感受內心世界里的萬千波瀾，讓每個有音樂夢想的普通人都能實現自己的音樂家夢想。」王子豪表示。

參考資料

1.https://dl.acm.org/doi/10.1145/3503161.3548368

2.https://github.com/CarlWangChina/MuChin

3.https://arxiv.org/pdf/2407.03188

4.https://arxiv.org/abs/2407.07728

5.https://github.com/CarlWangChina/SaMoye-SV

排版：劉雅坤