AI也會「喵喵叫」:MIT團隊讓機器學會模仿聲音

(來源:MIT Technology Review)(來源:MIT Technology Review)

無論是描述故障汽車發動機的聲音,還是模仿鄰居家貓咪的叫聲,當語言難以準確傳達時,聲音模仿反而是一種更為生動有效的表達方式。

聲音模仿就像是用隨手塗鴉來表達你眼中的景象,不同之處在於,它依靠聲道來模擬聲音,而非用鉛筆繪圖。雖然這種方式看似複雜,但其實每個人都會自然而然地這樣做。不妨親自嘗試一下,試著用你的聲音模仿救護車的警笛聲、烏鴉的叫聲或鍾聲。

受到人類交流方式和認知科學的啟發,MIT 計算機科學與人工智能實驗室的研究人員開發出一種 AI 系統,無需額外訓練,即便從未「聽過」人類的聲音模仿,也能生成類似人類的聲音模仿。

為實現這一目標,研究人員設計了一個模擬人類聲道的系統,能夠再現聲帶振動如何通過喉嚨、舌頭和嘴唇的形狀變化發出聲音。隨後,他們採用一種受認知啟發的 AI 算法來控制該聲道模型,使其能夠根據人類在不同情境下選擇的表達方式,生成相應的聲音模仿。

該模型能夠高效地將各種真實世界的聲音轉化為類似人類的模仿聲,包括樹葉沙沙作響、蛇的嘶嘶聲以及救護車接近時的警笛聲。此外,這一模型還可以「反向」工作,通過人類的聲音模仿推測真實世界中的聲音。這種方式類似於某些計算機視覺系統能夠根據草圖還原高清圖像。例如,該模型可以準確地區分人類模仿貓發出的「喵喵叫」和「嘶嘶聲」。

未來,這一模型有望催生更直觀的「基於模仿」的聲音設計界面、更具擬人化特點的虛擬現實 AI 角色,甚至應用於幫助學生學習新語言的方法。

該研究的共同第一作者包括 MIT 博士生 Kartik Chandra、博士生 Karima Ma 以及本科研究員 Matthew Caren。他們指出,計算機圖形學領域的研究人員早已認識到,真實感並不是視覺表達的終極目標。例如,一幅抽像畫或孩子用蠟筆隨手塗鴉的作品,往往能與照片一樣富有表現力。

Chandra 表示:「過去幾十年,素描算法的進步不僅帶來了新的藝術工具,還推動了 AI 和計算機視覺的突破,甚至深化了我們對人類認知的理解。正如素描是對圖像的抽像和非真實寫實的表現形式,我們的方法同樣捕捉了人類在表達所聽聲音時的抽像、通過擬聲詞等語言來形容的方式。這讓我們得以更深入地理解聽覺抽像的過程。」

Matthew Caren 對此補充道:「這個項目旨在理解聲音模仿的本質,並通過計算機模型對其進行模擬。我們將聲音模仿視為聽覺領域中類似於‘視覺領域素描’的一種表達方式。」

模仿藝術三步走

研究團隊開發了三個層次逐步遞進的模型版本,以便將其與人類的聲音模仿進行比較。首先,他們構建了一個基線模型,旨在儘可能生成與真實世界聲音相似的模仿聲音。然而,這個模型與人類的模仿方式存在較大差距。

接著,研究人員設計了一個溝通型模型。根據 Caren 的解釋,這個模型會考慮聽眾對某種聲音的獨特感知特徵。例如,你可能會通過模仿引擎的轟鳴聲來表現電單車艇的聲音,因為這種聲音最具辨識度,儘管它可能不是最響亮的部分,如浪花四濺的聲音。這個改進後的模型生成的聲音模仿比基線模型更貼近人類的表達方式,但研究團隊仍希望進一步優化。

為此,研究人員在模型中引入了推理層。Chandra 表示:「聲音模仿的效果會受到投入的努力程度影響。要生成完全準確的聲音,需要付出時間和精力。」因此,升級後的模型會避免產生過於快速、響亮或音調極高或極低的聲音,因為人們在日常對話中通常不會這樣表達。最終,這一改進模型生成的聲音模仿更加符合人類特點,更真實地反映了人們在模仿同一聲音時所做出的選擇。

在模型構建完成後,研究團隊開展了一項行為實驗,測試人類評審如何看待 AI 生成與人類生成的聲音模仿,並評估哪種更受歡迎。值得注意的是,實驗結果顯示,參與者在25%的情況下更偏好 AI 模型生成的聲音。尤其是在模仿電單車艇聲音時,AI 模型的偏好率高達 75%,而在模仿槍聲時,這一偏好率達到 50%。

邁向更具表現力的聲音技術

Caren 對音樂和藝術領域的技術充滿熱情,他設想這一模型可以幫助藝術家更高效地與計算系統溝通聲音,並為電影製作人和其他內容創作者提供更貼合特定情境的細膩AI聲音。這項技術還可能使音樂家通過模仿那些難以用文字描述的聲音,快速檢索聲音數據庫,提升創作效率。

與此同時,Caren、Chandra和 Ma 正積極探索該模型在其他領域的潛在應用,例如語言的發展過程、嬰兒如何學習說話,甚至是鸚鵡和鳴禽等鳥類的模仿行為。

不過,該模型的當前版本仍有改進空間。例如,它在處理某些如「z」的輔音時存在困難,導致對蜜蜂嗡嗡聲等聲音的模仿不夠準確。此外,該模型尚無法複現人類對語音、音樂,或在不同語言中對某些聲音,比如心跳聲,進行不同方式模仿的能力。

史丹福大學語言學教授 Robert Hawkins 指出,語言中充滿了擬聲詞和模仿但並不完全複製所描述事物的詞彙,比如 「meow」 這個詞與貓咪真實的叫聲就不完全一致。Hawkins 表示:「從真實的貓叫聲到 ‘meow’ 這個詞的形成過程,揭示了在語言進化中生理機制、社會推理和交流之間複雜的相互作用。」 Hawkins 並未參與這項研究,但他認為:「這個模型是將這些過程的理論形式化並加以驗證的重要一步,展示了人類聲道的物理限制和社交交流的壓力共同作用,解釋了聲音模仿的分佈現象。」

Caren、Chandra 和 Ma 與另外兩位 MIT 計算機科學與人工智能實驗室的成員共同撰寫了這篇論文,他們是 MIT 電氣工程與計算機科學系副教授 Jonathan Ragan-Kelley,以及MIT 大腦與認知科學系教授、Brains, Minds, and Machines 中心成員 Joshua Tenenbaum。該研究得到了赫茲基金會和美國國家科學基金會的部分資助,並在 12 月初發表在 SIGGRAPH Asia 會議上。

原文鏈接:

https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109