海豚語言被Google大模型破譯!跨物種交流大門打開,哈薩比斯:下一個是狗
一水 發自 凹非寺
量子位 | 公眾號 QbitAI
神奇!人類和海豚真的能實現跨物種交流了?!
當地時間4月14日(也是世界海豚日),GoogleCEO皮猜激動官宣:
隆重推出DolphinGemma,基於多年積累的海豚聲音數據訓練而成,有助於實現跨物種交流。

劃重點,這個海豚模型參數僅400M,小到能直接在GooglePixel 9手機上運行。

而且皮猜還說了,預計今年夏天會將其開源以促進科學合作。
這一消息也迅速引來大量網民圍觀,評論區一整個「哇聲一片」:

更有意思的是,Google和OpenAI這對老冤家這一次又雙叒對上了,OpenAI那邊發佈了GPT 4.1。
有網民直接辣評:GPT 4.1很好,但我對DolphinGemma更感興趣。(你是懂拉踩的doge)

Google大模型破解海豚叫聲
Google這次發佈的AI基礎模型DolphinGemma,經過訓練可以學習海豚的發聲結構,並生成類似的聲音序列。
這和大語言模型中的預測下一個token類似,通過識別輸入的海豚音頻,來預測後續可能出現的聲音,並最終解鎖這些聲音隱藏的潛在含義。
根據介紹,這一模型使用了Google獨特的音頻技術。
其中,SoundStream分詞器能快速把海豚聲音變成計算機能理解的信號,隨後由適合處理複雜序列的模型架構進行處理。

當然,除了訓練技術,最重要的環節還是在於獲取數據。
Google這次找了WDP( Wild Dolphin Project)合作,這家機構研究海豚社會數十年,擁有極為豐富的數據集。
具體而言,自1985年以來,WDP研究了巴哈馬群島中一個跨世代的野生大西洋斑點海豚(Stenella frontalis)群落。
通過這一「世界上持續時間最長的水下海豚研究項目」,最終積攢了數十年的水下影片和音頻,並且每個海豚的身份、生活史和觀察到的行為擁有細緻匹配。
比如下面這些能夠將海豚聲音和行為聯繫起來的例子:
-
標誌性的口哨聲,一般出現在母子相遇的場景
-
打鬥時經常會聽到脈衝「尖叫聲」
-
求偶或追逐鯊魚時常用「嗡嗡」聲
下圖展示了第一種情形。
左圖:一隻斑點海豚媽媽在幼崽覓食時觀察著它,等幼崽覓食完畢後,它會用自己獨特的口哨聲呼喚它回來。
右圖:聲譜圖顯示的口哨聲。

因此最終,DolphinGemma是基於WDP的野生大西洋斑點海豚聲學數據庫進行廣泛訓練。
另一方面,除了研究海豚的交流方式,WDP還進一步探索了「人機交互」方式。
該機構與佐治亞理工學院合作,開發了CHAT(Cetacean Hearing Augmentation Telemetry) 這款水下應用,其設計目的並非直接解讀海豚複雜的自然語言,而是建立一套更簡單的共享詞彙。
具體來說,CHAT會將生成的合成哨聲與海豚喜歡的特定物體聯繫起來,比如海藻、海草或研究人員使用的圍巾。
然後通過人類教導,讓天生好奇的海豚學會模仿這些哨聲來請求這些物品。
最終,隨著對海豚更多自然聲音的理解,這些聲音也可以被加入到系統中。

CHAT示意圖
概括而言,CHAT設備通過水下揚聲器和馬克風實現聲音的發送和接收,通過嘗試模仿海豚發出的哨聲來建立一種基本的溝通橋樑。
Google表示,Pixel 6(Google2021年10月發佈)已經能夠實時處理高保真海豚聲音分析,而即將發佈的Pixel 9(計劃於2025年夏季投入使用)將在此基礎上進行升級。
Pixel 9將集成揚聲器和馬克風功能,並利用手機強大的處理能力同時運行深度學習模型和模板匹配算法。
這將使研究人員能夠更高效地分析海豚的聲音,並與海豚進行更複雜的互動。
One More Thing
也有人好奇,為什麼Google選了海豚而非更常見的貓狗來研究?

雖然官方這次未明確提及背後原因,但查閱廣泛研究資料後可以得出一個結論:
這是因為海豚的「語言」和人類語言高度接近。
一項發表在《皇家蘇斯達生物學通訊》的研究表明,海豚相互間交流的方式近乎於人類。
當一些海豚發出像吹口哨一樣的聲音時,這些聲音是由特定組織震動發出的,其運作原理類似於人類和許多陸生生物的聲帶振動。
論文一作彼得·麥德森曾表示:
實際上,它們是通過鼻腔中結締組織的共振頻率來發聲的,而且它們能隨意調節肌肉緊張度和通過的氣流。這和人類用聲帶說話時做的一模一樣。
和海豚類似,事實上Google2024年9月還推出了一款鯨魚聲音識別模型,它能夠識別出八種鯨魚的獨特叫聲,並精細區分其中兩種鯨魚的不同發聲類型。
而鯨魚也和海豚一樣,其語言和人類語言也具有相似性。
今年年初發表在《科學》雜誌上的一項研究驚奇地發現,通過模仿兒童學習語言的過程,鯨魚的歌聲與人類使用的語言存在統計相似性。
這一發現不僅揭開了鯨歌的部分秘密,還為理解跨物種交流乃至AI語言模型提供了全新視角。

可以看到,Google首先考慮的還是這些與人類語言更接近的物種。
不過別著急,從DeepMind聯創兼CEO哈薩比斯透露的想法來看,沒準下一個就是狗了。(doge)

[1]https://blog.google/technology/ai/dolphingemma/
[2]https://x.com/demishassabis/status/1911875286070923624
[3]https://www.science.org/doi/10.1126/science.adq7055