豆包App灰度最新語音模式,實現了GPT-4o不會的唱歌
文|周鑫雨
編輯|蘇建勳
2025年,豆包的第一更,放在了語音通話功能上。
2025年1月20日,豆包發佈了最新的「端到端」語音大模型,並基於該模型更新豆包APP的實時語音通話功能。
此前,豆包語音通話功能採用的是ASR(自動語音識別)+LLM(大語言模型)+湯臣S(文生音頻)的級聯方案。如今更新的端到端語音大模型,是將語音識別、理解和生成,都放在同一個模型中解決。
據《智能湧現》測試,更新語音模型後的豆包,最大的亮點在於,豆包在語音交互時,把類似人類的表達形式和情感輸出,複刻了出來。與此同時,新版本的對話流暢度和智商情商,也有大幅提升。
比如,豆包上新的「靈魂歌手」和「百變大咖」等語音通話模式,比GPT-4o還搶先一步,實現了唱歌和角色扮演。

豆包學會了唱歌,和角色扮演
豆包一個大變化,是把語音的角色扮演能力,拓展到了明星、書中和影視中的角色。這一功能,也體現在了豆包語音通話的「百變大咖」模式中。
比如當作者提出「模仿虞書欣的聲音說話,並且說一段新年祝福」,豆包一句「哼,我才不要模仿她呢!我就是我,不一樣的煙火」,就把「小作精」的勁兒還原出來了。
演示影片:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8
而且豆包的上下文記憶能力也相當不錯。當我在同一段對話中嘗試了桑治丹丹、林黛玉、甄嬛等角色,再次要求豆包模仿虞書欣時,它立馬委屈上了:「怎麼又讓我模仿她呀?」
演示影片:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a
當下,市面上多數語音模型的歌曲創作,還需要用戶輸入較為專業的文字Prompt,或者需要先基於用戶輸入的文字音頻,進行譜曲,無法在自然的語音交互中,做到「張口就來」。
豆包這次上線的「靈魂歌手」模式,就能讓豆包在聊天中,隨口把歌唱了。
比如讓豆包唱一首節奏歡快的歌,它張口就來了一曲Taylor Swift的《Love Story》,不過缺點是把歌名說成了「Lose Control」,以及音準確實也有些「Lose Control」。
演示影片:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j
除此之外,歌曲創作能力,豆包也有了。比如和豆包說「給我唱一首歌,歌詞裡面要有‘年終獎多多’」,它立刻表演了一首。雖然歌詞比較口水,但響應速度很是優秀。
演示影片:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb
從角色演繹和唱歌的能力就能感受到,豆包的擬人能力、交互自然程度以及情緒表達水平,已經是next level。
比如讓豆包講個鬼故事,它能根據情節切換語氣,非常有氛圍感。
演示影片:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb
這次豆包又上線了兩種人格模式:「受氣小包」和「誇誇大師」。
所謂的「受氣小包」,官方說法是可以讓豆包呈現委屈巴巴的狀態。但我們聊下來的感受是,「受氣小包」更準確的說法應該是「綠茶小包」。
演示影片:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr
不過難得的是,不管接受任何指令,「受氣小包」都能維持「委屈」的人設。比如讓「受氣小包」陰陽怪氣一些,最陰陽的版本,還是散發著茶香:
「喲,我可不敢呐,你可是主子,我不過是個任您使喚的小可憐,哪敢有什麼別的想法呀!」
演示影片:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746
相比於8月發佈的出版語音通話功能,能明顯感受到,豆包的情緒感知能力也更強了。通過一個「啊哈」,它就能感知到用戶歡快的情緒。
演示影片:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb
當然,豆包的情緒表達上,也變得更像人。用「猜性別」來逗豆包,有一種和真實網民開玩笑的感覺。
演示影片:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa
搞掂語音交互,擬人賽道的入場券
2024年5月,自OpenAI旗下GPT-4o發佈以來的很長一段時間里,市面上大多AI語音通話功能,採用的都是ASR(自動語音識別)+LLM(大語言模型)+湯臣S(文生音頻)的級聯方案。
比如初代豆包的語音通話功能,就集成了語音識別模型Seed-ASR、語音合成模型Seed-湯臣S,以及整合了RTC(實時音影片)技術,來實現對話情境下AI的實時交互。
但集成多個模型的級聯方案,劣勢在於AI的交互,很大程度上還不夠像人一樣自然。在「語音轉文字再轉語音」 的過程中,難免出現信息的損耗。
這也導致,傳統的語音交互模式在落地場景上有一定的局限性。行業對於AI語音交互的落地,局限在教育、客服等高專業度、低擬人度的場景中。
不過,端到端方案正在逐漸成為主流。比如智譜在2024年10月發佈的GLM-4-Voice,以及面壁智能在2025年1月15日發佈的「端側GPT-4o」MiniCPM-o 2.6,就採用了端到端的模型方案,在一個模型里同時完成視覺的理解,以及語音的理解和生成。
據《智能湧現》瞭解,這次豆包語音通話功能的更新,主要是由於底層模型技術,從原有多個多模態模型合作的級聯方案,改成了直接從「理解語音到生成語音」的端到端方案,因此在降低延時、自然度、情感表達等方面,都有了明顯的提升,並且還能輸出歌曲。
而語音能力的提升,也會將AI落地的空間,從教培、客服等專業領域,擴展到情感陪伴、心理諮詢、配音等更廣闊的場景中。
尤其是AI情感陪伴、角色扮演領域,在當下已經展現出強大的吸金能力。
比如,最近一款主打AI偶像扮演的App「Lovey Dovey」,迅速衝上韓區iOS評分第一,深受追星族的追捧。「六小虎」MiniMax旗下的角色扮演應用Talkie,根據AI產品榜,截至2024年12月擁有2977萬月活用戶。

Lovey Dovey對話1

在語音層面對角色扮演、情緒感知和表達能力的提升,則是豐富AI與人交互形式、提升沉浸感的關鍵一環。情感交互能開拓的市場空間,也逼迫著技術朝著「擬人」的方向更近一步。