豆包 App 更新實時語音通話功能 低延時、多情緒、高雙商
1 月 20 日,豆包 APP 更新實時語音通話功能,面向所有用戶開放。
該功能基於最新豆包實時語音大模型(Doubao Realtime Voice Model)。更新後,豆包中文場景的對話能力在語音真實感和「喜怒哀樂」的情緒表現上近乎達到「人機難辨」的 AI 交互效果,可以模仿不同聲線,並且在「邏輯思考」和「情緒感知」上有明顯提升。

記者測試發現,產品表現上,豆包 App 全新實時語音通話做到了「人機難辨」的真人級交互程度,其語音表現和智力的擬人性方面有了質的提升。相比大多數語音系統還在語氣層面進行粗線條變化,豆包全新實時語音通話功能可以根據場景自動對節奏、兒化音、音量、氣音等細節精準把控,甚至能跟你「說」悄悄話。
此外,豆包在喜怒哀樂情緒表現方面也頗為亮眼,還掌握了部分方言與英語對話、多角色模仿,甚至部分歌曲演唱能力。在日常使用中,它既可以是英語陪練老師、講故事高手,也可以是一位即興唱作者。
過去,傳統語音對話任務系統採用 ASR+LLM+湯臣S 的級聯模式,無法滿足真人級語音對話對理解的完整度、生成的自然度、交互的低延時等各維度的要求。而豆包全新語音能力基於創新的端到端框架,使用原生方法深度融合語音與文本模態進行統一建模。最終可實現從多模態輸入直接到多模態輸出的效果,賦予 AI 語音對話「靈魂」。
豆包相關負責人介紹,交付體驗上,豆包語音對話在確保模型具備強大理解和邏輯能力,能聯網回答時效性問題的同時,還具備超低延時和流暢打斷能力。
豆包全新實時語音通話功能與同類產品拉開明顯差距,中文對話斷崖式領先,同時,情商智商雙雙在線。據外部真實反饋,用戶對豆包此次上線的全新語音通話功能整體滿意度為 4.36/5,對 GPT-4o 語音對話滿意度則為 3.18/5,尤其語音語氣自然度和情緒飽滿度方面,豆包有明顯優勢。

目前,豆包 App 全新實時語音通話功能已經全量上線,用戶下載並升級豆包 APP 至 7.2.0 新春版即可體驗。