豆包推出實時語音大模型:號稱中文對話斷崖式領先、情商智商均在線
感謝IT之家網民 風見暉一 的線索投遞!
IT之家 1 月 20 日消息,IT之家從豆包官方獲悉,豆包實時語音大模型今日正式推出,並在豆包 App(版本號為 7.2.0 新春版)全量開放。
據介紹,豆包實時語音大模型實現了語音理解和生成一體化,實現了端到端語音對話。相比傳統級聯模式在語音表現力、控制力、情緒承接方面表現驚豔,並具備低時延、對話中可隨時打斷等特性,「中文對話斷崖式領先,情商智商雙雙在線」。

同時,豆包 App 更新實時語音通話功能,面向所有用戶開放。該功能基於最新豆包實時語音大模型。官方表示,豆包中文場景的對話能力更新後在語音真實感和「喜怒哀樂」的情緒表現上近乎達到「人機難辨」的 AI 交互效果,可以模仿不同聲線,並且在「邏輯思考」和「情緒感知」上有明顯提升。
據瞭解,豆包全新實時語音通話功能可以根據場景自動對節奏、兒化音、音量、氣音等細節精準把控,還可跟用戶「說」悄悄話。其掌握了部分方言與英語對話、多角色模仿,甚至部分歌曲演唱能力。
豆包的全新語音能力基於端到端框架研發,其使用原生方法深度融合語音與文本模態進行統一建模。最終可實現從多模態輸入直接到多模態輸出的效果,從而達到官方所述「賦予 AI 語音對話‘靈魂’」的效果。
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。