訊飛星火多模態交互大模型上線,數字人、語音、視覺支持一鍵調用
IT之家 11 月 14 日消息,「訊飛開放平台」公眾號今天傍晚宣佈,訊飛星火多模態交互大模型正式上線,其實現從語音交互拓展到音影片流實時多模交互,新增「多模態、超擬人和個性化」能力,實現語音、視覺、數字人交互三合一,支持一鍵調用。
據介紹,訊飛星火多模態交互大模型正選超擬人數字人技術,數字人軀幹和四肢動作能夠精準匹配語音內容,快速生成表情和動作,令 AI「栩栩如生」。通過統一文本、語音和表情,能夠實現跨模態的語義一致性,從而使大模型情感表達真實連貫。
其支持超擬人極速交互,採用統一神經網絡直接實現語音到語音的端到端建模,響應更快速、流暢,可敏銳感知情緒變化,也可根據指令自由變換聲音的節奏、大小和人設。
其支持多模態視覺交互,能夠「聽懂世界」「認清萬物」,更全面感知具體背景場景、物流狀態等信息,對任務的理解更加精準,並通過語音、手勢、行為、情緒等進行綜合判斷,作出合適的回覆。
據IT之家此前報導,用戶可與數字人進行語音、影片通話,數字人可實現與用戶的自然語音對話,人物表情等也能夠匹配說話的語句。星火超擬人數字人還支持多模態交互,可讓數字人識別攝像頭中的內容,比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。