訊飛星火多模態交互大模型上線，數字人、語音、視覺支持一鍵調用

11月14日 18:0711月14日 18:25 新浪網 tech-auto-hilite

IT之家 11 月 14 日消息，「訊飛開放平台」公眾號今天傍晚宣佈，訊飛星火多模態交互大模型正式上線，其實現從語音交互拓展到音影片流實時多模交互，新增「多模態、超擬人和個性化」能力，實現語音、視覺、數字人交互三合一，支持一鍵調用。

訊飛星火多模態交互大模型上線，數字人、語音、視覺支持一鍵調用

據介紹，訊飛星火多模態交互大模型正選超擬人數字人技術，數字人軀幹和四肢動作能夠精準匹配語音內容，快速生成表情和動作，令 AI「栩栩如生」。通過統一文本、語音和表情，能夠實現跨模態的語義一致性，從而使大模型情感表達真實連貫。

其支持超擬人極速交互，採用統一神經網絡直接實現語音到語音的端到端建模，響應更快速、流暢，可敏銳感知情緒變化，也可根據指令自由變換聲音的節奏、大小和人設。

其支持多模態視覺交互，能夠「聽懂世界」「認清萬物」，更全面感知具體背景場景、物流狀態等信息，對任務的理解更加精準，並通過語音、手勢、行為、情緒等進行綜合判斷，作出合適的回覆。

據IT之家此前報導，用戶可與數字人進行語音、影片通話，數字人可實現與用戶的自然語音對話，人物表情等也能夠匹配說話的語句。星火超擬人數字人還支持多模態交互，可讓數字人識別攝像頭中的內容，比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。