新經濟視界 | 兵馬俑唱rap、高啟強普法國產圖生視頻AI模型讓照片開口說話|封面天天見

封面新聞記者歐陽宏宇

把一段音頻、一張照片輸入AI模型，就能讓圖中人物開口唱歌說話……繼Sora之後，一款能讓照片開口說話的國產圖生視頻AI模型在社交媒體上走紅。近日，記者獲悉，該AI模型已正式上線，並開放給所有用戶免費使用。

據介紹，這款AI模型名為EMO（Emote Portrait Alive），由通義實驗室研發。在該AI模型上，用戶僅需一張人物肖像照片和音頻，就可以讓照片中的人物按照音頻內容“張嘴”唱歌、說話，且口型基本一致，面部表情和頭部姿態非常自然。

比如，讓奧黛麗赫本唱《上春山》，愛因斯坦說中文段子，《狂飆》電視劇中“高啟強”暢談羅翔普法；甚至用兵馬俑士兵圖片配上音頻，就能“唱出”一首rapper饒舌，連口型都幾乎一模一樣。據悉，這款AI模型目前已在通義APP上線。

記者隨即進入該大模型頁面看到，用戶能在歌曲、熱梗、表情包中任選一款模板，上傳肖像照片，AI隨即就能合成視頻。目前，該模型首批上線了80多個模板，包括熱門歌曲《上春山》《野狼disco》等，網絡熱梗“缽缽雞”“回手掏”等。

這款圖生視頻AI模型高度真實感和表現力背後的技術原理是什麼？該實驗室研發團隊透露，該模型所運用的肖像說話（Talking Head）技術是當前大熱的AIGC領域。在此之前，肖像說話技術需針對人臉、人頭或者身體部分做3D建模，國內研發團隊則率先提出了弱控制設計，無需建模就可驅動肖像開口說話，不僅降低視頻生成成本，還大幅提升了視頻生成質量。

據瞭解，該模型目前已學習並實現了編碼人類表達情緒的能力，能將音頻內容和人物的表情、嘴型匹配，還能把音頻的語氣特徵和情緒色彩反映到人物微表情上。

公開資料顯示，圍繞該模型肖像說話技術的相關論文已在今年2月底發佈，相關AI模型也成為繼Sora之後最受關注的AI模型之一。有業內人士表示，圖生視頻AI模型讓所有人都可免費體驗前沿模型的創造力。未來，相關技術有望應用於數字人、數字教育、影視製作、虛擬陪伴、電商直播等場景。