新經濟視界 | 兵馬俑唱rap、高啟強普法 國產圖生視頻AI模型讓照片開口說話|封面天天見

封面新聞記者 歐陽宏宇

把一段音頻、一張照片輸入AI模型,就能讓圖中人物開口唱歌說話……繼Sora之後,一款能讓照片開口說話的國產圖生視頻AI模型在社交媒體上走紅。近日,記者獲悉,該AI模型已正式上線,並開放給所有用戶免費使用。

據介紹,這款AI模型名為EMO(Emote Portrait Alive),由通義實驗室研發。在該AI模型上,用戶僅需一張人物肖像照片和音頻,就可以讓照片中的人物按照音頻內容“張嘴”唱歌、說話,且口型基本一致,面部表情和頭部姿態非常自然。

比如,讓奧黛麗赫本唱《上春山》,愛因斯坦說中文段子,《狂飆》電視劇中“高啟強”暢談羅翔普法;甚至用兵馬俑士兵圖片配上音頻,就能“唱出”一首rapper饒舌,連口型都幾乎一模一樣。據悉,這款AI模型目前已在通義APP上線。

記者隨即進入該大模型頁面看到,用戶能在歌曲、熱梗、表情包中任選一款模板,上傳肖像照片,AI隨即就能合成視頻。目前,該模型首批上線了80多個模板,包括熱門歌曲《上春山》《野狼disco》等,網絡熱梗“缽缽雞”“回手掏”等。

這款圖生視頻AI模型高度真實感和表現力背後的技術原理是什麼?該實驗室研發團隊透露,該模型所運用的肖像說話(Talking Head)技術是當前大熱的AIGC領域。在此之前,肖像說話技術需針對人臉、人頭或者身體部分做3D建模,國內研發團隊則率先提出了弱控制設計,無需建模就可驅動肖像開口說話,不僅降低視頻生成成本,還大幅提升了視頻生成質量。

據瞭解,該模型目前已學習並實現了編碼人類表達情緒的能力,能將音頻內容和人物的表情、嘴型匹配,還能把音頻的語氣特徵和情緒色彩反映到人物微表情上。

公開資料顯示,圍繞該模型肖像說話技術的相關論文已在今年2月底發佈,相關AI模型也成為繼Sora之後最受關注的AI模型之一。有業內人士表示,圖生視頻AI模型讓所有人都可免費體驗前沿模型的創造力。未來,相關技術有望應用於數字人、數字教育、影視製作、虛擬陪伴、電商直播等場景。