阿里開源新版通義萬相,單一模型全面支持影片生成和編輯

新京報貝殼財經訊(記者羅亦丹)5月14日晚,阿里巴巴正式開源通義萬相Wan2.1-VACE,這是業界功能最全的影片生成與編輯模型,單一模型可同時支持文生影片、圖像參考影片生成、影片重繪、影片局部編輯、影片背景延展以及影片時長延展等全系列基礎生成和編輯能力。本次共開源1.3B和14B兩個版本,其中1.3B版本可在消費級顯卡運行,開發者可在GitHub、Huggingface及魔搭社區下載體驗。該模型還將逐步在通義萬相官網和阿里雲百煉上線。

據介紹,Wan2.1-VACE基於通義萬相文生影片模型研發,同時創新性提出了全新的影片條件單元VCU,它在輸入形態上統一了文生影片、參考圖生影片、影片生影片,基於局部區域的影片生影片4大類影片生成和編輯任務;同時,Wan2.1-VACE還進一步解決了多模態輸入的token序列化難題,將VCU輸入的幀序列進行概念解耦,分開重構成可變序列和不可變序列後進行編碼。

Wan2.1-VACE支持全部主流輸入形式,涵蓋文本、圖像、影片、Mask和控制信號,可以實現角色一致性、佈局、運動姿態和幅度等要素的控制。例如,Wan2.1-VACE可以基於物體參考圖或者影片幀生成一段影片,也可以通過抹除、局部擴展等操作,對原有影片進行重新生成,該模型還可以通過深度圖、光流、佈局、灰度、線稿等控制信號對影片進行編輯。

Wan2.1-VACE還支持任意基礎能力的自由組合,用戶無需針對特定功能訓練一個新的專家模型,即可完成更複雜的任務,極大地擴展了AI影片生成的想像空間。例如,將圖片參考和主體重塑功能組合,可以實現影片的物體替換;將圖片參考、首幀參考、背景擴展和時長延展功能,可以將一張豎版圖片變成橫版影片,並且在其中加入參考圖片中的元素。

編輯 陳莉 校對 楊利