業界首個,阿裡通義萬相「首尾幀生影片模型」開源

IT之家 4 月 17 日消息,阿裡通義萬相「首尾幀生影片模型」今日宣佈開源,該模型參數量為 14B,號稱是業界首個百億參數規模的開源首尾幀影片模型。

它可根據用戶指定的開始和結束圖片,生成一段能銜接首尾畫面的 720p 高清影片,此次升級將能滿足用戶更可控、更定製化的影片生成需求。

用戶可在通義萬相官網直接免費體驗該模型,或在 Github、Hugging Face、魔搭社區下載模型本地部署後進行二次開發。

技術介紹

首尾幀生影片比文生影片、單圖生影片的可控性更高,但這類模型的訓練難度較大,首尾幀影片生成需同時滿足以下幾點:

1. 生成的影片內容要保證和用戶輸入的兩張圖像一致

2. 能夠遵循用戶的提示詞指令

3. 能從給定的首幀自然、流暢過渡到尾幀

4. 影片本身動作協調、自然

訓練及推理優化

基於現有的 Wan2.1 文生影片基礎模型架構,通義萬相首尾幀生影片模型進一步引入了額外的條件控制機制,通過該機制可實現流暢且精準的首尾幀變換。

在訓練階段,團隊還構建了專門用於首尾幀模式的訓練數據,同時針對文本與影片編碼模塊、擴散變換模型模塊採用了並行策略,這些策略提升了模型訓練和生成效率,也保障了模型具備高解像度影片生成的效果。

在推理階段,為了在有限內存資源的條件下支持高清影片推理,萬相首尾幀模型分別採用了模型切分策略以及序列並行策略,在確保推理效果無損的前提下,顯著縮短了推理時間。

功能升級

基於該模型,用戶可完成更複雜、更個性化的影片生成任務,可以實現同一主體的特效變化、不同場景的運鏡控制等影片生成。

例如,上傳相同位置不同時間段的兩張外景圖片,輸入一段提示詞,通義萬相首尾幀生成模型即可生成一段四季交替變化或者晝夜變化的延時攝影效果影片;上傳兩張不同畫面的場景,還可通過旋轉、搖鏡、推進等運鏡控制銜接畫面,在保證影片和預設圖片一致性前提下,同時讓影片擁有更豐富的鏡頭。

IT之家附開源地址:

  • Github:https://github.com/Wan-Video/Wan2.1

  • HuggingFace:https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

  • 魔搭社區:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

  • 直接體驗入口:https://tongyi.aliyun.com/wanxiang/videoCreation

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。