CVPR 2025 | SketchVideo讓手繪動起來,影片生成進入線稿時代

近年來,生成式人工智能的快速發展,在文本和圖像生成領域都取得了很大的成功。影片生成作為 AIGC 的重要研究內容,在影視製作、短影片合成和虛擬仿真等方面都有應用價值。現有的商用和開源的影片生成模型,都能根據文本或圖像輸入生成高質量的影片片段。

但是,僅依賴文本作為輸入,用戶難以精確控制幾何細節和場景佈局;若引入額外圖像輸入,則面臨如何獲取輸入圖像、難以精確控制運動信息等問題。此外,在給定已有影片片段後,如何對局部區域進行二次修改,並讓新生成的畫面與原始影片保持空間與時序一致,是亟待解決的問題。

近期,中國科學院大學,香港科技大學和快手可靈團隊研究人員提出了一種基於線稿的可控影片生成和編輯方法 SketchVideo [1],相關技術論文發表於 CVPR 2025。這一方法助力每一個人成為 AI 時代下的繪畫影視大師,通過寥寥數筆即可生成栩栩如生的動態影片結果。無論是從零開始生成影片,還是在真實影片上做局部創意編輯,SketchVideo 都能讓你輕鬆駕馭動態畫面,釋放創作潛能。

  • 論文標題:SketchVideo: Sketch-based Video Generation and Editing

  • arXiv 地址:https://arxiv.org/pdf/2503.23284

  • 項目主頁:http://geometrylearning.com/SketchVideo/

  • GitHub 地址:https://github.com/IGLICT/SketchVideo

  • 影片 demo:https://www.youtube.com/watch?v=eo5DNiaGgiQ

先來看看使用 SketchVideo 的影片生成和編輯的效果!

圖 1 基於線稿的影片生成結果圖 1 基於線稿的影片生成結果
圖 2 基於線稿的影片編輯結果圖 2 基於線稿的影片編輯結果

Part1 背景

近年來,AI 影片生成模型,如 Sora [2]、可靈 [3](商用模型)和 CogVideo [4]、Wan [5](開源模型)等,發展非常迅速。這些模型以文本及圖像作為輸入生成高質量影片,但在可控性和編輯性等方面有仍有提升空間。

線稿作為一種直觀且易於使用的交互方式,已廣泛應用於各類生成任務。早期研究 [6] 將線稿引入生成對抗網絡(GAN),以生成特定類別的圖像。隨著擴散模型的發展,線稿控制也被引入到文生圖模型中,如 Stable Diffusion [7]。其中,ControlNet [8] 是一項代表性工作,它基於 UNet 結構,通過複製 UNet 中的編碼器作為控制網絡,用於提取線稿特徵,從而實現對幾何細節的有效控制。

然而,影片生成模型在顯存佔用和計算開銷方面遠高於圖像生成模型,且通常採用 DiT 架構 —— 由一系列 Transformer 模塊串聯而成,缺少編碼器和解碼器結構。這使得直接將 ControlNet 方法遷移至影片生成模型 [9] 面臨挑戰:一是沒有明確的編碼器可用作控制網絡,二是複製大規模參數會帶來過高的資源消耗。此外,讓用戶為影片的每一幀繪製線稿並不現實,因此更合理的做法是僅繪製一幀或兩幀關鍵幀。但如何將這些關鍵幀的控制信號有效傳播至整段影片,仍是亟需解決的技術難題。

相比影片生成,基於線稿的影片編輯更側重於對局部區域的修改,要求生成結果與周圍區域在空間和時間上保持一致,同時確保非編輯區域的內容不被破壞。現有方法多採用文本驅動的方式進行影片編輯 [10],或通過傳播第一幀的編輯結果到整段影片 [11]。然而,這些方法主要聚焦於整體風格變化,對於實現精確的局部幾何編輯存在不足,仍需進一步探索。

Part2 算法原理

圖 3 SketchVideo 的網絡架構圖,生成和編輯流程圖 3 SketchVideo 的網絡架構圖,生成和編輯流程

該工作基於預訓練的影片生成模型 CogVideo-2B(圖 3a 灰色部分),在其基礎上添加了可訓練的線稿控制網絡(圖 3a 藍色部分),用於預測殘差特徵,從而實現基於線稿的可控影片生成。不同於 PixArt-δ[12] 中通過複製前半部分的 DiT 模塊構建控制網絡的做法,該工作提出了一種跳躍式殘差控制結構:將條件控制模塊以固定間隔均勻嵌入至預訓練模型的不同層次,分別處理不同深度的特徵,提升控制能力的同時降低冗餘計算。具體而言,線稿控制模塊 0 的權重初始化自原始模塊 0,模塊 1 初始化自模塊 6,依此類推。該設計在顯著減少參數開銷的同時,仍保持了良好的控制效果。

在影片生成階段,用戶可輸入一幀或兩幀關鍵幀線稿,並指定其對應的時間點,以控制影片在特定時刻的幾何細節和影片整體的運動狀態。為了將這些關鍵幀的控制信息有效傳播至整段影片,該方法引入了幀間注意力機制(圖 3 b):先通過一組由原始影片生成模型初始化的可訓練 DiT 模塊(DiT Block (trainable copy))提取關鍵幀的控制特徵,再利用幀間相似性引導控制信號以稀疏方式向其他幀傳播,最後通過前饋網絡生成所有幀的殘差控制特徵,實現時序一致的線稿引導生成。

在影片編輯階段,控制網絡除線稿外,還需額外接收原始影片及隨時間變化的矩形掩碼,用於標記編輯區域。在生成控制模塊的基礎上,該方法新增了影片嵌入模塊(圖 3c),用於提取非編輯區域的原始影片信息,確保編輯結果在空間和時間上與周圍內容協調一致。由於原始影片不具備時間稀疏性,影片嵌入模塊未採用幀間注意力機制。在推理階段,該方法還引入局部融合策略,在隱空間中融合原始影片與編輯結果,實現對非編輯區域內容的精確保留。

在訓練方面,該方法使用配對的線稿和影片數據進行訓練,並額外引入線稿與靜態圖像對,提升線稿控制網絡在不同場景下的泛化能力。對於影片編輯任務,網絡初始化使用基於線稿的影片生成模型的權重,並引入隨機生成的掩碼模擬實際編輯過程,從而訓練出具備高質量編輯能力的模型。

Part3 效果展示

如圖 4 所示,用戶可以繪製單幀線稿,並額外輸入文本描述,該方法可以生成高質量的影片結果。合成的影片結果在指定的時間點與線稿存在較好的對應性,並且具有良好的時序一致性。

圖 4 基於單幀線稿的影片生成結果圖 4 基於單幀線稿的影片生成結果

如圖 5 所示,用戶也可以繪製兩幀線稿,該方法也可以生成高質量的影片結果。通過兩個關鍵幀輸入,用戶不僅可以控制場景佈局和幾何細節,也可以控制物體的運動狀態,實現影片的定製化生成。

圖 5 基於兩幀線稿的影片生成結果圖 5 基於兩幀線稿的影片生成結果

如圖 6 所示,給定真實的影片後,用戶可以指定編輯區域,並額外繪製線稿對局部進行修改。該方法生成逼真的影片編輯效果,新生成的內容會隨著非編輯區域的運動(如樹枝的移動、頭部旋轉)一起變化,從而生成自然的影片結果。

圖 6 基於單幀線稿的影片編輯結果圖 6 基於單幀線稿的影片編輯結果

如圖 7 所示,與影片生成類似,用戶在影片編輯的過程中,也可以繪製兩個關鍵幀對應的線稿,從而控制新添加物體的運動狀態,該方法依然生成較為真實的影片編輯效果。

圖 7 基於兩幀線稿的影片編輯結果圖 7 基於兩幀線稿的影片編輯結果

Part4 結語

隨著大模型和生成式人工智能的迅速發展,AI 繪畫的能力已從靜態圖像延伸至動態影片的生成。相較於生成二維圖像,如何基於關鍵幀的手繪線稿,精準控制影片中物體的幾何細節與運動軌跡,成為重要的研究問題。SketchVideo 提出了一種有效的解決方案,通過線稿引導實現高質量的影片的生成和編輯,提高影片合成的可控性。

借助該方法,用戶無需掌握複雜的專業影片處理軟件,也不比投入大量時間和精力,僅憑幾筆簡單的線稿勾勒,便可以將想像變為現實,得到真實靈動的動態藝術作品。SketchVideo 工作已經被 CVPR 2025 接受。

參考文獻:

[1] Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao*. 「SketchVideo: Sketch-based Video Generation and Editing.」 CVPR 2025

[2] https://openai.com/sora/

[3] https://www.klingai.com/cn/

[4] Yang, Zhuoyi, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang et al. “Cogvideox: Text-to-video diffusion models with an expert transformer.” arXiv preprint arXiv:2408.06072 (2024).

[5] Wang, Ang, Baole Ai, Bin Wen, Chaojie Mao, Chen-Wei Xie, Di Chen, Feiwu Yu et al. “Wan: Open and advanced large-scale video generative models.” arXiv preprint arXiv:2503.20314 (2025).

[6] Wang, Ting-Chun, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. “High-resolution image synthesis and semantic manipulation with conditional gans.” CVPR 2018.

[7] Rombach, Robin, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. “High-resolution image synthesis with latent diffusion models.” CVPR 2022.

[8] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. “Adding conditional control to text-to-image diffusion models.” ICCV 2023.

[9] Guo, Yuwei, Ceyuan Yang, Anyi Rao, Maneesh Agrawala, Dahua Lin, and Bo Dai. “Sparsectrl: Adding sparse controls to text-to-video diffusion models.” ECCV 2024.

[10] Cheng, Jiaxin, Tianjun Xiao, and Tong He. “Consistent video-to-video transfer using synthetic dataset.” ICLR 2024

[11] Ku, Max, Cong Wei, Weiming Ren, Huan Yang, and Wenhu Chen. “Anyv2v: A plug-and-play framework for any video-to-video editing tasks.」 arXiv e-prints (2024): arXiv-2403.

[12] Chen, Junsong, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, and Zhenguo Li. “Pixart-{\delta}: Fast and controllable image generation with latent consistency models.” arXiv preprint arXiv:2401.05252 (2024).