FramePack 降低 AI 影片生成硬件門檻,6GB 顯存即可生成 60 秒影片

IT之家 4 月 20 日消息,來自 GitHub 的 Lvmin Zhang 與史丹福大學的 Maneesh Agrawala 合作,共同推出了一項名為 FramePack 的創新技術。該技術通過採用固定長度的時域上下文(fixed-length temporal context)對影片擴散模型(video diffusion)進行了實用化實現,顯著提高了處理效率,使得在較低硬件配置下生成更長、更高質量的 AI 影片成為可能。基於 FramePack 架構構建的一個 130 億參數模型,僅需 6GB 顯存即可生成長達 60 秒的影片片段。

據IT之家瞭解,FramePack 是一種神經網絡架構,其核心優勢在於利用多階段優化技術,有效降低了本地運行 AI 影片生成任務對硬件的要求。據報導,目前 FramePack 的圖形用戶界面(GUI)內部運行的是一個定製的、基於混元(Hunyuan)的模型,但研究論文同時指出,現有的預訓練模型也可以通過 FramePack 技術進行微調以適配該架構。

傳統的影片擴散模型在生成影片時,通常需要處理先前生成的所有帶噪幀(noisy frames)數據來預測下一個噪聲更少的幀。這個過程中所參考的輸入幀數量被稱為「時域上下文長度」,它會隨著影片長度的增加而增長。這導致標準的影片擴散模型對顯存(VRAM)有著極高的要求,通常需要 12GB 甚至更多。雖然可以通過降低影片長度、犧牲畫面質量或延長處理時間來減少顯存消耗,但這並非理想解決方案。

為此,FramePack 應運而生。該新架構能根據幀的重要性對其進行壓縮,並彙集到一個固定大小的上下文長度內,從而極大地降低了 GPU 的顯存開銷。所有輸入幀都經過壓縮處理,以確保滿足預設的上下文長度上限。研究者表示,經過優化後,FramePack 的計算成本與圖像擴散模型的成本相近。

此外,FramePack 還結合了緩解「漂移」(drifting)現象的技術 —— 即影片質量隨長度增加而下降的問題,從而在不顯著犧牲保真度的情況下,支持生成更長的影片內容。

在硬件兼容性方面,目前 FramePack 明確要求使用支持 FP16 和 BF16 數據格式的英偉達 RTX 30、40 或 50 系列 GPU。對於圖靈(Turing)架構及更早的英偉達顯卡,以及 AMD 和 Intel 的硬件支持情況,目前尚未得到驗證。操作系統方面,Linux 已確認在支持列表之中。考慮到 6GB 顯存的需求,除了 RTX 3050 4GB 等少數型號外,市面上大多數現代 RTX 顯卡都能滿足運行要求。

性能方面,以 RTX 4090 為例,在啟用 teacache 優化後,生成速度可達約每秒 0.6 幀。實際速度會因用戶顯卡型號的不同而有所差異。值得一提的是,FramePack 在生成過程中會逐幀顯示畫面,提供即時的視覺反饋。

目前,FramePack 所使用的模型可能有 30 幀 / 秒的上限,這或許會限制部分用戶的需求,但 FramePack 的出現無疑為普通消費者進行 AI 影片創作鋪平了道路,提供了一種替代昂貴第三方雲服務的可行方案。即使對於非專業內容創作者,這項技術也為製作 GIF 動圖、表情包等娛樂內容提供了有趣的工具。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。