無需引導采樣,清華大學提出視覺模型訓練新範式

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

引導采樣 Classifier-Free Guidance(CFG)一直以來都是視覺生成模型中的關鍵技術。然而最近,清華大學 TSAIL 團隊提出了一種極其簡單的方法,實現了原生無需引導采樣視覺模型的直接訓練。他們在 Stable Diffusion,DiT,VAR,LlamaGen,MAR 五個截然不同的視覺架構上進行了驗證,一致發現新方法性能與 CFG 相當,而采樣成本減半。

  • 算法名稱:Guidance-Free Training (GFT)

  • 論文鏈接:https://arxiv.org/abs/2501.15420

文生圖任務中,免引導采樣算法 GFT 與引導采樣算法 CFG 均能大幅提升生成質量,而前者更為高效。

GFT 可通過調節采樣時的「溫度係數」來調節 diversity-fidelity trade-off

與此同時,GFT 算法保持了與 CFG 訓練流程的高度一致,只需更改不到 10 行代碼就可輕鬆實現。

視覺引導采樣的問題與挑戰

生成質量和多樣性是相互牽製的關係。大語言模型(LLMs)主要通過將模型輸出直接除以一個采樣溫度係數 

來權衡二者,可明顯提高生成質量。然而,早期研究卻發現這類溫度采樣方法對視覺生成完全不起作用。如今,視覺生成依賴引入一個新的無條件模型,用引導采樣(CFG)達到類似溫度采樣的效果:

然而,CFG 中引入的無條件模型卻給視覺模型訓練帶來了種種掣肘,因為在每一個采樣步我們都需要進行有條件和無條件兩次模型推理,導致計算開銷倍增。此外,在對預訓練模型微調或進一步蒸餾時,我們也需要分別考慮有條件和無條件兩個視覺模型的訓練,這又增加了模型訓練的開銷及算法複雜度。

為了避免 CFG 引導采樣導致的額外計算開銷,已有的方法大多採用基於一個預訓練好的 CFG 教師模型繼續蒸餾的手段。但這引入了一個額外的訓練階段,可能會帶來性能損失。

GFT 算法正是嘗試解決這一問題。簡單說,它實現了原生免 CFG 視覺模型從零訓練,且有著和 CFG 相當的收斂速度,算法穩定性與采樣表現。更重要的是,它足夠簡潔、通用。一種算法可同時用於擴散、自回歸、掩碼三種視覺模型。

Guidance Free Training 算法設計

GFT 完全採用了監督訓練中的擴散損失函數。在訓練中,其和 CFG 最大的不同是:GFT 並不顯式參數化一個「有條件視覺模型」,而是將其表示為一個采樣模型和一個無條件模型的線性組合:

這樣在在我們訓練這個「隱式」有條件模型時,我們本質上在直接訓練其背後參數化好的采樣模型。

論文證明,隨著線性組合係數 β(又稱偽溫度係數」)的變化,其對應的采樣模型將和 CFG 算法定義的采樣分佈一一對應。

GFT 的算法靈魂:簡單、高效、兼容

在實際部署中,由於 GFT 算法在設計上可以與 CFG 訓練方法保持了高度對齊,這使得其可以最低成本被部署實現(<10 行代碼),甚至不需要更改已有代碼的訓練超參數。

GFT 訓練也非常高效,與 CFG 相比,它不需要任何額外的內存開銷,只需增加約 20% 的訓練時間,即可節約 50% 的采樣成本。

此外,GFT 高度通用。不僅僅適用於擴散視覺模型,對於自回歸、掩碼這類離散視覺模型也同樣適用:

實驗驗證

GFT 在擴散模型 DiT、Stable Diffusion,自回歸模型 VAR,LlamaGen,掩碼擴散模型 MAR 五個截然不同的模型上面分別進行了實驗驗證。

首先,研究者測試了 GFT 作為一個微調算法,把當下已有的 CFG 預訓練模型轉換為免引導採用模型的能力。發現在 FID 指標上,GFT 可以做到無損轉換。

隨後、研究者測試了 GFT 作為一個預訓練算法,和 CFG 訓練的比較(相同訓練步)。

結果表明,GFT 訓練出的免引導採用模型能力與 CFG 模型持平甚至更優。連損失函數收斂曲線也基本重合。

最後,論文還在不同模型上測試了 GFT 對於采樣質量和多樣性權衡曲線的控制能力。

作者介紹

本文有兩位共同一作。陳華玉、清華大學計算機系四年級博士生。主要研究方向為強化學習與生成式模型。曾在 ICML/NeurIPS/ICLR 國際會議上發表多篇學術論文。是開源強化學習算法庫「天授」的主要作者(Github 8k 星標)。導師為朱軍教授。

薑凱、清華大學 TSAIL 團隊實習生,主要研究方向為視覺生成模型。導師為陳鍵飛副教授。