在線試玩 | 對齊、生成效果大增,文本驅動的風格轉換迎來進階版

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

論文的第一作者是來自西湖大學的研究人員雷明坤,指導老師為西湖大學通用人工智能(AGI)實驗室的負責人張馳助理教授。實驗室的研究方向聚焦於生成式人工智能和多模態機器學習。

文本驅動的風格遷移是圖像生成中的一個重要任務,旨在將參考圖像的風格與符合文本提示的內容融合在一起,生成最終的風格化圖片。近年來,隨著 Stable Diffusion 等文本到圖像生成模型的發展,這些技術使得在保留內容準確性的同時,實現出色的風格轉換成為可能。這項技術在數字繪畫、廣告和遊戲設計等領域具有重要的應用價值。

然而,以往的風格遷移算法會讓結果的風格化圖像過擬合到參考的風格圖像上;從而丟失文本控制能力(例如指定顏色)。

為瞭解決這一難題,西湖大學、複旦大學、南洋理工大學、香港科技大學(廣州)等機構的研究團隊聯合提出了無需額外訓練的改進方法,能夠與眾多已有方法進行結合。簡單來說,研究團隊優化了圖像和文本共同引導生成風格化圖像的時候,兩種條件如何融合的問題。同時也探討了關於風格化圖像穩定生成和風格歧義性的問題。

  • 論文標題:StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

  • 論文鏈接:https://arxiv.org/abs/2412.08503

  • 項目地址:https://stylestudio-official.github.io/ 

  • Github 地址:https://github.com/Westlake-AGI-Lab/StyleStudio

問題背景

風格定義的模糊性

現在的風格遷移技術由於定義 「風格」 時固有的模糊性,仍然未能達到預期的效果。現在的方法主要在解決的問題是風格圖像中的內容元素泄漏進風格化圖像中,導致風格化圖像完全不遵循文本條件,即內容泄漏問題。然而,一個風格圖像中包含了多種元素,如色彩、紋理、光照和筆觸;所有這些元素都構成了圖像中的整體美學。

現有的方法通常會複製所有的這些元素,這可能會無意中導致過擬合,即生成的輸出過於模仿參考風格圖像的特點,這種對細節的過度複製不僅降低了生成圖像的美學靈活性,也限制了它適應不同風格或基於內容需求的能力。因此,理想的風格遷移方法應該允許更選擇性的風格調整,給予用戶強調或省略特定風格組件的靈活性,以實現平衡且有意圖的轉換

另一個由過擬合引發的挑戰是在文本到圖像生成過程中保持文本對齊準確性困難,即便是在相當簡單的文本條件下,例如 「A 」 這類簡單文本。當前模型會優先考慮來自風格圖像的主要顏色或圖案條件,即使它們與文本提示中指定的條件相衝突矛盾。這種不可控制性削弱了模型解讀和結合細緻文本指導的能力,導致生成結果的精準性和定製化能力下降。

最後,風格遷移可能會引入一些不期望的圖像特徵,影響文本到圖像生成模型的效果穩定性。例如,一種常見問題是佈局不穩定(例如棋盤格效應),即重覆的圖案會不經意地出現在整個生成圖像中,不論用戶的文本條件如何。這突顯了風格遷移過程中額外複雜性帶來的挑戰。

當前風格化文生圖模型存在的問題可以總結歸納為以下三個方面:

  • 風格化圖像過擬合導致保持文本對齊準確性困難。

  • 風格化圖像過擬合導致風格圖像中風格元素遷移的不可控。

  • 風格化圖像出現不穩定生成的問題,例如棋盤格效應。

StyleStudio 核心創新

針對風格定義模糊性導致的三個問題,研究團隊提出了針對每個問題的解決方案。具體的解決方法如下:

貢獻一:跨模態自適應實例正則化技術 (cross-modal AdaIN)

在文本驅動的風格遷移中,傳統的基於適配器的方法(Adapter-Based)方法通過加權求和直接組合引導圖像生成的文本和圖像條件,這樣的做法可能導致兩種條件之間的信息衝突,影響最終的生成效果。

研究團隊提出了跨模態自適應實例正則化技術 Cross-Modal AdaIN。論文回顧了經典風格遷移算法 AdaIN 技術,然後提出了多模態版本 AdaIN 來解決文本驅動的風格遷移問題。具體來說,該算法首先分別處理文本和風格特徵以生成獨立網格特徵圖,再應用原本的 AdaIN 技術使文本特徵通過風格特徵歸一化,最後將結果融合進 U-Net 特徵中。此方法自適應地平衡了文本與風格條件的影響,最小化了輸入間的潛在衝突;並避免了複雜超參數的設置,提高了模型對文本提示和風格參考的理解能力和生成質量。

與此同時,得益於傳統的基於適配器的方法(Adapter-Based)採用加權求和組合文本和圖像條件,這保證了兩個特徵圖位於相同的嵌入空間(embedding space);研究團隊發現可以直接將跨模態自適應實例正則化技術替換傳統基於適配器的方法(Adapter-Based)中的加權求和策略,且不需要進行額外的訓練。

跨模態自適應實例正則化技術示例圖

跨模態自適應實例正則化技術示例圖

貢獻二:基於風格圖像的無分類器生成引導 Style-CFG

在風格遷移中,當參考風格圖像包含多種風格元素(如卡通風格與夜間美學的結合)時,會出現風格模糊的挑戰。當前的方法難以有效地分離這些不同的風格元素,更無法選擇性地強調核心特定風格元素。為瞭解決這個問題,需要一種靈活的方法,可以有選擇地突出所需的風格特徵,同時過濾掉無關或衝突的特徵。

為此,研究團隊了借鑒了擴散模型中文本引導圖像生成常用的無分類器引導(CFG)的概念,提出了基於風格的無分類器引導(Style-Based Classifier-Free Guidance, SCFG)設計,旨在提供對風格遷移過程的可控調整。 

研究團隊提出利用佈局控制生成模型(如 ControlNet)生成所需要的負向風格圖;例如當正向風格圖片的風格特點是卡通風格與雪景時,可以生成真實風格下的雪景圖片;通過基於風格的無分類器引導使得最終風格化圖片中僅包含卡通風格而不包含雪這一風格元素。

貢獻三:引入教師模型穩定圖像生成

在圖像生成中,內容的佈局對視覺美學至關重要。研究團隊觀察到,生成過程中會出現較為明顯的短板是棋盤格現象。為了保持文本驅動風格遷移中的穩定佈局,研究團隊提出利用風格遷移方法中使用到的基模型(base model),即通常利用相對應的 Stable Diffusion 模型作為教師模型提供生成過程中的佈局指導。

具體來說,研究團隊利用教師模型在生成過程中每一個去噪時間步的注意力圖替換風格化圖像生成過程中的相對應的注意力圖。這種方法確保了關鍵的空間關係特徵在去噪過程中的穩定性,既保留了原始圖像的結構連貫性,又實現了所需的風格轉換,使結果更符合文本提示的要求。

在實驗中研究團隊有兩點發現,一是相較於替換交叉注意力圖,替換自注意力圖不僅可以穩定圖像佈局,還可以保持跨風格圖像生成內容的佈局一致性。二是替換自注意力圖只需要在去噪前期進行,當教師模型參與的去噪過程過長會導致風格特徵的丟失。

教師模型穩定圖像生成示例。

教師模型穩定圖像生成示例。

實驗亮點

StyleStudio 的文本對齊能力與穩定的圖像生成

與先前方法進行定性的比較試驗。

與先前方法進行定性的比較試驗。

研究團隊進行了定性的比較試驗,實驗結果表明所提出的方法能夠精確捕捉並反映文本條件中指定的關鍵風格屬性(如顏色),優先確保文本對齊;此外還保證了生成圖像的佈局穩定,保持結構完整性,沒有出現內容泄漏的問題;同時沒有損失風格特徵,實現了與目標風格的高度相似性。

研究團隊也進行了定量的比較試驗與用戶調研實驗,結果表明在各個指標中超過了已有的風格遷移方法。

基於風格的無分類器引導方法實驗

基於風格的無分類器引導方法實驗

研究團隊針對提出的基於風格的無分類器引導方法進行試驗,通過與傳統的無分類器指導方法對比證明了所提出方法的有效性。

更多風格圖像和文本條件下的實驗結果。所用的文本條件格式為 「A <color> bus」

更多風格圖像和文本條件下的實驗結果。所用的文本條件格式為 「A bus」

研究團隊為了展示所提方法的通用性和穩健性,進行了更多風格圖像和文本條件下的實驗。實驗結果進一步驗證了該方法的有效性,表明其在文本對齊和佈局穩定生成方面表現出色。更多內容與實驗分析,請參考原論文。

研究團隊官方支持 Huggingface Demo,可以在線體驗:

示例地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio

© THE END 

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:liyazhou@jiqizhixin.com