文生圖進入R1時代:港中文MMLab發佈T2I-R1,讓AI繪畫「先推理再下筆」
港中文MMLab團隊 投稿
量子位 | 公眾號 QbitAI
「先推理、再作答」,語言大模型的Thinking模式,現在已經被拓展到了圖片領域。
近日,港中文MMLab團隊發佈了第一個基於強化學習的推理增強文生圖模型:T2I-R1。

△ 文生圖進入R1時刻:港中文MMLab發佈T2I-R1
大家都知道,OpenAI o1和DeepSeek-R1這類的大語言模型(LLMs),已經在解數學題和寫代碼這些需要「動腦筋」的事情上面展現出了較高的水平。
這些模型通過強化學習(RL),先使用全面的思維鏈(CoT)逐步分析問題,推理後再提供答案。
這種方法大大提高了答案的準確性,很適合用於處理一些複雜問題。
同理,如果能把強化學習應用在圖片理解的多模態大模型中(LMMs),像是圖片理解或者文生圖這樣的任務就能解決得更加出色。
想法是好的,但在實際操作中總會碰到一些問題:
比如,該如何將語義和生成結合起來,讓語義理解服務於圖像生成?
又比如,如何對圖像生成的結果進行質量評估,讓模型在生成中學習?
目前CoT推理策略如何應用於自回歸的圖片生成領域仍然處於探索階段,港中文MMLab之前的工作Image Generation with CoT(鏈接見文末)對這一領域就有過首次初步的嘗試:通過關注多種推理技術,找到了有效適應圖像生成的推理方法,並提出了專門用於自回歸圖像生成的評估獎勵模型。
而T2I-R1在此基礎上首次提出了雙層級的CoT推理框架和BiCoT-GRPO強化學習方法。
無需額外模型,即可實現文本到圖像生成的推理應用。
圖片生成的雙層推理解法
與圖片理解不同,圖片生成任務需要跨模態的文本與圖片的對齊以及細粒度的視覺細節的生成。
傳統的推理方法很難同時兼顧兩種能力,而現有的自回歸生成模型(如VAR)缺乏顯式的語義級推理能力。
為此,港中文團隊提出了適用於圖片生成的兩個不同層次的CoT推理:

Semantic-level CoT
-
Semantic-level CoT 是對於要生成的圖像的文本推理,在圖像生成之前進行。
-
負責設計圖像的全局結構,例如每個對象的外觀和位置。
-
優化Semantic-level CoT可以在圖片Token的生成之前顯式地對於Prompt進行規劃和推理,使生成更容易。
Token-level CoT
-
Token-level CoT是圖片Token的逐塊的生成過程。這個過程可以被視為一種CoT形式,因為它同樣是在離散空間中基於所有先前的Token輸出後續的Token,與文本CoT類似。
-
Token-level CoT更專注於底層的細節,比如像素的生成和維持相鄰Patch之間的視覺連貫性。
-
優化Token-level CoT可以提高生成圖片的質量以及Prompt與生成圖片之間的對齊。

統一的雙層級CoT框架
然而,儘管認識到這兩個層次的CoT,一個關鍵問題仍然存在:我們怎麼協調與融合它們?
當前主流的自回歸圖片生成模型,如VAR,完全基於生成目標進行訓練,缺乏Semantic-level CoT推理所需的顯式文本理解。
雖然引入一個專門用於提示解釋的獨立模型(例如LLM)在技術上是可行的,但這種方法會顯著增加計算成本、複雜性和部署的困難。
最近也出現了一種將視覺理解和生成合併到單一模型中的趨勢:在LMMs的基礎上,這些結合了視覺理解和生成的統一LMMs(ULMs)不僅可以理解視覺輸入,還可以根據文本提示生成圖像。
可是,它們的兩種能力仍然是分開的,通常在兩個獨立階段進行預訓練。還沒有明確的證據表明,理解能力可以使生成受益。
鑒於這些潛力和問題,團隊從一個ULM(Janus-Pro)開始,增強它以將Semantic-level CoT以及Token-level CoT統一到一個框架中用於文本生成圖像:

BiCoT-GRPO實現協同優化
在雙層級CoT框架的理論基礎上,團隊提出了BiCoT-GRPO,一種使用強化學習的方法來聯合優化ULM的兩個層次的CoT:
首先,指示ULM基於Image Prompt來想像和規劃圖像,獲得Semantic-level CoT。
然後,將Image Prompt和Semantic-level CoT重新輸入ULM來生成圖片以獲得Token-level CoT。
這樣便能對一個Image Prompt生成多組Semantic-level CoT和Token-level CoT,又對得到的圖像計算組內的相對獎勵,從而更新GRPO,在一個訓練迭代內同時優化兩個層次的CoT。
BiCoT-GRPO方法首次在單一RL步驟中協同優化語義規劃與像素生成,相比起分階段訓練效率更高、計算成本更低。
T2I-R1:破解生成評估難題
與圖片的理解任務不同,理解任務有明確定義的獎勵規則,而圖像生成中不存在這樣的標準化的規則。
為此,港中文團隊提出使用多個不同的視覺專家模型的集成來作為獎勵模型。這種獎勵設計有兩個關鍵的目的:
它從多個維度評估生成的圖像以確保可靠的質量評估。
它作為一種正則化方法來防止ULM過擬合到某個單一的獎勵模型。

根據上述方法,該團隊獲得了T2I-R1——這是第一個基於強化學習的推理增強的文生圖模型。

根據T2I-R1生成的圖片,團隊發現模型能夠通過推理Image Prompt背後的真實意圖來生成更符合人類期望的結果,並在處理不尋常場景時展現出增強的魯棒性。
同時,下面的可視化結果表明,Semantic-level CoT明顯有助於猜測出用戶的真實想法。
比如右上角的例子,加入了Semantic-level CoT的模型猜到了prompt指的是故宮;而Token-level CoT則負責得到更美觀的圖像。

定量的實驗結果也表明了該方法的有效性:
T2I-R1在T2I-CompBench和WISE在Benchmark上分別比baseline模型提高了13%和19%的性能,在多個子任務上甚至超越了之前最先進的模型FLUX.1。


綜上所述,T2I-R1的出現證明了CoT在圖像生成中的有效性,實現了高效可拓展的生成架構,為多模態生成任務提供了新的推理增強範式。
在未來,T2I-R1的框架或能進一步拓展至影片生成、3D內容合成等複雜序列生成任務,推動生成式AI向」能思考、會創作」的通用智能體演進。
前序工作(Image Generation with CoT):
https://github.com/ZiyuGuo99/Image-Generation-CoT
論文:https://arxiv.org/pdf/2505.00703
代碼:https://github.com/CaraJ7/T2I-R1
一鍵三連「點讚」「轉發」「小心心」
歡迎在評論區留下你的想法!