圖像生成推理大模型,港中文北大等聯手破解畫質提升難題
Ziyu Guo 投稿
量子位 | 公眾號 QbitAI
圖像生成模型,也用上思維鏈(CoT)了!
來自港中文、北大和上海AI Lab的研究團隊,將CoT與生成模型結合到了一起。
實驗結果表明,他們的這種方法能有效提高自回歸圖像生成的質量,甚至超越擴散模型。

此外,作者還提出了兩種專門針對該任務的新型獎勵模型——潛力評估獎勵模型(Potential Assessment Reward Model,PARM)及其增強版本PARM++。
其中PARM++引入了反思機制(Reflection Mechanism),進一步優化了圖像生成質量。

將CoT用於圖像生成
研究團隊觀察到,自回歸圖像生成與LLM/LMM具有類似的推理架構,即:
-
離散化的Token表示:無論是語言還是圖像數據,自回歸模型都將其量化為離散Token,並通過逐步預測的方式進行生成。
-
逐步解碼(Step-by-Step Decoding):類似於CoT在數學問題上的逐步推理,自回歸圖像生成也可以逐步生成中間圖像,並在生成過程中進行驗證與優化。
於是,類比用CoT推理解決數學題的方案,研究團隊設計了用CoT推理進行文生圖的新方法。

具體來說,作者以「文生圖」為任務場景,並使用了Show-o來作為baseline模型,研究主要分為測試時驗證(Test-time Verification)、直接偏好優化(DPO)對齊以及二者的結合3個部分。
測試時驗證
首先,論文探索如何使用獎勵模型來進行測試時驗證,實現了結果獎勵模型(ORM)和過程獎勵模型(PRM)方案。
在兩者的基礎上,作者又提出了兩種全新的針對於圖像生成任務的潛力評估獎勵模型(PARM)和PARM++。

針對結果獎勵模型,論文提出了零樣本和微調2種方案,均使用Best-of-N的方式進行驗證,即進行多次完整路徑的生成,並從中選擇出質量最高的最終圖片。
零樣本ORM基於LLaVA-OneVision的7B版本,通過下面的prompt來激發其作為文生圖質量評估的能力:

同時作者也構建了大規模的圖文獎勵數據來得到微調ORM,數據形式如下圖所示:

而對於過程獎勵模型,作者使用了類似ORM的方案,同樣嘗試了零樣本和微調兩種方式,並對每個步驟進行Best-of-N的方案,即逐步選擇出質量最高的中間階段的生成圖片。
然而,作者發現這種PRM無法對圖像生成有顯著的提升。
通過可視化,作者發現:PRM在早期生成階段由於圖像模糊而難以評估,而在後期生成階段不同路徑的圖片趨於相似,導致辨別能力受限。

為了同時結合ORM的簡潔和有效性,以及PRM細粒度逐個步驟驗證的思想,作者提出了PARM。
PARM通過以下三步提升圖像生成質量:
-
清晰度判斷(Clarity Judgment):識別哪些中間步驟的圖像已經足夠清晰,可用於後續評估。
-
潛力性評估(Potential Assessment):分析當前步驟是否有潛力生成高質量的最終圖像。
-
最佳選擇(Best-of-N’ Selection):在高潛力路徑中選擇最佳的最終圖像。

在PARM的基礎上,作者進一步提出了PARM++,使模型能夠在生成錯誤時進行自我修正。
具體來說,基於PARM選出的最終圖片,作者首先使用PARM++ 評估生成圖片是否符合文本描述。
若圖片不符合要求,會要求RM提供詳細的錯誤描述,並根據該描述,要求生成模型進行自我修正(Self-correction),即模型接收反饋,並參考錯誤信息重新生成結果。
結果表明,PARM++進一步將GenEval成績提升了10%,生成結果在物體數量、顏色、空間關係等方面更加準確。

直接偏好優化對齊
作者進一步了引入DPO偏好對齊,即使用大規模排名數據訓練模型,使其生成結果更符合人類偏好。
研究團隊構建了288K條圖文排名數據用於訓練。
具體來說,訓練過程是採用最大似然優化,調整模型輸出,使其更偏向人類偏好。
同時,論文也進一步使用迭代DPO,在模型優化後重新生成新數據進行再次訓練。
結果表明,初次DPO訓練使模型在GenEval性能提升9%,而迭代DPO的提升比例可以達到12%,超越微調ORM。
測試時驗證與DPO結合
在前述兩種方法的基礎上,作者探索了將測試時驗證與DPO對齊相結合的策略,以實現端到端的優化。
在DPO訓練的模型基礎上,作者進一步應用測試時驗證進行篩選,使生成圖像質量更高,文本一致性更強。
實驗結果表明,結合DPO和測試時驗證後,模型在GenEval指標上的整體提升達27%,超越了單獨使用DPO或測試時驗證的方案。

整體上看,相比於現有的擴散模型和自回歸模型,使用CoT推理有效提升了文本生成圖像任務質量。

論文地址:
https://arxiv.org/abs/2501.13926
項目地址:
https://github.com/ZiyuGuo99/Image-Generation-CoT