謝賽寧等推出統一多模態模型!替代VAE實現圖像理解/生成雙SOTA,代碼權重數據集全開源

白交 發自 凹非寺

量子位 | 公眾號 QbitAI

統一圖像理解和生成,還實現了新SOTA。

謝賽寧等團隊推出了統一多模態模型Blip3-o

與傳統的基於VAE的表徵不同,他們提出了一種新方法,使用擴散Transformer來生成語義豐富的CLIP圖像特徵。這種設計提高了訓練效率,又提升了生成質量。

此外,他們還證明,先進行圖像理解訓練,再進行圖像生成訓練的統一模型順序預訓練策略,具有實用優勢,既能保持圖像理解能力,又能培養強大的圖像生成能力。

網頁端可以免費體驗Demo~

統一多模態模型Blip3-o

在最近的多模態模型研究中,圖像理解與生成的統一受到越來越多的關注。儘管研究人員們對圖像理解的設計選擇進行了廣泛的研究,但對圖像生成統一框架的最佳模型架構和訓練方法的研究仍然不足。

在這一背景下,團隊又看到了自回歸和擴散模型在高質量生成和可擴展性方面有強大的潛力。於是乎,他們開始對統一多模態模型進行了全面研究,重點關注圖像表示、建模目標和訓練策略。

統一架構

這些基礎上,他們提出了一種新的統一架構。同樣包括兩部分。

圖像理解部分,他們使用CLIP對圖像進行編碼,並計算目標文本標記與預測文本標記之間的交叉熵損失。

在圖像生成部分,自回歸模型首先生成一系列中間視覺特徵,然後將其作為擴散Transformer的條件輸入,生成CLIP圖像特徵,以逼近地面真實的CLIP特徵。

通過使用CLIP編碼器,圖像理解和圖像生成共享同一個語義空間,從而有效地統一了這兩項任務。

設計方案

具體來說,他們在圖像生成部分,嘗試了三種設計方案——所有設計都使用了自回歸+擴散框架,但圖像生成組件各不相同。

對於流匹配損失,他們凍結了自回歸模型,只對圖像生成模塊進行了微調,以保留模型的語言能力。

結果顯示,CLIP+Flow Matching在GenEval和DPG-Bench上都獲得了最佳的提示對齊得分,而VAE+Flow Matching產生的FID最低(最佳),表明美學質量上乘。

不過,FID有其固有的局限性:它量化的是與目標圖像分佈的風格偏差,往往忽略了真正的生成質量和即時配準。他們在MJHQ-30k數據集上對GPT-4o進行的FID評估得出的分數約為30.0,這說明FID在圖像生成評估中可能會產生誤導。

最終,他們確定CLIP+Flow Matching是最有效的設計選擇。

將圖像生成整合到統一模型中時,自回歸模型比像素級表徵(VAE)更有效地學習語義級特徵(CLIP);採用流匹配作為訓練目標能更好地捕捉底層圖像分佈,從而提高樣本多樣性和視覺質量。

訓練策略

隨後,他們開始研究訓練策略: >到底是聯合訓練還是順序訓練?

在聯合訓練設置中,儘管之前研究證明圖像理解和生成任務可能互惠互利,但有兩個關鍵因素會影響它們的協同效應:

(i)總數據量和(ii)圖像理解和生成數據之間的數據比例

相比之下,順序訓練具有更大的靈活性:它允許凍結自回歸骨幹,並保持圖像理解能力。這樣一來,可以將所有訓練能力用於圖像生成,避免聯合訓練中的任何任務間效應。同樣受LMFusion和MetaQuery的啟發,我們決定選擇順序訓練來構建統一的多模態模型,並將聯合訓練留待未來工作中使用。

最終在圖像理解和生成任務的大多數熱門基準測試中均取得了卓越的性能。

總之,團隊首次系統地探討了用於統一多模態建模的混合自回歸和擴散體系結構,評估了三個關鍵方面:圖像表徵(CLIP與VAE特徵)、訓練目標(流量匹配與MSE)和訓練策略(聯合與順序)

實驗證明,CLIP嵌入與流匹配loss搭配使用,可以提高訓練效率和輸出質量。基於這些見解,他們推出了BLIP3-o,這是一個最先進的統一模型系列,使用60k指令調整數據集BLIP3o-60k進行了增強,大大提高了提示對齊和視覺美感。

為了方便未來的研究,他們完全開源了模型,包括代碼、模型權重、訓練腳本以及預訓練和指導調整數據集。

目前正在積極開發統一模型的應用,包括迭代圖像編輯、視覺對話和逐步視覺推理。

華人佔大多數

此研究由Salesforce、馬里蘭大學、維珍尼亞理工、紐約大學、華盛頓大學等機構共同完成。

團隊中大部分都是華人。

共同一作有四位,他們分別是馬里蘭大學博士生Jiuhai Chen,目前在Meta實習;維珍尼亞理工大學博士生Zhiyang Xu;紐約大學博士生Xichen Pan,謝賽寧學生,本科畢業於上海交大;華盛頓大學博士生Yushi Hu。

項目Lead是Salesforce的高級應用科學家Le Xue。

Demo體驗:

https://blip3o.salesforceresearch.ai/

參考鏈接:

[1]https://x.com/iScienceLuvr/status/1922843713514193076

[2]https://arxiv.org/abs/2505.09568

[3]https://x.com/_akhaliq/status/1923001183804764391