謝賽寧等新作,統一多模態BLIP3-o登場!先理解後生成,端掉VAE刷新SOTA

新智元報導
編輯:定慧
【新智元導讀】BLIP3-o是一個全開源統一多模態模型,結合自回歸與擴散架構,採用「先理解後生成」策略,創新地使用CLIP特徵與Flow Matching訓練,顯著提升生成圖像質量與多樣性。BLIP3-o不僅在多個評測中表現領先,也正拓展至圖像編輯和視覺對話等多模態任務。
多模態模型捲到頭了?不,真正的革新才剛開始。
就在最近,來自Salesforce、UMD、VT、NYU、UW等機構的研究人員,發佈了一組完全開源的統一多模態模型BLIP3-o。
BLIP3-o採用「先理解後生成」訓練策略,實現了圖像理解與生成的有效統一,並基於GPT-4o構建了BLIP3o-60k數據集。

模型鏈接:https://huggingface.co/BLIP3o/BLIP3o-Model
優化數據:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
BLIP3-o的架構包括兩部分,理解部分使用CLIP對圖像進行編碼;生成部分,自回歸模型生成中間視覺特徵,作為DiT的輸入,採用CLIP+Flow Matching策略生成圖像特徵。

結果顯示,BLIP3-o系列在提示對齊和圖像美學方面,都有顯著的提升。

同時,BLIP3-o的Demo體驗網站也已上線。

具體到這篇論文中,研究團隊圍繞以下三個關鍵維度進行了深入探討:
· 圖像表示方式:將圖像編碼為高層級的語義特徵(例如CLIP圖像編碼器),而不是低層級的像素特徵(例如基於VAE的編碼器)
· 訓練目標函數:使用Flow Matching代替MSE,提升圖像生成質量。
· 訓練策略:採用順序訓練策略效果最佳,先用圖像理解任務訓練自回歸模型,再在圖像生成階段保持其參數凍結。
統一多模態下的圖像生成與理解
OpenAI的GPT-4o最近展示的高質量圖像生成和強大的多模態理解能力,激發了人們對於多模態範式的興趣。。
關於OpenAI的GPT-4o架構的猜測中,最有可能的一種是採用了一種混合管道結構:

這表明自回歸和擴散模型可結合起來。受這種混合設計的啟發,研究團隊在研究中採用了自回歸+擴散框架。
在這種框架下,最優架構方案仍不明確。自回歸模型負責生成連續的中間視覺特徵,用以逼近真實的圖像表示,但這帶來了兩個關鍵問題:
首先,如何定義「真實」的圖像嵌入?應該選擇VAE還是CLIP來將圖像編碼為連續特徵?
其次,如何建模和對齊這些生成的視覺特徵與真實特徵之間的分佈?是採用簡單的MSE損失,還是使用更複雜的擴散方法?
為瞭解決這些問題,研究團隊在後續部分中對不同的架構設計、特徵表示方式和建模策略進行了系統性探索。
研究團隊首先探討如何通過編碼器-解碼器架構將圖像表示為連續嵌入,這在學習效率和生成質量方面起著基礎性作用。

圖像編碼與重建
圖像生成通常首先使用編碼器將圖像編碼為連續的潛在嵌入,然後使用解碼器從該潛在嵌入中重建圖像。這種編碼-解碼流程可以有效地降低圖像生成中輸入空間的維度,從而提高訓練效率。研究討論了兩種目前廣泛使用的方式:
變分自編碼器(Variational Autoencoders)
變分自編碼器(VAE)是一類生成模型,它們學習將圖像編碼到一個結構化的連續潛在空間中。編碼器近似給定輸入圖像的潛在變量的後驗分佈,而解碼器從這個潛在分佈中抽取樣本重建圖像。
潛在擴散模型通過學習建模壓縮潛在表示的分佈而不是原始圖像像素來構建在這個框架上。通過在VAE潛在空間中操作,這些模型顯著降低了輸出空間的維度,從而降低了計算成本並使訓練更加高效。
CLIP編碼器與擴散解碼器(CLIP Encoder with Diffusion Decoder)
CLIP模型已成為圖像理解任務的基礎編碼器,因為它通過大規模圖像-文本對的對比訓練能夠從圖像中提取豐富、高級的語義特徵。
然而,利用這些特徵進行圖像生成仍然是一個不小的挑戰,因為CLIP最初並不是為重建任務設計的。
針對這個問題,團隊通過將基於CLIP的編碼器與基於擴散的解碼器配對,提出使用EVA-CLIP將圖像編碼為連續的視覺嵌入,並通過從初始化的擴散模型進行重建。
在訓練過程中,擴散解碼器被微調以使用來自EVA-CLIP的視覺嵌入作為條件,從高斯噪聲中恢復原始圖像,而EVA-CLIP保持凍結。
這一過程有效地將CLIP和擴散模型結合成一個圖像自編碼器:CLIP編碼器將圖像壓縮為語義豐富的潛在嵌入,而基於擴散的解碼器則從這些嵌入中重建圖像。

建模潛在圖像表示
在獲得連續的圖像嵌入後,研究團隊使用自回歸架構對其進行建模。
給定用戶提示(比如「一個戴著草帽的年輕雀斑女子」),研究團隊首先使用自回歸模型的輸入嵌入層將提示編碼為嵌入向量序列𝐂 ,並將可學習的查詢向量𝐐附加到𝐂 ,其中𝐐是隨機初始化並在訓練中優化的。
當組合序列[𝐂;𝐐]通過自回歸Transformer處理時, 𝐐學會關注並從提示𝐂中提取相關的語義信息。
生成的𝐐被解釋為由自回歸模型生成的中間視覺特徵或潛在表示,並被訓練以逼近真實圖像特徵𝐗。
接下來,研究團隊介紹兩個訓練目標並進行了對比:均方誤差和流匹配,使𝐐與真實圖像嵌入𝐗對齊。
均方誤差(MSE)
均方誤差損失是一個簡單且廣泛使用的連續圖像嵌入學習目標。
給定由自回歸模型生成的預測視覺特徵𝐐和真實圖像特徵𝐗 ,研究團隊首先應用一個可學習的線性投影來對齊𝐐和𝐗的維度。然後將MSE損失公式化為:

其中𝐖表示可學習的投影矩陣。
流匹配(Flow Matching )
僅使用MSE損失只能使預測的圖像特徵𝐐與目標分佈的均值對齊。理想的訓練目標應能建模連續圖像表示的概率分佈。
研究團隊建議使用流匹配FlowMatching,這是一種擴散框架,可以通過迭代地從前一個分佈(例如高斯分佈)中傳輸樣本,從目標連續分佈中采樣。
給定一個真實圖像特徵𝐗1和由自回歸模型編碼的條件𝐐 ,在每個訓練步驟中,研究團隊采樣一個時間步 t∼𝒰(0,1) 和噪聲 𝐗0∼𝒩(0,1) 。
DiT學習在𝐐條件下,在𝐗1方向上預測時間步t處的速度
研究團隊通過𝐗0和𝐗1之間的簡單線性插值來計算𝐗t:

而𝐕t的解析解可以表示為:

最後,訓練目標定義為:

其中θ是擴散變換器的參數,而𝐕θ(𝐗t,𝐐,t) 表示基於實例 (𝐗1,𝐐) 、時間步t和噪聲𝐗0預測的速度。
與離散標記不同,離散標記天生支持基於采樣的策略來探索多樣的生成路徑,而連續表示缺乏這一屬性。
具體來說,在基於MSE的訓練目標下,對於給定的提示,預測的視覺特徵𝐐幾乎變得確定性。
因此,無論視覺解碼器是基於VAE還是CLIP+Diffusion架構,輸出圖像在多次推理運行中幾乎保持相同。
這種確定性突顯了MSE的一個關鍵限制:它限制了模型為每個提示生成單一、固定的輸出,從而限制了生成多樣性。
相比之下,流匹配框架使模型能夠繼承擴散過程的隨機性。這使得模型能夠在相同的提示條件下生成多樣化的圖像樣本,從而有助於更廣泛地探索輸出空間。
然而,這種靈活性是以增加模型複雜性為代價的。與MSE相比,流匹配引入了額外的可學習參數。
在研究團隊的實現過程中,研究團隊使用了擴散Transformer(DiT),通過經驗發現增加其容量可以顯著提高性能。

設計選擇
統一多模態模型中圖像生成的三種設計選擇。
所有設計都使用自回歸+擴散框架,但其圖像生成組件各不相同。
對於流匹配損失,研究團隊保持自回歸模型凍結,僅微調圖像生成模塊以保留模型的語言能力。

CLIP+MSE
研究團隊使用CLIP將圖像編碼為64個固定長度的語義豐富的視覺嵌入。如上圖 (a) 所示。在推理過程中,給定文本提示,自回歸模型預測潛在的視覺特徵,隨後將其傳遞給基於擴散的視覺解碼器以重建真實圖像。
CLIP+流匹配
作為一種替代MSE損失的方法,研究團隊使用流匹配損失來訓練模型以預測真實CLIP嵌入,如上圖 (b)所示。
本質上,推理流程包括兩個擴散階段:第一階段使用條件視覺特徵𝐐逐步去噪為CLIP嵌入。
第二階段通過基於擴散的視覺解碼器將這些CLIP嵌入轉換為真實圖像。
這種方法允許在第一階段進行隨機采樣,從而在圖像生成中實現更大的多樣性。
VAE+流匹配
研究團隊使用流匹配損失來預測上圖 (c)中看到的真實VAE特徵。
在推理時,給定提示𝐂 ,自回歸模型生成視覺特徵𝐐。然後,以𝐐為條件並在每一步迭代去除噪聲,真實圖像由VAE解碼器生成。
VAE+MSE
因為研究團隊的重點是自回歸+擴散框架,所以研究團隊排除了VAE+MSE方法,因為它們沒有包含任何擴散模塊。
為了比較各種設計選擇,研究團隊使用Llama-3.2-1B-Instruct作為自回歸模型。研究團隊的訓練數據總計約2500萬個樣本。
下圖顯示,CLIP+流匹配在GenEval和DPG-Bench上都達到了最佳的提示對齊得分,而VAE+流匹配產生了最低(最佳)的FID,表明其具有優越的美學質量。
總體而言,研究團隊的實驗表明CLIP+流匹配是最有效的設計選擇。

統一多模態下的訓練策略
在圖像生成研究基礎上,下一步是開發一個統一的模型,該模型可以同時執行圖像理解和圖像生成。
使用CLIP + Flow Matching進行圖像生成模塊的開發。由於圖像理解也在CLIP的嵌入空間中運行,在相同的語義空間內對齊這兩個任務,從而實現它們的統一。
在此背景下,團隊討論了兩種訓練策略。

聯合訓練
聯合訓練圖像理解和圖像生成是最為常見做法,這些方法採用了不同的圖像生成架構,但都通過混合用於圖像生成和理解的數據來進行多任務學習。
序列訓練
與其同時訓練圖像理解和生成,研究團隊採用兩階段方法。在第一階段,研究團隊僅訓練圖像理解模塊。在第二階段,研究團隊凍結MLLM主幹,並僅訓練圖像生成模塊。
在聯合訓練設置中,儘管圖像理解和生成任務可能互相受益,但兩個關鍵因素影響它們的協同效應:總數據量和圖像理解和生成數據之間的數據比例。
相比之下,順序訓練提供了更大的靈活性:能夠凍結自回歸主幹並保持圖像理解能力。研究團隊可以將所有訓練能力專門用於圖像生成,避免聯合訓練中的任何任務間影響。
研究團隊最終選擇順序訓練來構建研究團隊的統一多模態模型。
BLIP3-o:先進的統一多模態模型
基於研究團隊的研究結果,研究團隊採用CLIP+Flow Matching和順序訓練來開發先進的統一多模態模型BLIP3-o。

模型架構
研究團隊開發了兩種不同大小的模型:一個是在專有數據上訓練的8B參數模型,另一個是僅使用開源數據的4B參數模型。
研究團隊跳過了圖像理解訓練階段,直接在Qwen 2.5 VL上構建研究團隊的圖像生成模塊。
在8B模型中,研究團隊凍結了Qwen2.5-VL-7B-Instruct主幹,並訓練DiT,總共 1.4B 可訓練參數。
4B模型採用了相同的圖像生成架構,但使用Qwen2.5-VL-3B-Instruct作為主幹。
研究團隊利用Lumina-Next模型的架構來構建研究團隊的DiT。Lumina-Next模型基於改進的Next-DiT架構,這是一種可擴展且高效的擴散Transformer,專為文本到圖像和一般的多模態生成而設計。

階段1:圖像生成的預訓練
對於8B模型,研究團隊將大約2500萬開源數據與額外的3000萬專有圖像結合。
所有圖像標題由Qwen2.5-VL-7B-Instruct生成,平均長度為120個標記。
為了提高對不同提示長度的泛化能力,研究團隊還包括了大約 10%(600萬)的較短標題,每個標題大約20個標記。
階段2:圖像生成的指令調優
在圖像生成預訓練階段之後,研究團隊觀察到模型在幾個方面存在幾個弱點:
• 生成複雜的人類手勢,例如一個人正在搭箭。
• 生成常見的物體,如各種水果和蔬菜。
• 生成地標,例如,金門大橋。
• 生成簡單的文本,例如在街道表面上寫著「Salesforce」。
儘管這些類別在預訓練時本應被涵蓋,但由於研究團隊的預訓練語料庫規模有限,它們沒有得到充分處理。
為瞭解決這個問題,研究團隊專門針對這些領域進行指令調優。
對於每個類別,研究團隊提示GPT-4o生成大約10k個提示-圖像對,創建一個有針對性的數據集,以提高模型處理這些情況的能力。
在圖像理解任務中,研究團隊在多個數據集上評估基準性能。如表1所示,研究團隊的BLIP3-o 8B在大多數基準測試中達到了最佳性能。

在圖像生成基準中,如表2所示,BLIP3-o 8B的GenEval得分為0.84,WISE得分為0.62,但在DPG-Bench上得分較低。
由於基於模型的DPG-Bench評估可能不可靠,研究團隊在下一節通過繼續研究補充這些結果。

研究團隊進行了一項人工評估,比較了BLIP3-o 8B和Janus Pro 7B在大約1,000個從DPG-Bench抽取的提示上的表現。

對於每個提示,標註者根據兩個指標並排比較圖像對:
-
視覺質量:看圖像是否更清晰、美觀、佈局好。
-
提示對齊:看圖像內容與文本描述是否更匹配。
每個維度都進行了兩輪評估,共約3,000次判斷。
結果顯示,BLIP3-o在視覺質量和提示對齊上都顯著優於Janus Pro,儘管後者在表2的DPG分數更高。
兩個維度的統計顯著性分別為5.05e-06和1.16e-05,說明BLIP3-o的優勢可信度非常高。
目前作為第一步,研究團隊將專注於圖像重建,將圖像輸入到圖像理解視覺編碼器中,然後通過圖像生成模型進行重建,以無縫連接圖像理解和生成。
在此能力的基礎上,研究團隊將收集指令調優數據集,以使模型適應各種下遊應用。
這篇論文系統性探索了混合自回歸與擴散架構在統一多模態建模中的應用,重點評估了圖像表示、訓練目標和訓練策略三大核心要素。
實驗顯示,CLIP特徵配合Flow Matching損失在訓練效率與生成質量方面表現最佳。
研究團隊推出了統一模型系列BLIP3-o,並構建了包含60k條指令的微調數據集BLIP3o-60k,顯著提升了模型的提示對齊能力和圖像美學質量。
該統一模型也正被拓展應用於圖像編輯、視覺對話和逐步視覺推理等任務中。
參考資料:
https://arxiv.org/html/2505.09568v1
https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
https://blip3o.salesforceresearch.ai/