GPT-4o圖像生成架構被「破解」了?自回歸主幹+擴散解碼器,還有4o圖像生成全面測評基準
4o圖像生成的架構底層邏輯到底是什麼?GPT-4o究竟強在哪?存在哪些短板?
作為解答,北京大學、中山大學等多家科研機構共同推出GPT-ImgEval,首次系統評估了GPT-4o在圖像生成上的真實表現。
這份量化評估基準不僅囊括了生成質量、編輯能力和知識推理,還嘗試揭示GPT-4o背後的可能架構,還探討了它生成圖像的可檢測性問題。

下面具體來看。
GPT-4o架構揭秘:可能使用了擴散+自回歸混合方案
GPT-ImgEval團隊嘗試「反向破解」GPT-4o的圖像生成架構。
研究團隊在論文中提出了4種候選架構方案(見下圖),儘管細節略有不同,但有一點是一致的:GPT-4o很可能採用的是自回歸主幹+擴散頭的混合結構。
通俗來說,它的工作流程可能是這樣的:文本或指令→ 自回歸模塊理解語義 → 生成中間視覺Token → 擴散模型將這些Token解碼成圖像。

當然,架構猜測不能僅靠想像。為此,研究團隊設計了一套嚴謹的實證方法:
-
先選取一組統一的文本提示(prompt),分別使用自回歸模型(VAR)和擴散模型(Diffusion)各自生成1萬張圖像作為對比樣本;
-
利用這些圖像訓練一個二分類器,讓它學會識別圖像是「AR風格」還是「Diffusion風格」;
-
然後,用同樣的Prompt交給GPT-4o生成圖像,將這些圖像輸入該分類器進行識別。
也就是說,整個過程中,提示詞保持完全一致,只看不同模型生成的圖像「長得像誰」,以此判斷GPT-4o的生成方式更接近哪類結構。
結果很直接:GPT-4o生成的圖像幾乎全部被識別為「擴散風格」,這就從圖像風格維度驗證了GPT-4o的確可能用了擴散模型作為解碼器。

除了對視覺解碼器的分析,研究人員也深入探討了視覺編碼方式。他們指出,一些研究(如UniTok)認為基於向量量化(VQ)的編碼器可能會削弱模型的語義理解能力。
因此,作者認為如果採用了pixel encoder,其大概率是連續(非VQ)的而不是離散(VQ)的,並基於此提出了四種可能的完整架構示意圖。

三大維度全面評估GPT-4o圖像能力
GPT-ImgEval聚焦三類核心任務,對GPT-4o進行了系統評估:
-
文本生成圖像(GenEval):通過對物體數量、顏色、位置、組合屬性等細粒度維度進行測評,驗證模型對文本的理解與圖像的構造能力。
-
指令編輯圖像(Reason-Edit):模擬用戶給出修改指令後,模型在保留圖像語義基礎上進行局部編輯的能力,如替換、刪除、變色等。
-
基於世界知識的語義合成(WISE):考察模型是否能將對世界常識、文化背景、科學原理等知識真正「顯性化」為圖像輸出。
為了支持這一系統評估,研究團隊開發了一套針對GPT-4o的自動化交互腳本,解決了當前該模型尚未開放圖像生成API的現實問題。
這套腳本直接與GPT-4o網頁界面交互,模擬真實用戶行為:
-
自動輸入提示詞(Prompt)、點擊提交
-
自動抓取生成圖像並存儲歸檔
-
每次請求會新開瀏覽器窗口,確保不同任務之間上下文不相互干擾
-
支持任務批量運行,可實現大規模、可重覆的圖像生成任務調度
最終,GPT-ImgEval的整體工作流如下圖所示:

在文本生成圖像(GenEval)任務中,GPT-4o取得了0.84的總得分,超越目前所有擴散類與自回歸類圖像生成模型。
尤其在以下幾項中表現突出:數量控制(0.85)、顏色綁定(0.92)、空間位置(0.75)、屬性組合(0.61)。

下圖是一些GPT-4o使用GenEval基準中的prompt生圖的具體例子:

而在圖像編輯任務(Reason-Edit)中,GPT-4o得分高達0.929,領先第二名超過0.35,說明其在指令理解和局部控制上表現極其穩定。


在知識合成(WISE)任務中,GPT-4o同樣大放異彩,多個子維度(生物、文化、物理等)得分均超過0.9,總分0.89,遠高於當前開源模型(普遍在0.4~0.5之間)。
這說明GPT-4o具有強大的世界知識和推理能力,這應該是得益於GPT-4o這種統一多模態框架。


更多研究結論
GPT-4o vs Gemini 2.0 Flash:多輪編輯對比
研究團隊還對GPT-4o與Google的Gemini 2.0 Flash進行了多輪圖像編輯對比。
除了性能與架構機制,GPT-4o在實際的使用體驗中也展現出了強勁的競爭力。研究團隊對其與Google最新發佈的 Gemini 2.0 Flash 進行了多輪編輯任務的實測對比。
-
GPT-4o支持完整的多輪對話式編輯流程,上下文一致性強
-
Gemini響應速度更快,但每輪需重新上傳圖像,缺乏連續性
-
在連續修改、複雜指令理解、圖像語義保持方面,GPT-4o表現出更高的穩定性
從整體趨勢來看,兩者在編輯輪數增加後均出現一致性下降,但GPT-4o下降更緩,保持更穩。
GPT-4o與Gemini 2.0 Flash多輪編輯一致性對比如下圖所示:

這一對比結果也進一步驗證了:融合大模型語義理解能力的圖像生成系統,在交互式創作任務中,正在展現出壓倒性優勢。
GPT-4o仍存五大問題,圖像量化評估並非無解
研究團隊總結出GPT-4o當前的五個常見生成難點:
-
無法嚴格保持原圖尺寸與邊框比例,有時會自動裁切或縮放
-
強製銳化,即使用戶要求生成模糊圖,也會被模型「優化」成高清
-
編輯偏暖、全圖色調變化,即使只修改小部分,可能全圖色調甚至是全局都會被一定程度修改
-
複雜場景失真,多人或人-物體交互場景易出現姿態不自然或結構錯亂
-
非英文文本支持較弱,如中文標識常出錯,難以在複雜背景準確生成
這些問題不僅影響使用體驗,也提示我們——GPT-4o仍在追求「自然感」與「精確控制」之間尋找平衡。

這些圖像能被檢測出來嗎?
除了感知層面的觀察和評估,研究團隊進一步思考一個關鍵問題:GPT-4o生成的圖像,是否真的可以「以假亂真」?
為此,研究者使用多個主流圖像取證模型,對GPT-4o生成的圖像進行了系統性評估。
結果顯示,包括Effort、FakeVLM在內的多種檢測器,對GPT-4o圖像的識別準確率普遍超過95%,最高接近99.6%。

不僅僅停留在數值層面,研究團隊還對量化評估成功的原因進行了機制層面的歸因分析:
-
GPT-4o可能在圖像生成過程中引入了超解像度模塊,通過上采樣插值導致明顯偽影
-
模型有過度銳化與細節增強傾向,視覺效果雖然「精緻」,卻留下了被取證模型捕捉的痕跡
-
在用戶未要求修改時,仍可能出現尺寸、色彩的隱性變化,破壞了圖像一致性
-
GPT-4o生成圖像色調普遍偏暖,整體風格趨同,易被量化評估模型建立「風格識別模式」
可量化評估,並非弱點,而是AIGC安全設計的基線能力
研究團隊認為,是否可量化評估,不應成為衡量生成模型能力強弱的標準,而應被視為評估其可控性與安全性的重要指標。
在未來的AIGC系統設計中,「逼真」固然重要,但「可識別」、「可追蹤」同樣不可或缺。GPT-4o生成圖像中的偽影、色彩偏好等特徵,也正是推動生成量化評估研究的重要突破口。
這也正是GPT-ImgEval的差異化亮點之一:不僅做量化評估,更從安全機制的角度進行深入診斷和賽前分析探索。
GPT-4o很強,但「終局」遠未到來
GPT-ImgEval不僅驗證了GPT-4o在圖像生成上的優勢,更指出了它仍需突破的短板。尤其是在可控性、多語種處理、局部編輯穩定性等方面,仍有不少提升空間。
GPT-ImgEval不僅系統性驗證了GPT-4o在圖像生成、圖像編輯與知識合成三大任務中的領先表現,更進一步揭示了其架構特徵、失敗模式與安全邊界。
該研究不僅在評測維度上實現了覆蓋廣泛、量化精準,也從架構判別、編輯可控性、多輪理解能力和偽影檢測等多個層面,對GPT-4o進行了技術全景式診斷。
研究團隊認為,該工作的重要意義在於:
1、提供系統化多模態評估範式:首次從「生成-編輯-推理」全流程出發,建立綜合圖像能力測試框架;
2、推動閉源模型的「可解釋評測」研究:在無法訪問模型細節的前提下,建立架構猜測和行為歸因機制;
3、強調通用多輪編輯場景的實用價值:用用戶視角驗證語義理解一致性與細節保真性,為交互設計落地提供參考;
4、補齊圖像生成安全性研究缺口:通過可檢測性實證,發現圖像中的上采樣/超分偽影、色彩特徵,推動AIGC取證技術演進。
更多細節歡迎查閱原論文。
論文地址:
https://arxiv.org/pdf/2406.19435
代碼鏈接:
https://github.com/PicoTrex/GPT-ImgEval
數據集下載:
https://huggingface.co/datasets/Yejy53/GPT-ImgEval
一鍵三連「點讚」「轉發」「小心心」
歡迎在評論區留下你的想法!