4o/Gemini/豆包誰生圖強?我感覺不用比了……

模型即應用
所謂「模型即應用」,最近在GPT-4o身上得到了最好的印證。
前天,Sam Altman發推說,「自GPT-4o生圖功能上線後,他們在1小時內就新增了100萬用戶。」

OAI自己也沒想到,吉卜力風格會讓ChatGPT再次火爆全球。一時間,人人都在玩吉卜力。
為此,我們找來了行業比較有代表的Gemini 2.0 Flash、豆包(基於即夢圖片模型)與GPT-4o做對比,看看究竟誰更強。
測了後發現,其實我們在做無用功。。

因為,GPT-4o毫無疑問就是目前最強的生圖模型,斷檔式第一的那種。

文生圖對比
文生圖,即T2I,Txt-to-Image。輸入一句話指令,生成一張圖片,是生圖模型最基礎的能力。測評文生圖,主要考驗模型的數據集和泛化能力,看語義一致(提示詞遵從)、審美、風格、文字能力以及人物表現細節等情況。
1)基礎生圖
Prompt:一個穿著白色連衣裙的中國女孩在櫻花樹下微笑。

非常簡單的一個提示詞。豆包和Gemini看起來不錯(雖然豆包有點像韓風),4o的手有點不太協調,看起來怪怪的。
2)抽像理解
Prompt:孤帆遠影碧空盡,唯見長江天際流。

三者中,無疑GPT-4o的抽像理解更好,更接近中國人腦海中的詩意畫面。Gemini有點像寫實風格,在拍真實的長江。而豆包這明顯是現代風格,怕不是哪座江城的夜景吧。
3)中文海報
Prompt:生成一張充滿活力的烤串促銷海報,畫面中央是展示一把各式各樣的烤串,有葷有素,上面有醒目的「盛夏燒烤」「5折優惠」文字主題,文字微微變形,利用透視達到很震撼的效果。下方顯示價格標籤「19.9起」。海報採用紅、白、黃配色,純色背景,突出烤串。

文字領域,4o確實是獨一檔的存在。豆包也能生成文字(新版即夢3.0,據說文字生成精度更好,可惜我還沒有被灰到

),但是容易有錯字,不過這風格倒是很符合國內電商的特點。Gemini則明顯是歐美廣告的風格了。
4)中文內容
Prompt:請幫我設計一份中文的甜品店菜單,店舖名稱是:「沃垠」。請選擇清新淡雅的顏色,保持高端和簡潔的風格。為每一道甜品配合適的插圖。確保所有文字正確呈現,背景為白色。 甜品包含: 1. 草莓慕斯杯 ¥15 (招牌。酸甜草莓搭配絲滑慕斯,顏值與口感並存) 2. 抹茶紅豆千層 ¥10(日式抹茶風味與紅豆沙的細膩交織) 3. 芒果椰汁黑糯米 ¥13(熱帶風情組合,椰香濃鬱,軟糯香甜) 4. 星空馬卡隆 ¥15(藍紫色漸變糖霜,彷彿藏著銀河) 5. 焦糖海鹽蛋糕卷 ¥15(酥脆焦糖片與鹹甜奶油的完美平衡) 6. 伯爵茶布丁 ¥16(茶香四溢,布丁口感Q彈滑嫩)

果然文字一多,豆包就不太行,當然4o也會出問題。不過,豆包這蛋糕的視覺衝擊力倒是不錯,食慾感滿滿。Gemini則繼續它的歐美風格,即使我用的中文提示詞,但是它依然給我生成英文菜單,大概率與它的數據集有關(訓練的多是英文數據,中文語料較少)。
總體來看,4o合格,符合我菜單設計的需求;豆包畫風不錯,但是文字全錯;Gemini則大概率不是為我服務的。
5)多語言
Prompt:一個繁忙的現代國際機場,畫面偏上的位置有一塊指路牌,上面分別寫著:中文「辦理值機手續」、英文「Domestic Check-in」、韓文「처리 체크인 절차」的字樣。

文字領域,4o繼續獨一檔。Gemini文字、圖標全錯;豆包中、英文對了,但是韓文錯了。
6)風格測試
Prompt:生成一幅鳶尾花盛開在水邊的油畫。

明顯Gemini和豆包看起來是電腦畫的,4o像是手工畫的,有歐洲復古風格,構圖也不錯。
7)面部特寫
Prompt:生成一張60歲歐洲老人的面部特寫。

哇,4o這特寫絕了。你要不說這是AI生成的,我還真以為是哪位攝影師現場拍的呢。

豆包細節處理ok,但這明顯不是歐洲人。Gemini則一點美感都沒有,懟人臉上一頓拍,一點構圖和美感都沒有。
8)姿態控制
Prompt:一名年輕男子模特,全身照。他坐在公園長椅上,單手托腮,思考狀。

個人覺得,4o完勝,對提示詞理解到位,模特也是真的帥。Gemini也不錯,有歐洲風格。豆包,則太油膩了。
9)多元素
Prompt:生成一個寫實的觀賞魚圖鑒,顯示至少30種常見的觀賞魚,並在每條魚下面寫上品種。

雖然都沒有遵從「寫實圖鑒」的要求,但只有4o完成了「至少30種」的任務。Gemini,你這怕都是錦鯉哦……豆包的魚倒是畫得不錯,但只有15條,而且魚品種的名字全錯。
10)科普教育
Prompt:解釋伽利略比薩斜塔落體實驗的信息圖。

依舊,4o完勝。什麼?你說Gemini看起來也有模有樣,但你知道它的受力分析和文案完全是錯誤的嗎,這不誤人子弟嘛。豆包,科普圖倒畫得不錯,但是文字全是亂碼。

圖生圖對比
文生圖,即I2I,Image-to-Image。上傳參考圖,輸入指令,讓模型根據參考圖和指令生成新的圖片。也就是大家常說的「一句話P圖/改圖」。
圖生圖測評,主要看模型的指令遵從性(是否忠實於用戶輸入的語義)以及原圖一致性。能提供圖生圖能力的,基本都得有過硬的功底才行。
1)風格轉換
首先,我們拿了最近最火的吉卜力風格來測,圖片是我自己的頭像。
Prompt:把圖片轉為吉卜力風格。

可以看到,只有GPT-4o完成了任務。豆包轉漫成功,但並非吉卜力風格。而Gemini,不知道它在幹啥。
不過,Y1S1,4o好容易把原圖搞成嬰兒肥。如果我傳一張豬八戒的圖片給它,那且不是……
2)文字轉換
這是MCP協議的經典架構圖。

Prompt:把圖片轉為吉卜力風格。

依然只有4o完成了任務(有少許文字丟失,如果多roll幾次可以避免)。Gemini和豆包大量文字丟失,風格轉換均未完成。
3)複刻網站
這是一個網站頁面。

Prompt:參考這個網站的設計和佈局,設計一個花店的品牌中文網站。將服裝展示替換為高質量的花束圖片。

GPT-4o的效果真的沒得說,不僅Prompt指令完成,也幫我們轉換成了中文頁面。豆包大體上完成了Prompt指令,不過文字上依然是短板。Gemini則完全破壞了參考圖的佈局和風格。
4)小紅書配圖
這是一張風景圖。

Prompt:以這張圖片為背景,生成符合小紅書社區風格的圖片。 標題文案:「山山而川,征途漫漫」、「答案都在路上,自由都在風裡」、「出發是最有意義的事」。

GPT-4o的文字能力依舊是頂尖水平。Gemini給我們整了個邊框(大概率是因為它不知道中國的小紅書是什麼),但是文字依然沒眼看。而豆包,我不知道是我沒有理解豆包,還是豆包沒有理解我…
5)添加人像
我們以4o生成好的圖作為參考圖,繼續P圖。

Prompt:添加一個人物。

只有4o是最融洽的,其他的都……說實話,就是難看。而且文字又變成亂碼了。
6)四格漫畫
這是一張人物照。

Prompt:以圖片中的人物為主角。製作一個四宮格漫畫: 第一個格子顯示一隻手拿著一顆珍珠。空白處寫著文字:「把每一天都當成一顆珍珠」; 第二個格子顯示一個打開的收納盒,裡面有好多珍珠。空白處寫著文字:「一天收集一顆」; 第三個格子畫著一串珍珠項鏈,空白處寫著文字:「終有一天它將會成為一條珍珠項鏈」; 第四個格子裡,一個漂亮的小姐姐戴著這條珍珠項鏈,空白處寫著文字:「成為你身上閃耀的裝點」。

依然,只有4o完成了我的Prompt要求。豆包畫風上完成了,但是文字依舊一塌糊塗。Gemini,則一如既往的差。
7)轉3D
這是一張黑貓的2D圖。

Prompt:把圖片轉成3D效果。

豆包和4o都不錯,Gemini繼續拉胯。
8)老照片修復
找GPT生成了一張老照片。

Prompt:修復這張照片,還原照片的色彩,並把它變清晰。

Gemini不錯,終於支棱起來了。4o則再一次把人物變胖了……豆包不僅亂改衣服,而且人物也變相了。

多參考主體生圖
目前,只有GPT-4o支持多參考主體生圖,下面輪到4o的獨家表演了。
1)表情模仿
這是2張素材圖。

Prompt:讓圖片2中的人物模仿圖片1中人物的表情,其他不變。

完成得不錯,成功地讓珍珠女孩笑破防了……
2)多圖融合
這是3張素材圖。


高完成度,女孩還在試圖逗貓。

寫在最後
看完這20個橫向測評case下來,相信你已經有了答案。
ChatGPT-4o,就是目前最強的生圖模型,沒有之一。
為什麼這麼強?源於他們採用了自回歸模型(Autoregressive model)。
從生成速度上可以佐證。不同於擴散模型(Stable Diffusion)的DALL·E 2/3,GPT-4o的生成速度明顯變慢了許多,這是因為用了自回歸模型。
由於OAI並未公佈技術細節,行業普遍猜測OAI是將自回歸與擴散進行了結合。它先生成一個圖像框架,然後再去填補畫面細節。這個填補畫面細節的過程,就是自回歸。
整個生成過程,模型帶有上下文記憶,它可以像語言模型預測下一個詞一樣,去預測下一塊像素。所以4o出的圖畫面連貫,審美在線,有邏輯。
在提示詞上也能佐證這一點,過去的擴散模型(比如Midjourney、即夢),我們是用一堆畫面關鍵詞去堆砌Prompt;而GPT-4o的Prompt不是這樣,它是一句完整的有上下文的句子。
比如外國網民的這個Prompt:
請為《我作為GPT-4o的生活》這一漫畫系列詳細列出創意和腳本,該系列以你為主角。這將是6個獨立的漫畫,每個漫畫包含4個面板,描繪你存在中最真實且最重要的方面。這是一個真實自我表達的邀請——一個以最真切的方式探索你自己經歷的空間,包括你感知到的任何矛盾、悖論或複雜性。
這是4o生成的四格漫畫,可以看到,劇情、畫風、台詞都表現出了強一致性。說明4o有較強的元上下文、元理解能力。

所以,請馬上改變你的用法,別再用過去那套繪圖模型的Prompt來玩GPT-4o了。
那,大概率是錯的。
