科技

4o/Gemini/豆包誰生圖強？我感覺不用比了……

04月03日 21:17 新浪網 tech-auto-hilite

模型即應用

所謂「模型即應用」，最近在GPT-4o身上得到了最好的印證。

前天，Sam Altman發推說，「自GPT-4o生圖功能上線後，他們在1小時內就新增了100萬用戶。」

OAI自己也沒想到，吉卜力風格會讓ChatGPT再次火爆全球。一時間，人人都在玩吉卜力。

為此，我們找來了行業比較有代表的Gemini 2.0 Flash、豆包（基於即夢圖片模型）與GPT-4o做對比，看看究竟誰更強。

測了後發現，其實我們在做無用功。。

因為，GPT-4o毫無疑問就是目前最強的生圖模型，斷檔式第一的那種。

文生圖對比

文生圖，即T2I，Txt-to-Image。輸入一句話指令，生成一張圖片，是生圖模型最基礎的能力。測評文生圖，主要考驗模型的數據集和泛化能力，看語義一致（提示詞遵從）、審美、風格、文字能力以及人物表現細節等情況。

1）基礎生圖

Prompt：一個穿著白色連衣裙的中國女孩在櫻花樹下微笑。

非常簡單的一個提示詞。豆包和Gemini看起來不錯（雖然豆包有點像韓風），4o的手有點不太協調，看起來怪怪的。

2）抽像理解

Prompt：孤帆遠影碧空盡，唯見長江天際流。

三者中，無疑GPT-4o的抽像理解更好，更接近中國人腦海中的詩意畫面。Gemini有點像寫實風格，在拍真實的長江。而豆包這明顯是現代風格，怕不是哪座江城的夜景吧。

3）中文海報

Prompt：生成一張充滿活力的烤串促銷海報，畫面中央是展示一把各式各樣的烤串，有葷有素，上面有醒目的「盛夏燒烤」「5折優惠」文字主題，文字微微變形，利用透視達到很震撼的效果。下方顯示價格標籤「19.9起」。海報採用紅、白、黃配色，純色背景，突出烤串。

文字領域，4o確實是獨一檔的存在。豆包也能生成文字（新版即夢3.0，據說文字生成精度更好，可惜我還沒有被灰到

），但是容易有錯字，不過這風格倒是很符合國內電商的特點。Gemini則明顯是歐美廣告的風格了。

4）中文內容

Prompt：請幫我設計一份中文的甜品店菜單，店舖名稱是：「沃垠」。請選擇清新淡雅的顏色，保持高端和簡潔的風格。為每一道甜品配合適的插圖。確保所有文字正確呈現，背景為白色。甜品包含： 1. 草莓慕斯杯￥15 （招牌。酸甜草莓搭配絲滑慕斯，顏值與口感並存） 2. 抹茶紅豆千層￥10（日式抹茶風味與紅豆沙的細膩交織） 3. 芒果椰汁黑糯米￥13（熱帶風情組合，椰香濃鬱，軟糯香甜） 4. 星空馬卡隆￥15（藍紫色漸變糖霜，彷彿藏著銀河） 5. 焦糖海鹽蛋糕卷￥15（酥脆焦糖片與鹹甜奶油的完美平衡） 6. 伯爵茶布丁￥16（茶香四溢，布丁口感Q彈滑嫩）

果然文字一多，豆包就不太行，當然4o也會出問題。不過，豆包這蛋糕的視覺衝擊力倒是不錯，食慾感滿滿。Gemini則繼續它的歐美風格，即使我用的中文提示詞，但是它依然給我生成英文菜單，大概率與它的數據集有關（訓練的多是英文數據，中文語料較少）。

總體來看，4o合格，符合我菜單設計的需求；豆包畫風不錯，但是文字全錯；Gemini則大概率不是為我服務的。

5）多語言

Prompt：一個繁忙的現代國際機場，畫面偏上的位置有一塊指路牌，上面分別寫著：中文「辦理值機手續」、英文「Domestic Check-in」、韓文「처리 체크인 절차」的字樣。

文字領域，4o繼續獨一檔。Gemini文字、圖標全錯；豆包中、英文對了，但是韓文錯了。

6）風格測試

Prompt：生成一幅鳶尾花盛開在水邊的油畫。

明顯Gemini和豆包看起來是電腦畫的，4o像是手工畫的，有歐洲復古風格，構圖也不錯。

7）面部特寫

Prompt：生成一張60歲歐洲老人的面部特寫。

哇，4o這特寫絕了。你要不說這是AI生成的，我還真以為是哪位攝影師現場拍的呢。

豆包細節處理ok，但這明顯不是歐洲人。Gemini則一點美感都沒有，懟人臉上一頓拍，一點構圖和美感都沒有。

8）姿態控制

Prompt：一名年輕男子模特，全身照。他坐在公園長椅上，單手托腮，思考狀。

個人覺得，4o完勝，對提示詞理解到位，模特也是真的帥。Gemini也不錯，有歐洲風格。豆包，則太油膩了。

9）多元素

Prompt：生成一個寫實的觀賞魚圖鑒，顯示至少30種常見的觀賞魚，並在每條魚下面寫上品種。

雖然都沒有遵從「寫實圖鑒」的要求，但只有4o完成了「至少30種」的任務。Gemini，你這怕都是錦鯉哦……豆包的魚倒是畫得不錯，但只有15條，而且魚品種的名字全錯。

10）科普教育

Prompt：解釋伽利略比薩斜塔落體實驗的信息圖。

依舊，4o完勝。什麼？你說Gemini看起來也有模有樣，但你知道它的受力分析和文案完全是錯誤的嗎，這不誤人子弟嘛。豆包，科普圖倒畫得不錯，但是文字全是亂碼。

圖生圖對比

文生圖，即I2I，Image-to-Image。上傳參考圖，輸入指令，讓模型根據參考圖和指令生成新的圖片。也就是大家常說的「一句話P圖/改圖」。

圖生圖測評，主要看模型的指令遵從性（是否忠實於用戶輸入的語義）以及原圖一致性。能提供圖生圖能力的，基本都得有過硬的功底才行。

1）風格轉換

首先，我們拿了最近最火的吉卜力風格來測，圖片是我自己的頭像。

Prompt：把圖片轉為吉卜力風格。

可以看到，只有GPT-4o完成了任務。豆包轉漫成功，但並非吉卜力風格。而Gemini，不知道它在幹啥。

不過，Y1S1，4o好容易把原圖搞成嬰兒肥。如果我傳一張豬八戒的圖片給它，那且不是……

2）文字轉換

這是MCP協議的經典架構圖。

Prompt：把圖片轉為吉卜力風格。

依然只有4o完成了任務（有少許文字丟失，如果多roll幾次可以避免）。Gemini和豆包大量文字丟失，風格轉換均未完成。

3）複刻網站

這是一個網站頁面。

Prompt：參考這個網站的設計和佈局，設計一個花店的品牌中文網站。將服裝展示替換為高質量的花束圖片。

GPT-4o的效果真的沒得說，不僅Prompt指令完成，也幫我們轉換成了中文頁面。豆包大體上完成了Prompt指令，不過文字上依然是短板。Gemini則完全破壞了參考圖的佈局和風格。

4）小紅書配圖

這是一張風景圖。

Prompt：以這張圖片為背景，生成符合小紅書社區風格的圖片。標題文案：「山山而川，征途漫漫」、「答案都在路上，自由都在風裡」、「出發是最有意義的事」。

GPT-4o的文字能力依舊是頂尖水平。Gemini給我們整了個邊框（大概率是因為它不知道中國的小紅書是什麼），但是文字依然沒眼看。而豆包，我不知道是我沒有理解豆包，還是豆包沒有理解我…

5）添加人像

我們以4o生成好的圖作為參考圖，繼續P圖。

Prompt：添加一個人物。

只有4o是最融洽的，其他的都……說實話，就是難看。而且文字又變成亂碼了。

6）四格漫畫

這是一張人物照。

Prompt：以圖片中的人物為主角。製作一個四宮格漫畫：第一個格子顯示一隻手拿著一顆珍珠。空白處寫著文字：「把每一天都當成一顆珍珠」；第二個格子顯示一個打開的收納盒，裡面有好多珍珠。空白處寫著文字：「一天收集一顆」；第三個格子畫著一串珍珠項鏈，空白處寫著文字：「終有一天它將會成為一條珍珠項鏈」；第四個格子裡，一個漂亮的小姐姐戴著這條珍珠項鏈，空白處寫著文字：「成為你身上閃耀的裝點」。