GPT-4o多模態生圖正式上線 – 用嘴改圖，此為王道。

03月26日 06:08 新浪網 tech-auto-hilite

今天日子是2025年3月26日。

OpenAI又是臨時發了一個直播預告。

淩晨2點要發東西。

我：？？？？？？？？？？

當熬到2點看完了直播以後，我人都恍惚了，我怎麼好像去年5月的時候，見過這個東西？怎麼感覺特娘的我時間穿越回到1年前了？

翻了一下，果然。。。

2024年5月13號，GPT4o正式發佈，那時候的blog裡面，就說了GPT4o是一個原生多模態模型，不僅支持端到端的語音輸入輸出，其實也支持圖片的端到端輸入輸出。

只不過，這一鴿，就鴿了一年，鴿的我都快忘了GPT4o原來也支持圖片輸出的。。。

感覺是Gemini的原生多模態用嘴改圖給OpenAI逼急了，沒辦法，只能臨時加塞把這玩意掏出來。

OpenAI的發佈節奏，真的已經越來越不對勁了。

但是回到4o生圖這個產品能力本身。

雖然說節奏稀碎，可OpenAI一年後掏出的這個的產品，質量直接拉到頂，就跟DeepResearch把google的按在地上摩擦一樣。

大家雖然都是原生多模態，都可以用嘴改圖，但是GPT4o的繪圖質量，就是可以把Gemini按在地上摩擦，就是當今的王，太牛逼了。

作為200刀的pro會員，我也在第一時間，就拿到了體驗資格。

目前，有兩個渠道可以使用4o Image Generation。

一個事ChatGPT，一個是單獨的那個Sora的網站。

在ChatGPT上，當你畫圖的選項變成這個的時候，就說明用的不是Dalle3了，而是4o。

你就直接可以用嘴畫圖。

也可以，直接用嘴改圖。

但是在ChatGPT上用，有一個問題就是，即使我作為200刀的Pro會員，他居然也限我流，才生成十幾張，就給我限了，讓我7分鐘以後再用。

而在Sora上用的話，有個好處，就是速度極快，一次性可以跑4張，而且還無限用。

質量頂到飛起。

你可以把這個位置，改成image就OK了。

但是最大的問題，就是生成完以後的圖片，不能進行多輪對話修改了。

現在ChatGPT和Sora的關係，越來越像豆包和即夢的關繫了。

我從2點，跑圖跑到4點，坦率的講，我對4o的生圖質量，是非常震驚的。

比我想像的還要好。。

用過Gemini的就知道，雖然可以實現多模態改圖，但是那個生圖的質量，醜的不忍直視，能用，但是到不了生產力級別。

但是，4o可以。

我直接放一下我跑的純生圖case，改圖的case放後面。

先看生圖。

Prompt：冰霜巨龍盤踞在雪峰上，週身冰晶閃耀，龍息噴出寒氣，背景狂風席捲雪花。

Prompt：山姆奧特曼在摘棉花。

Prompt：製作一張漫畫風格的生日卡，上面寫著「我希望你今天像動漫開場中的超新星一樣閃耀！”

Prompt：創建一個索隆的女孩版動漫角色。

Prompt：創建一個包含所有元素的週期表卡通圖像。確保每個元素框都標有元素的全名（如氦或氫）。在每個元素的框中，包含一個代表該元素的卡通圖像。同時也包括一些完全隨機的物品，而不是實際的元素，彷彿是在幻覺中看到週期表的成員。

Prompt：做一個用火龍果的外皮做的蜥蜴，照片必須逼真，整個鱗片都要是火龍果。

Prompt：一張坦率的狗仔風格照片，卡爾·馬克思匆忙走過美國購物中心的停車場，回頭用驚訝的表情看著，試圖避免被拍照。他手裡抓著多個裝滿奢侈品的光滑購物袋。他的外套在風中飄動，其中一個袋子在他邁步時搖擺。模糊的背景中有汽車和發光的購物中心入口，以強調運動。相機的發亮燈部分過曝了圖像，給人一種混亂的小報感覺。

Prompt：畫一個包含機器人運動學和動力學詳細信息的海報。

Prompt：畫一個包含機器人運動學和動力學詳細信息的海報。

Prompt：描繪一隻對冒煙的計算機服務器機架感到困惑的水豚。

Prompt：一隻貓用粉筆在街上寫下「我是一隻貓」的圖片。

我還有太多太多太多跑出來的圖想放給大家看了。

受限於篇幅，我只能放這麼多，我推薦你們每一個人，都去試試。

誠然，4o當然還有很多小問題，比如手指細節可能有問題，比如海報里的公式都是錯的，比如上面的元素週期表很多是不對的，比如你讓他畫中文有時候會幹出英文或者日文等等。

但是，但是，這個質量，這個自由度，這個語義理解。

讓我可以在這個階段，無視他的所有那些細小的瑕疵。

我已經很久沒有跑圖跑的興奮了，跑圖跑的不想睡覺，這樣的感覺，還在兩年前，第一次看到Midjourney v5更新的時候。

太酷了。

當然，你並不是只可以文生圖，當然也可以，圖生圖。

如今，你再也不需要什麼SD、什麼Comfyui、什麼ControlNET插件，你就可以實現很多很多效果。

效果就是這樣的，BUG就是4o無法區分句和勾：

又或者，把雷總經典手勢轉一下風格。

再或者，把拚多多的logo，改成青花風格。

又或者，把幾張圖融起來。

人物臉的一致性有一點瑕疵，但是這個融合效果，已經無敵到沒邊了。

Sora差不多就這樣，ChatGPT上也可以用，效果跟Sora一樣，反正背後都是4o，但是ChatGPT最大的好處，就是可以進行後續對話。

比如我先跑一個妹子的圖片。

Prompt：創建一幅史詩般的現實主義圖像，特寫，1 個女孩，漂浮的藍色頭髮，長髮，水滴，濕潤，手持武士刀，帶有圖案的藍色和服，超詳細。

我現在，想把她放到遊戲海報上，直接嘴說就可以。

我現在，想把她放到遊戲海報上，直接嘴說就可以。

雖然在中文標題字的審美，跟即夢2.1相比還有一點差距，但是已經很好了，畢竟4o的主語言，是英文。

用嘴給圖片改色調。

用嘴改變材質。

用嘴改屏幕里的UI（雖然有點亂碼就是了）

用嘴來改性別。

還有他們自己官方跑的，幾個我覺得屌炸天的case，我覺得必須拿給大家看看。

上面這是AI直出的，甚至玻璃上的影子都是對的。。。

當年，Midjourney讓世界見識到AI畫師的潛能。

後來，Stable Diffusion把開源的火炬交到社區手裡。

再後來，Gemini顯露多模態的雛形，卻始終差點火候。

如今，GPT4o原生多模態橫空出世，用幾乎成熟得可怕的質量，宣佈了圖像生成的新紀元。

如此高的生成質量，如此絲滑的多模態對話，已經不是能不能用的問題，而是能否徹底改變現有的AI繪圖生態。

以及人們，做AI繪圖的交互方式。

這是AI時代，也是我們的時代。

最後，說句題外話。

今天除了GPT-4o原生多模態上線，同時也是Gemini 2.5 pro發佈。

然後，當4o發了之後。

我的X上的時間線。。。

就幾乎全部被4o出圖攻佔了。

Gemini 2.5 Pro這一次，還是沒搶過GPT-4o。

1.5 Pro被Sora淹，2.5 Pro被4o淹。

真的，聽哥一句勸。

要不然以後咱就別發Pro，改個名叫Ultra吧。

你說好不。。。