GPT-4o多模態生圖正式上線 – 用嘴改圖,此為王道。

今天日子是2025年3月26日。

OpenAI又是臨時發了一個直播預告。

淩晨2點要發東西。

我:??????????

當熬到2點看完了直播以後,我人都恍惚了,我怎麼好像去年5月的時候,見過這個東西?怎麼感覺特娘的我時間穿越回到1年前了?

翻了一下,果然。。。

2024年5月13號,GPT4o正式發佈,那時候的blog裡面,就說了GPT4o是一個原生多模態模型,不僅支持端到端的語音輸入輸出,其實也支持圖片的端到端輸入輸出。

只不過,這一鴿,就鴿了一年,鴿的我都快忘了GPT4o原來也支持圖片輸出的。。。

感覺是Gemini的原生多模態用嘴改圖給OpenAI逼急了,沒辦法,只能臨時加塞把這玩意掏出來。

OpenAI的發佈節奏,真的已經越來越不對勁了。

但是回到4o生圖這個產品能力本身。

雖然說節奏稀碎,可OpenAI一年後掏出的這個的產品,質量直接拉到頂,就跟DeepResearch把google的按在地上摩擦一樣。

大家雖然都是原生多模態,都可以用嘴改圖,但是GPT4o的繪圖質量,就是可以把Gemini按在地上摩擦,就是當今的王,太牛逼了。

作為200刀的pro會員,我也在第一時間,就拿到了體驗資格。

目前,有兩個渠道可以使用4o Image Generation。

一個事ChatGPT,一個是單獨的那個Sora的網站。

在ChatGPT上,當你畫圖的選項變成這個的時候,就說明用的不是Dalle3了,而是4o。

你就直接可以用嘴畫圖。

也可以,直接用嘴改圖。

但是在ChatGPT上用,有一個問題就是,即使我作為200刀的Pro會員,他居然也限我流,才生成十幾張,就給我限了,讓我7分鐘以後再用。

而在Sora上用的話,有個好處,就是速度極快,一次性可以跑4張,而且還無限用。

質量頂到飛起。

你可以把這個位置,改成image就OK了。

但是最大的問題,就是生成完以後的圖片,不能進行多輪對話修改了。

現在ChatGPT和Sora的關係,越來越像豆包和即夢的關繫了。

我從2點,跑圖跑到4點,坦率的講,我對4o的生圖質量,是非常震驚的。

比我想像的還要好。。

用過Gemini的就知道,雖然可以實現多模態改圖,但是那個生圖的質量,醜的不忍直視,能用,但是到不了生產力級別。

但是,4o可以。

我直接放一下我跑的純生圖case,改圖的case放後面。

先看生圖。

Prompt:冰霜巨龍盤踞在雪峰上,週身冰晶閃耀,龍息噴出寒氣,背景狂風席捲雪花。

Prompt:山姆奧特曼在摘棉花。

Prompt:製作一張漫畫風格的生日卡,上面寫著「我希望你今天像動漫開場中的超新星一樣閃耀!”

Prompt:創建一個索隆的女孩版動漫角色。

Prompt:創建一個包含所有元素的週期表卡通圖像。確保每個元素框都標有元素的全名(如氦或氫)。在每個元素的框中,包含一個代表該元素的卡通圖像。同時也包括一些完全隨機的物品,而不是實際的元素,彷彿是在幻覺中看到週期表的成員。

Prompt:做一個用火龍果的外皮做的蜥蜴,照片必須逼真,整個鱗片都要是火龍果。

Prompt:一張坦率的狗仔風格照片,卡爾·馬克思匆忙走過美國購物中心的停車場,回頭用驚訝的表情看著,試圖避免被拍照。他手裡抓著多個裝滿奢侈品的光滑購物袋。他的外套在風中飄動,其中一個袋子在他邁步時搖擺。模糊的背景中有汽車和發光的購物中心入口,以強調運動。相機的發亮燈部分過曝了圖像,給人一種混亂的小報感覺。

Prompt:畫一個包含機器人運動學和動力學詳細信息的海報。Prompt:畫一個包含機器人運動學和動力學詳細信息的海報。

Prompt:描繪一隻對冒煙的計算機服務器機架感到困惑的水豚。

Prompt:一隻貓用粉筆在街上寫下「我是一隻貓」的圖片。

我還有太多太多太多跑出來的圖想放給大家看了。

受限於篇幅,我只能放這麼多,我推薦你們每一個人,都去試試。

誠然,4o當然還有很多小問題,比如手指細節可能有問題,比如海報里的公式都是錯的,比如上面的元素週期表很多是不對的,比如你讓他畫中文有時候會幹出英文或者日文等等。

但是,但是,這個質量,這個自由度,這個語義理解。

讓我可以在這個階段,無視他的所有那些細小的瑕疵。

我已經很久沒有跑圖跑的興奮了,跑圖跑的不想睡覺,這樣的感覺,還在兩年前,第一次看到Midjourney v5更新的時候。

太酷了。

當然,你並不是只可以文生圖,當然也可以,圖生圖。

如今,你再也不需要什麼SD、什麼Comfyui、什麼ControlNET插件,你就可以實現很多很多效果。

效果就是這樣的,BUG就是4o無法區分句和勾:

又或者,把雷總經典手勢轉一下風格。

再或者,把拚多多的logo,改成青花風格。

又或者,把幾張圖融起來。

人物臉的一致性有一點瑕疵,但是這個融合效果,已經無敵到沒邊了。

Sora差不多就這樣,ChatGPT上也可以用,效果跟Sora一樣,反正背後都是4o,但是ChatGPT最大的好處,就是可以進行後續對話。

比如我先跑一個妹子的圖片。

Prompt:創建一幅史詩般的現實主義圖像,特寫,1 個女孩,漂浮的藍色頭髮,長髮,水滴,濕潤,手持武士刀,帶有圖案的藍色和服,超詳細。

我現在,想把她放到遊戲海報上,直接嘴說就可以。我現在,想把她放到遊戲海報上,直接嘴說就可以。

雖然在中文標題字的審美,跟即夢2.1相比還有一點差距,但是已經很好了,畢竟4o的主語言,是英文。

用嘴給圖片改色調。

用嘴改變材質。

用嘴改屏幕里的UI(雖然有點亂碼就是了)

用嘴來改性別。

還有他們自己官方跑的,幾個我覺得屌炸天的case,我覺得必須拿給大家看看。

上面這是AI直出的,甚至玻璃上的影子都是對的。。。

當年,Midjourney讓世界見識到AI畫師的潛能。

後來,Stable Diffusion把開源的火炬交到社區手裡。

再後來,Gemini顯露多模態的雛形,卻始終差點火候。

如今,GPT4o原生多模態橫空出世,用幾乎成熟得可怕的質量,宣佈了圖像生成的新紀元。

如此高的生成質量,如此絲滑的多模態對話,已經不是能不能用的問題,而是能否徹底改變現有的AI繪圖生態。

以及人們,做AI繪圖的交互方式。

這是AI時代,也是我們的時代。

最後,說句題外話。

今天除了GPT-4o原生多模態上線,同時也是Gemini 2.5 pro發佈。

然後,當4o發了之後。

我的X上的時間線。。。

就幾乎全部被4o出圖攻佔了。

Gemini 2.5 Pro這一次,還是沒搶過GPT-4o。

1.5 Pro被Sora淹,2.5 Pro被4o淹。

真的,聽哥一句勸。

要不然以後咱就別發Pro,改個名叫Ultra吧。

你說好不。。。