GPT-4o圖像生成今起免費!奧特曼坐鎮緊急發佈,指令遵循/文本控製表現驚豔

一水 發自 凹非寺

量子位 | 公眾號 QbitAI

OpenAI全量開放GPT-4o圖像生成能力,這回免費用戶第一時間上車!

即日起在ChatGPT和Sora中,向所有Plus、Pro、Team和免費用戶推出。

一夜之間,各種實測結果刷屏。最驚豔的莫過於對文本的處理能力。

比如,4o可以100%還原文字內容,且指定文字擺放位置。

男人右手舉著「a few」,左手舉著「words」

還能像連續劇一樣,一邊準確生成文字,一邊變換人物動作。

仔細對比兩張圖,第一張白板中的男人倒影和第二張圖也對應上了。

昨晚OpenAI突然宣佈要開個小直播發佈,這回奧特曼出現了(前情:GPT-4.5發佈時他由於帶娃沒來)

直播中展示了各種玩法,比如製作梗圖、文本渲染、多輪交互生成和指令遵循等。

直接現場哢嚓一張自拍,然後立馬轉成動漫風格。

順帶官方玩梗製作meme圖,要求在圖片中添加「feel the agi」。(沒錯,生成時還知道將小寫換成更符合的大寫)

現在,打開ChatGPT,即可嘗試這些能力。

實測生成速度很快(大約十幾秒一張),但普通用戶每天僅有3次體驗機會。

API預計將在未來幾週內逐步推出。

這波主打一個美觀又實用

我們終於邁向了這種真正集成的多模態模型。

按照官方介紹,作為多模態模型的4o現在終於補齊了一塊重要拚圖——圖片生成。

而且主打一個美觀實用兩手抓。

話不多說,我們直接來看其能力升級的具體表現。

各項能力大升級

首先,OpenAI表示4o現在能精確融合符號和圖片了。

比如直接給一段文字,然後生成一張製作精美的菜單:

而且支持在多輪對話中逐步調整圖片內容和風格。

類似下面這樣,提供一張貓貓原圖,然後一步步創建一個遊戲角色:

此外還非常注重細節,官方稱4o可以處理多達10-20個不同的物體,而其他模型一般在處理5-8個物體時就會遇到困難。

除了上述,4o在生成真實圖像方面也表現出色。

連現實版「照貓畫虎」也有了(doge):

網民實測ing

看完官方宣傳效果,網民們也趕緊來了一波實測~

經典梗圖第一時間申請出戰,畫面還真毫無違和感hhh。

甚至,複現同款書寫圖也是不在話下:

One More Thing

話說最近這兩天也過於熱鬧了,DeepSeek、OpenAI和Google幾乎同台開戰。

值得一提的是,昨晚11點(香港時間)OpenAI突然宣佈將有小發佈,而DeepSeek剛剛發佈了DeepSeek-v3-0324的官方技術報告。

不知道是不是被DS逼出來的新發佈呢?(doge)

參考鏈接:

[1]https://openai.com/index/introducing-4o-image-generation/

[2]https://x.com/chatgpt21/status/1904683763914674208