剛剛，OpenAI 發佈生圖神器狙擊 Google！一句話 P 圖奧特曼現場玩梗，免費能用

03月26日 08:46 新浪網 tech-auto-hilite

就在剛剛，OpenAI 宣佈在 GPT-4o 模型中集成了迄今為止最先進的圖像生成器。

OpenAI CEO Sam Altman 在 X 平台繼續誇誇群主上線，表示初次見到模型生成的圖片時，難以相信是 AI 所為，並期待用戶能發揮創意。

新功能亮點如下：

能夠精確渲染文本內容

支持多模態輸入輸出(文本、圖像、音頻)

能理解複雜指令並結合上下文

能創建具有真實感的第一人稱視角圖像

遵循指令，可以處理上傳的圖片並進行編輯或風格轉換

先來感受一下新模型生成的圖片：

最新版本的系統卡寫到，與作為擴散模型的 DALL·E 不同，4o 圖像生成是一個自回歸模型，原生嵌入在 ChatGPT 中。

具體來說，比起其他圖像生成模型，GPT-4o 能處理多達 10-20 個不同物體的複雜指令，遠超競爭對手 5-8 個的限制，差距不是一般大。

一句話 P 圖也行，該模型同樣支持多輪圖像生成，聊著天就能優化圖像，確保角色等元素在多次迭代中保持一致性。

比如設計個遊戲角色，改來改去外觀都能穩住，還能分析用戶上傳的圖像、細節抓得準，並指導後續圖像生成。

目前，新功能已向 Plus、Pro、Team 和免費用戶開放，Enterprise 和 Edu 用戶即將獲得訪問權限。別急，開發者們幾週後也能通過 API 用上這功能。

附體驗鏈接：https://chatgpt.com/

使用 GPT-4o 創建和自定義圖像非常簡單，只需描述需求，包括縱橫比、精確顏色或透明背景等規格。不過要是細節多，渲染可能得等上一分鐘，畢竟慢工出細活嘛。

今天淩晨召開的發佈會也向我們展示了幾個具體的案例。比如說，演示者拍了張仨人的合照，讓 ChatGPT 改成動漫風。

結果模型不僅保留了三人的特徵（如鬍鬚、表情等），還能理解並融合「動漫」這一視覺風格。

接著他又讓它改成互聯網梗圖，加上了「I FEEL THE AGI」的文字，果然，OpenAI 的發佈會少了 AGI 總感覺差點意思，屬實是傳統藝能了。

又或者，演示者要求模型創建一個「描述相對論的彩色漫畫頁面，並添加幽默元素」。

模型生成一個結構完整的漫畫頁面，包含了相對論相關概念的解釋，融合了不同語言的文字，並通過視覺表現形式呈現出幽默效果。

換句話說，能夠將抽像科學概念可視化，有望利好教育領域。

還有演示者先上傳了一張 Sora 發佈會的交易卡片照片作為參考，然後上傳了自己寵物狗的照片，並提供了卡片上應包含的具體信息（名稱、年份、能力、體重身高等）。

模型很快整出一張風格統一的卡片。卡片里，狗狗站在滑雪板上帥氣出場，文字排版清晰準確。

繼續上強度，演示人員拿前兩個演示的圖加上背景兩張圖，讓模型設計一枚紀念幣，並指定了特定的顏色代碼（春季色彩）和文字要求。

模型成功將四張不同圖像以和諧方式融合到一個幣面設計中。他隨後還要求將背景改為透明，以便實際打印，模型穩穩改好，設計也沒走樣。

AI 生成圖像造成的危害已經不是什麼新鮮的話題了。為了安全，所有生成圖像都帶有 C2PA 元數據標識，OpenAI 還構建了內部搜索工具，驗證內容來源，以及阻止違反內容政策的圖像請求。

當要求生成真人圖像時，OpenAI 則管得更嚴。包括 Altman 也表示，OpenAI 希望工具預設不生成冒犯性內容，除非用戶明確要求，並在合理範圍內實現。

那新功能也存在比較明顯的短板。比如偶爾裁剪不恰當、低上下文提示下可能產生幻覺、渲染非拉丁語言文本困難、局部調整不夠細等。 OpenAI 說了，這些小問題會在發佈後慢慢優化。

此外，Google 於今天淩晨也發佈了旗下迄今為止最強大的 AI 模型。

Google CEO Sundar Pichai 在線打 Call，稱 Gemini 2.5 Pro Experimental 是一款最先進的「思維」模型，在多個基準測試中領先，特別是在推理和編程能力上有了顯著的提升。

在大模型競技場 Chatbot Arena 中，新模型力的排名壓 Gork 3，再次遙遙領先。

按照 OpenAI 過往的「狙擊」作風，新模型的發佈一方面是對上週 Google 發佈的圖像模型進行回擊，另一方面同樣是狙擊 Gemini 2.5 Pro Experimental。

你方唱罷我登場，AI 巨頭們針鋒相對的戲碼只會越演越烈，消停？看來是想都別想了。

本文來自微信公眾號「APPSO」，作者：發現明日產品的，36氪經授權發佈。