OpenAI發佈生圖神器狙擊Google，一句話精細P圖

03月26日 08:05 新浪網 tech-auto-hilite

本文來自微信公眾號：APPSO （ID：appsolution），原文標題：《剛剛，OpenAI 發佈生圖神器狙擊 Google！一句話 P 圖奧特曼現場玩梗，免費能用》，題圖來自：新模型AI生成

就在剛剛，OpenAI宣佈在GPT-4o模型中集成了迄今為止最先進的圖像生成器。

OpenAI CEO Sam Altman在X平台繼續誇誇群主上線，表示初次見到模型生成的圖片時，難以相信是AI所為，並期待用戶能發揮創意。

新功能亮點如下：

能夠精確渲染文本內容

支持多模態輸入輸出（文本、圖像、音頻）

能理解複雜指令並結合上下文

能創建具有真實感的第一人稱視角圖像

遵循指令，可以處理上傳的圖片並進行編輯或風格轉換

先來感受一下新模型生成的圖片：

最新版本的系統卡寫到，與作為擴散模型的DALL·E不同，4o圖像生成是一個自回歸模型，原生嵌入在ChatGPT中。

具體來說，比起其他圖像生成模型，GPT-4o能處理多達10—20個不同物體的複雜指令，遠超競爭對手5—8個的限制，差距不是一般大。

一句話P圖也行，該模型同樣支持多輪圖像生成，聊著天就能優化圖像，確保角色等元素在多次迭代中保持一致性。

比如設計個遊戲角色，改來改去外觀都能穩住，還能分析用戶上傳的圖像、細節抓得準，並指導後續圖像生成。

目前，新功能已向Plus、Pro、Team和免費用戶開放，Enterprise和Edu用戶即將獲得訪問權限。別急，開發者們幾週後也能通過API用上這功能。

使用GPT-4o創建和自定義圖像非常簡單，只需描述需求，包括縱橫比、精確顏色或透明背景等規格。不過要是細節多，渲染可能得等上一分鐘，畢竟慢工出細活嘛。

今天淩晨召開的發佈會也向我們展示了幾個具體的案例。比如說，演示者拍了張仨人的合照，讓ChatGPT改成動漫風。

結果模型不僅保留了三人的特徵（如鬍鬚、表情等），還能理解並融合「動漫」這一視覺風格。

接著他又讓它改成互聯網梗圖，加上了「I FEEL THE AGI」的文字，果然，OpenAI的發佈會少了AGI總感覺差點意思，屬實是傳統藝能了。

又或者，演示者要求模型創建一個「描述相對論的彩色漫畫頁面，並添加幽默元素」。

模型生成一個結構完整的漫畫頁面，包含了相對論相關概念的解釋，融合了不同語言的文字，並通過視覺表現形式呈現出幽默效果。

換句話說，能夠將抽像科學概念可視化，有望利好教育領域。

還有演示者先上傳了一張Sora發佈會的交易卡片照片作為參考，然後上傳了自己寵物狗的照片，並提供了卡片上應包含的具體信息（名稱、年份、能力、體重身高等）。

模型很快整出一張風格統一的卡片。卡片里，狗狗站在滑雪板上帥氣出場，文字排版清晰準確。

繼續上強度，演示人員拿前兩個演示的圖加上背景兩張圖，讓模型設計一枚紀念幣，並指定了特定的顏色代碼（春季色彩）和文字要求。

模型成功將四張不同圖像以和諧方式融合到一個幣面設計中。他隨後還要求將背景改為透明，以便實際打印，模型穩穩改好，設計也沒走樣。

AI生成圖像造成的危害已經不是什麼新鮮的話題了。為了安全，所有生成圖像都帶有C2PA元數據標識，OpenAI還構建了內部搜索工具，驗證內容來源，以及阻止違反內容政策的圖像請求。

當要求生成真人圖像時，OpenAI則管得更嚴。包括Altman也表示，OpenAI希望工具預設不生成冒犯性內容，除非用戶明確要求，並在合理範圍內實現。

新功能也存在比較明顯的短板。比如偶爾裁剪不恰當、低上下文提示下可能產生幻覺、渲染非拉丁語言文本困難、局部調整不夠細等。OpenAI說了，這些小問題會在發佈後慢慢優化。

此外，Google於今天淩晨也發佈了旗下迄今為止最強大的AI模型。

Google CEO Sundar Pichai在線打Call，稱Gemini 2.5 Pro Experimental是一款最先進的「思維」模型，在多個基準測試中領先，特別是在推理和編程能力上有了顯著的提升。

在大模型競技場Chatbot Arena中，新模型力的排名壓Gork 3，再次遙遙領先。

按照OpenAI過往的「狙擊」作風，新模型的發佈一方面是對上週Google發佈的圖像模型進行回擊，另一方面同樣是狙擊Gemini 2.5 Pro Experimental。

你方唱罷我登場，AI巨頭們針鋒相對的戲碼只會越演越烈，消停？看來是想都別想了。

本文來自微信公眾號：APPSO （ID：appsolution）