OpenAI和Google同日地震級更新：人間一夜，AGI 臨近

03月26日 08:09 新浪網 tech-auto-hilite

誰是明日AI之星？

2024年，Google想奪回AI場子，但總是被OpenAI攪局。

每次一宣佈某日要開發佈會，OpenAI就會提前發佈實力更強的產品。導致每次Google的AI產品發佈會都特別尷尬。

2025年的Google學聰明了，發佈AI產品不再大張旗鼓，而是偷偷滴直接上線。這次今晚又沒任何預熱，Google直接上線了Gemini 2.5 Pro模型。

這是一款會推理的混合大模型，實力超越GPT4.5和Grok3 ，最大特點是能夠模仿人類快慢思考，這不是堪比GPT-5前奏嗎？而它就這麼不聲不響上線了。

就在大家以為盛譽會屬於Google時，OpenAI又在Twitter上宣佈：

太平洋時間上午11點直播。最終OpenAI發佈了GPT-4o image generation，圖像生成技術模型。

具有媲美人類攝影的出圖質量，隨心所欲的構圖以及細節處理，超乎尋常的圖文理解，以及任意的圖中文字和LOGO生成的特性，也是在X上引起一片歡呼。

深夜2點多，鯨哥還沒睡覺，看到朋友圈很多人發北京地震了。於是我寫下如此朋友圈：

並沒有感受到北京地震，但此刻，正在被Google和OpenAI天雷勾地火的競爭震撼。熟睡中的普羅大眾，並不知道在這一夜中，在通往AGI 之路上，人類又躍進了一大步！

無心睡眠，向AGI前進一大步

Gemini 2.5炸裂出場，首個類人大模型

Gemini 2.5 Pro 實驗版這次很炸裂，Gemini 2.5 號稱可以處理更複雜的編程、科學和數學問題，並支持更具有情境感知能力的智能體。

這個新的「思考模型」在 LMArena 上以顯著優勢領先，並在數學、科學和編碼基準測試中擊敗了 DeepSeek-R1、Grok 3 和 Claude 3.7。也幾乎全面優於OPenAI家的兩款模型—o3-mini和GPT4.5。

Gemini 2.5 Pro 現在在競技排行榜上位居第一——這是有史以來最大的分數跳躍（比 Grok-3/GPT-4.5 高出 40 分）。

配備100 萬 token 的上下文（即將推出 200 萬），能夠處理多模態數據，並且經過 vibe coding 認證，可以僅通過一個提示構建整個遊戲。這是Gemini 2.5 的神奇之處。

更重要的是，當你向 Gemini 2.5 提問時，它會在回答之前通過思考進行推理，模仿人類處理思想的方式—逐步接近問題，細化潛在解決方案，並選擇最佳方案。

鯨哥測試生成「近3年國內直播帶貨KOL的動態演示頁面」，2.5 Pro飛速生成了相關代碼。

這裏就需要提到Google AI的亮眼好處，就是他可以調用之前的 Flash 2.0 就已經融合的Google系工具，比如分析YouTube影片、輸出內容到Docs。這波代碼演示，生成後也直接調用Colab演示。

以下是2.5 Pro 生成的主播熱度動態演示效果，側重是代碼到生成的過程，至於內容準確性並沒有體現，但整體還可以參考。畢竟2023年的小楊哥還沒出事，還是直播帶貨領域的絕對伊古達拿。

同時，我們測試了2.5 Pro的深度推理能力，要求其生成一份具身智能報告。這份報告不是那種很虛、不能用的內容，而是具有一定的可讀性。

OpenAI殺死攝影師

在OpenAI展示的官方案例AI生圖中，第一個圖就足夠震撼。

如果不明說，恐怕任何人都猜不到，這張圖是AI生成的。畢竟反射畫面和密密麻麻們的文字，都在說AI不可能這麼神奇！

但實際上，這就是4o生成的AI圖片，OpenAI放出它的提示詞如下。

這是用手機拍攝的玻璃白板的廣角圖像，拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字，她身穿一件印有大型 OpenAI 標誌的 T 恤。筆跡看起來很自然，但有點淩亂，我們可以看到攝影師的倒影。

更神奇的是第二張圖片轉了人物朝向，生成的圖像還是毫無破綻，也放出來震撼下大家。

如果你沒有GPT Plus，那麼用GPT免費的圖片生成功能，其實已經能秒殺大部分文生圖產品了。這是鯨哥直接用上面同款提示詞生成的圖片。

同時，鯨哥也用Google 2.0 Flash模型，同款提示詞生成了同樣的圖。可以看到Google不太有審美，手部細節也崩了。

但OpenAI是不是為了官網案例特調，還需要以後全量上線模型，大家長期測試。

另外，4o的圖像生成指令也足夠強大，很多系統在處理約 5-8 個對象時會遇到困難，而 GPT‑4o 可以處理多達 10-20 個不同的對象。下圖就是4o在同一張圖上，生成了16個物體，每個都準確生成了用戶表達的內容，Amazing！

當然，對於類似Google 2.0 Flash的圖片編輯能力，4o也是不在話下。可謂精準狙擊了Google剛火出圈的圖片編輯能力。

我們即將接近AGI了嗎？

OpenAI同時宣佈，從今天起，ChatGPT 和 Sora 的所有 Plus、Pro、Team 和 Free 用戶都可以開始使用4o 圖像功能。

山姆奧特曼則表示，「ChatGPT 中圖像的新版本仍在推出中，所以如果今天沒有獲得很好的圖像，請稍後再試」。應該預示著將繼續整合多模態模型，以及產品端的融合。

有網民評論，4o圖像功能超越了數百家AI圖像公司。委實，甚至一些攝像和設計師等影像工作的飯碗，也將不保。

而對於Google來說，Gemini席捲的各種基準測試，在證明他的強大。實際體驗中，應該快速回答的問題很快回答，需要深度推理的問題也非常快速執行，一份報告、一份遊戲生成基本都在60秒以內。

鯨哥驚豔於它的速度，更驚訝這種融合模型帶來的體驗。不會再出現問個簡單問題，AI也去深度推理了。當然，2.5還不能生成圖片，也許下一步3.0，就會帶來這一能力。

Google這波拉響了矽谷的AI軍備競賽，此前Anthropic CEO稱，還有更強的大模型沒有放出，預計也會近期推出，防止Claude 3.7無法維持領先。而OpenAI在GPT 4.5發佈會中，山姆奧特曼都沒有出現，也許意味著新的模型也會近期發佈。

在這場OpenAI和Google對決的主角戲中，沒想到最著急的是埃隆馬斯克，他在X上發了多條內容，表明Grok是更好的那一個模型。

馬斯克發佈這張圖時說道：這是很重要的區別，嘲諷其他家模型撒謊和追求政治正確，而Grok則追求真理。

馬斯克的出現，為今晚這場競爭增添了趣味因素。

就在DeepSeek V3剛剛拿回的頭牌中，Google和OpenAI展示了強大的競爭實力，而大家在你追我趕中，進一步拉近了AGI的夢想。

也許就在不遠的某個夜晚中，AGI就會突然降臨！

本文來自微信公眾號「鯨選AI」，作者：楊曉鶴，36氪經授權發佈。