OpenAI掀桌子,新模型力壓Google,o3降到地板價

香港時間6月11日淩晨1點,擁有數十億用戶的ChatGPT連續宕機了9個小時後,OpenAI在社交媒體平台X上宣佈將在今天發佈o3-pro,即OpenAI最強推理大模型的加強版。

註:OpenAI 官方X帳號。註:OpenAI 官方X帳號。

兩個小時後,OpenAI宣佈o3-pro已經向所有ChatGPT和API的Pro用戶開放。為了滿足Plus用戶的需求,OpenAI決定將Plus用戶的使用限制從一週100次提升至一週200次。

o3-pro的上線毫無預兆,OpenAI的CEO奧特曼稱,當第一次看到它相對o3的勝率時,自己完全驚呆。官方發文稱,o3-pro旨在延長思考時間並提供最可靠的響應。專家評估中,評審者一致認為o3-pro在所有測試類別中都優於o3版本,尤其是在科學、教育、編程、商業和寫作幫助等關鍵領域。

註:圖片來源OpenAI官網。註:圖片來源OpenAI官網。

OpenAI每一次發佈都足夠引起業內關注,尤其當Google憑藉Gemini 2.5 Pro一雪前恥,跟上行業步伐後,OpenAI的表現更令人關注。這次,它的表現又如何?

更強大但更慢

OpenAI 官方發文稱,o3-pro在數學、科學和編程等領域和o1-pro一樣表現出色。與o3 一樣,o3-pro 使用工具的能力出色,它可以使用 ChatGPT 所需的工具,比如搜索網頁、分析文件、推理視覺輸入、使用 Python、利用記憶個性化響應等等。

註:圖片來源OpenAI官網。註:圖片來源OpenAI官網。

在更嚴格的「4/4 可靠性」評估(即只有在四次嘗試中正確回答問題,模型才被視為成功中)測試表明,在數學基準測試AIME2024 、博士級別科學測試 GPQA Diamond和編程競賽中,o3-pro都優於o1-pro和o3(Medium)。

註:圖片來源OpenAI官網。註:圖片來源OpenAI官網。

Artificial Analysis的報告指出,在智力水平上, o3-pro以微弱優勢領先Gemini 2.5 pro。

註:圖片來源於Artificial Analysis官網。註:圖片來源於Artificial Analysis官網。

根據模型文檔,o3-pro支持文本和圖像兩種輸入模態,上下文窗口大小為200k,最大輸出token數為100k。o3-pro在上下文窗口上並不佔優勢,甚至比不過Gemini 2.0 Pro Experimental和Gemini 1.5 Pro。

o3-Pro的知識截至時間為 2024 年 6 月 1 日,它本身並不具備近一年內的信息,但用戶可以通過搜索和知識庫等工具為其提供更多上下文。

註:圖片來源OpenAI官網。註:圖片來源OpenAI官網。

目前,o3-pro還存在一些限制,臨時聊天功能已被禁用;o3-pro 不支持圖像生成,用戶可以選擇GPT-4o、OpenAI o3 或 OpenAI o4-mini 來生成圖像;目前也並不支持Canvas。

在ARC-AGI(通用人工智能能力基準測試)半封閉評估中,o3-pro完成ARC-AGI-1高難度任務通過率59.3%;在ARC-AGI-2中,其在所有推理任務僅有4.9%通過率,從推理通過率來看,它的表現略均低於o3(High)。這表明,即便上最強的推理大模型,依然和人類能力有較大差距。

註:圖片來源於ARC PRIZE官網。註:圖片來源於ARC PRIZE官網。

網民實測,兩極分化

在用戶感知上,o3-pro最明顯的特點就是慢。一位用戶在X發佈消息稱,o3-Pro只是需要回覆一個「HI」,就話了將近4分鐘。而在其他的模型中,這種回覆往往幾秒鍾就可以實現。

註:YuchenJinX帳號截圖。註:YuchenJinX帳號截圖。

而當他第二次測試時,竟然花了13分28秒。o3-pro較慢的反應速度讓不少網民質疑,不過這點,OpenAI在模型發佈時就有解釋,他們稱由於 o3-pro 可以使用工具,因此響應通常比 o1-pro 需要更長的時間才能完成。官方建議將其用於可靠性高於速度的棘手問題。

註:YuchenJinX帳號截圖。註:YuchenJinX帳號截圖。

換句話說,o3-pro可能更適合處理複雜問題,比如項目方案,多文件整合等。如果只是日常提問、閑聊或快速生成內容,可以選擇更便宜且更快的o3。

在數學問題上,o3-pro確實如官方所言。HyperWrite AICEO Matt Shummer在X上展示了他使用o3-pro做一道具有邏輯能力的數學題。他用英語問到「你的回答中有多少個單詞」,這是一道很容易讓大模型邏輯混亂的題,大模型需要數清楚答案中的單詞個數,一些模型可能會回答提示詞中的單詞個數,但o3-pro卻給出了正確的答案。

註:Matt Shummer X帳號截圖。註:Matt Shummer X帳號截圖。

在編程能力上,X用戶Flowers輸入同樣的提示詞給Claude 4 和o3-pro,希望他們生成彈跳小遊戲,結果前者雖然界面美觀,但完全無法運行。後者則可以正確運行。

註:影片來源於 Flowers X帳號。

o3-pro全球首位測評者Bilglin Ibryam稱,o3-pro非常擅長分析,擅長使用工具做事,但不太擅長直接做事。在他眼中,o3-pro會是一個很棒的協調工具。

他拆解了o1和o3-pro提示詞的組成要素和設計原理,顯示後者需要足夠多的背景信息來說明訴求,否則模型確實容易想得太多。

註:圖片來源於Latent.Space。註:圖片來源於Latent.Space。

Youtube博主Bijan Bowen進行了實操體驗,他希望ChatGPT使用HTML、JAVA、CSS按照復古操作系統風格來構建一個基於瀏覽器的操作系統模擬器,但5分鐘後,ChatGPT只給出了以下信息,即仍在思考中。

註:Bijan Bowen Youtube影片截圖。註:Bijan Bowen Youtube影片截圖。

14分鐘13秒過後,ChatGPT生成了一個可以移動的,帶有日期、對話欄,並可以打開應用程序的瀏覽器,整體非常符合作者預期。除去等待時間過長之外,Bijan Bowen對o3-pro的結果相當滿意。

註:Bijan Bowen Youtube影片截圖。註:Bijan Bowen Youtube影片截圖。

更頻繁的更新,更便宜的大模型

進入2025年,大模型領域的競爭越來越激烈。一個明顯的表現是,OpenAI 的模型更新頻次明顯高於2024年,涉及核心模型優化(o3-Pro、GPT-4.1)、語音交互增強、多模態擴展等多個方面,同時採取更激進的淘汰策略,比如 GPT-4.5 的快速棄用。

另一方面,今年3月,一直在大模型領域落後的Google發佈了Gemini 2.5 Pro大語言模型,以八分之一的價格提供了幾乎相同於OpenAI最強推理大模型o3的性能,並且該模型上線以來幾乎每月都在更新。

為應對競爭,OpenAI必須快速反應。o3-pro的一個大殺器便是價格,o3-pro 輸入為 20美元/百萬 token,輸出80美元/百萬 token。相比o1-pro,價格大幅度下降。這也意味著o1-pro很可能會被快速淘汰。

註:圖片來源於OpenAI 官網。註:圖片來源於OpenAI 官網。

在內部測試中,o3-pro在數學基準測試AIME 2024中超越了Google的Gemini 2.5 Pro,在博士級科學測試GPQA Diamond中則擊敗了Anthropic的Claude 4 Opus。

作為OpenAI最強大的推理大模型,受限於價格,o3並未被開發者廣泛使用,給了後來的Gemini 2.5 pro的空間。因此,o3-pro發佈的當天,OpenAI的CEO奧特曼宣佈,o3降價 80%:輸出2美元/百萬 token、輸入8美元/ 百萬 token。

Artificial Analysis顯示,降價後的o3每輸入100個token所支付的金額已經略低於Gemini 2.5 pro,不過後者的智力水平略高於前者。

註:圖片來源於OpenAI 官網。註:圖片來源於OpenAI 官網。

不少用戶表示,伴隨著AI技術的革新,未來用戶調用模型的成本必然會越來越低。不出意外,接下來,會有越來越多能力更出眾、價格更優惠的模型上線。

本文來自微信公眾號「新言財經」(ID:tech621),作者:王琳,36氪經授權發佈。