OpenAI發佈o3/o4-mini兩大推理模型,要把Agent吞進模型里了

作者|週一笑

郵箱|zhouyixiao@pingwest.com

距離OpenAI發佈GPT-4.1僅僅過去兩天,OpenAI在本週再次投下「重磅炸彈」——正式發佈了其o系列的兩個新模型:o3和 o4-mini。

這次發佈的核心被OpenAI聯合創始人Greg Brockman和首席研究官Mark Chen形容「向未來邁出的質的一步」。這兩個新模型不僅在傳統的編碼、數學、科學等領域展現出「迄今為止最強」的推理能力,更重要的是,它們被訓練成了能夠主動、智能地使用和組合工具來解決複雜問題的「AI系統」,並且首次實現了「用圖像思考」。

簡單來說,你可以把o3和o4-mini想像成更聰明的「大腦」,它們不僅知識儲備更豐富、邏輯更嚴謹,還學會了像人一樣,遇到難題時知道去網上查資料(網頁搜索)、用計算器(執行Python代碼分析數據/文件)、看圖表(視覺輸入推理),甚至自己畫圖(生成圖像)。這標誌著ChatGPT向著一個能更獨立自主完成任務的智能體方向邁出了關鍵一步。

新的o3、o4-mini及o4-mini-high將從即日起開始替換ChatGPT Plus、Pro和Team用戶模型選擇器中的o1、o3-mini和o3-mini-high。免費用戶也有機會通過特定的「Think」選項體驗o4-mini。開發者可通過API使用o3和o4-mini,OpenAI預計在幾週內發佈o3-pro。

那麼,這兩個新模型具體強在哪裡?OpenAI官網和直播演示給出了詳細解答。

o3:旗艦級推理引擎

具體到兩個模型,o3 定位為OpenAI當前最強大、最前沿的推理引擎。它在編碼、數學、科學和視覺感知等需要深度思考的領域表現尤為突出,是處理那些答案不明顯、需要多方面綜合分析的複雜查詢的理想選擇。

根據外部專家的嚴格評估,在處理困難的現實世界任務時,o3犯下的嚴重錯誤比其前代旗艦o1減少了20%,尤其在編程、商業諮詢和創意構思方面進步顯著。發佈會上的例子令人印象深刻:o3不僅能分析物理學研究海報並推斷出未明確說明的結果,還能將其與現有文獻進行對比。

在另一個例子中,它甚至成功解決了構造一個特定性質的19次多項式這樣的高難度數學問題,其推理過程和結果的準確性遠超o1的表現。早期測試者也普遍反饋,o3作為「思考夥伴」時展現出的分析嚴謹性,以及在生物、數學、工程等領域生成和批判性評估新穎假設的能力,都令人印象深刻。在包括Codeforces、SWE-bench和MMMU等基準測試中創下了新的 SOTA。

o4-mini:高性價比的「小鋼炮」

o4-mini 則是一款針對速度和成本效益優化的「小鋼炮」。雖然體量更小,但它在數學、編碼和視覺任務上實現了「令人矚目的性能」,堪稱「以小博大」的典範。它在AIME 2024和2025數學競賽基準上的表現甚至超越了更大的模型。專家評估也指出,即使在非STEM領域和數據科學方面,o4-mini也優於其前代o3-mini。得益於更高的效率,o4-mini能夠支持比o3顯著更高的使用限制,這使其非常適合需要進行大量推理、高吞吐量的應用場景。同時,OpenAI表示,o3和o4-mini在交互時也應該感覺更自然、更像對話,能更好地利用記憶和上下文信息,並提供帶有網絡來源引用的、更可驗證的回應。

o3-mini 和 o4-mini的成本與性能對比

o1 和 o3的成本與性能對比

值得關注的是,智能化程度的提升並未必然帶來成本的增加。OpenAI強調,在許多實際應用場景中,o3和o4-mini可能比它們的前代o1和o3-mini更高效,甚至更便宜。官網展示的AIME數學競賽成本-性能曲線清晰地表明,o3在相同成本下性能優於o1,而o4-mini則優於o3-mini。這背後,是OpenAI在強化學習規模化上的持續投入——據透露,開發o3所使用的訓練計算量是o1的十倍以上,驗證了「更多思考時間=更好性能」的趨勢同樣適用於強化學習。

在定價方面,o3的每百萬輸入 token 收費為 10 美元,輸出 token 為 40 美元;而 o4-mini 的價格僅為其十分之一左右,分別為 1.1 美元和 4.4 美元。

不止於聰明,更在於「全能」

Agentic Tool Use是本次發佈的亮點之一。過去的模型雖然也能調用工具,但往往是被動執行指令。而o3和o4-mini則被訓練得能夠思考何時以及如何使用工具來給出詳盡、周到的答案。它們可以根據問題的複雜性,自主決定調用網頁搜索獲取最新信息、運行Python代碼進行數據分析和預測、理解用戶上傳的圖片內容,甚至生成圖表或圖像來輔助說明。

當用戶提出「加州今年的夏季能源消耗與去年相比如何」這樣的問題時,模型會自動搜索公共數據源,結合實時信息編寫並執行分析代碼,生成圖表直觀展示對比結果,並解釋其中的關鍵影響因素,整個過程通常在一分鐘內完成,體現出強大的搜索、推理與多模態協同能力。

直播中Greg Brockman還提到,o3在解決一個複雜任務時,曾被觀察到連續調用了高達600次工具。

另一個突破是視覺理解能力。o3和o4-mini不再僅僅是「看到」圖片,而是能將圖像信息直接整合進它們的「思考鏈」中。用戶可以上傳白板照片、教科書圖解、手繪草圖,即使圖片模糊、顛倒或質量不高,模型也能嘗試理解。

更進一步,結合工具使用能力,模型可以在推理過程中動態地操作圖片,比如旋轉、縮放或轉換圖像,以更好地輔助分析。這使得它們在多模態基準測試中達到了新的SOTA(State-of-the-Art)水平,能夠解決以前難以處理的視覺推理問題。例如,o3在MathVista(視覺數學推理)上準確率達到86.8%,在CharXiv-Reasoning(科學圖表推理)上達到78.6%。

在演示中,OpenAI的Brandon McKenzie向o3展示了一張關於質子等矢標量荷的物理海報,並要求它找到研究結果並與最新文獻對比,實際上該結果並未寫在海報上。o3準確識別了相關圖表,推理出計算方法,並聯網查找最新估計值,指出原始數值需重整化才能與當前研究對齊,展現了其理解圖像、推理及使用工具完成複雜科研任務的能力,節省了時間。

發佈編程工具Codex CLI

伴隨著能力的飛躍,安全問題也得到了前所未有的重視。OpenAI表示,他們為o3和o4-mini徹底重建了安全訓練數據集,特別加強了在生物風險、惡意軟件生成、越獄企圖等敏感領域的拒絕能力。此外,還部署了系統級防護,引入了一個基於人類可解釋規範訓練的推理LLM監控器,用於主動標記生物風險等前沿風險領域的危險提示,據稱在內部紅隊測試中成功標記了約99%的相關對話。依據其最新的《準備框架》(Preparedness Framework),經過嚴格評估,o3和o4-mini在生物化學、網絡安全和AI自我改進這三個關鍵風險領域的能力水平均被認定低於「高」風險閾值。

為了進一步賦能開發者社區,OpenAI還推出了一個名為Codex CLI的實驗性新工具。這是一個輕量級的編碼助手,可以直接在用戶的終端命令行運行,旨在充分發揮o3、o4-mini等模型強大的推理能力,連接本地代碼環境,甚至支持處理截圖或草圖進行多模態編程。Codex CLI已在GitHub上完全開源。

在直播演示中,OpenAI Agent研究團隊成員Michael為了展示Codeex CLI的功能,截取了一張在 X上關於一個「圖像到 ASCII 風格轉換」工具的推文截圖。他將這個截圖直接拖入終端,通過Codeex並利用o4-mini的多模態推理能力,最終成功創建了一個簡單的ASCII風格圖像轉換工具。

新的發佈之後,行業內的初步反響並非全然是掌聲。一些觀點仍然認為這次發佈更像是仍然是增量式進步,雖然迭代速度更快了,但並未帶來顛覆性的飛躍或震撼性新功能,這或許反映了整個AI行業在激烈競爭下面臨的巨大「快速交付」壓力。

同時,開源社區中也存在一些失望的聲音,指出儘管模型能力日新月異,但OpenAI仍未推出真正強大的開源模型,這讓部分期待開放生態的開發者發出了「Wake me up when they release something open」(等他們發佈開源模型再叫醒我)的調侃。

在發佈的技術光環之外,市場層面的動態也值得關注。發佈會前後,彭博社和CNBC等媒體報導稱,OpenAI可能正就以高達30億美元收購AI編程工具初創公司Windsurf(前身為Codeium)進行談判。Windsurf的產品利用AI輔助開發者編寫、解釋代碼,其部分功能已集成OpenAI模型。若收購屬實,無疑將極大增強OpenAI在開發者工具和代碼生成領域的佈局。

Windsurf在第一時間提供o4-mini的免費體驗

總體來看,OpenAI發佈的o3和o4-mini,在Agentic能力和多模態深度融合方面繼續邁近,這不僅僅是模型變得更聰明了,更是朝著能夠真正理解並與我們複雜世界進行交互的「通用智能體」的一步。從發佈節奏來看,OpenAI的再次提速,留給競爭對手和整個行業思考的時間,似乎又變少了。