OpenAI重磅推出全新模型o3與o4-mini,實力超越99%人類
OpenAI剛剛宣佈將逐步上線兩款新型推理模型——o3與o4-mini。這兩款模型主打通過強化測試階段的計算能力,同時深度整合各類外部工具。
OpenAI總裁Greg Brockman在發佈會上表示:「這些模型標誌著AI發展的質變,今天的發佈無疑是向前邁進的重要一步。」他進一步透露,頂尖科研人員反饋,o3與o4-mini能輸出真正具備實用價值的創新思路。
Brockman強調,這不僅是模型迭代,更是「AI系統」的進化。其設計初衷是利用外部工具進行複雜的交互和解決問題。
rockman強調,這不僅是模型迭代,更是「AI系統」的進化。其設計初衷是利用外部工具進行複雜的交互和解決問題。
「我們訓練它們在思維鏈中使用工具,」Brockman解釋道,他還舉例,「面對高難度任務時,o3曾連續調用600次工具完成推理閉環。」數據顯示,o3在編程、數學、科學及視覺處理等核心領域刷新最優成績;而o4-mini主打輕量化,並針對速度和成本進行了優化。

AI領域知名評論人「AI Explained」在YouTube新發佈的測評影片中點評:「和前代o1相比,這兩款模型的進步肉眼可見。o3的表現確實堪稱行業標杆級突破。」影片既肯定了本次更新,也從專業視角給出理性分析。
值得關注的是,o3與o4-mini均支持圖像直接參與推理,並可實時調用Python編程、網頁搜索、自定義函數等工具。Brockman尤其感慨:「如今這些模型在解析OpenAI內部代碼時,表現甚至比我更得心應手,極大提升了開發效率。」
01.在實際應用中的工具使用
OpenAI的研究主管Mark Chen在發佈直播中詳細闡述了為什麼工具訪問如此重要。
他認為:「將推理模型與工具相結合,能讓它們變得更智能。」他還打了個比方:「這就好比計算器有助於進行算術運算,地圖有助於導航一樣。」
Mark Chen還表示:「把o系列模型與我們的全套工具相結合,能在高難度基準測試中達到最先進的水平。」
「AI Explained」似乎也認同這種方法,並在分析中指出:「這兩款模型都是從底層開始就被訓練使用工具的,我覺得這是一種非常出色的改進,它們會很快變得更加實用。」
對於工具集成重要性的這種一致看法,表明在這一發展路徑上,行業正逐漸達成共識。
Mark Chen補充道:「工具還解鎖了新功能,模型現在可以結合圖像進行思考。」
模型可以調用Python代碼「在服務端對圖像進行裁剪或變換」,這意味著用戶可以上傳模糊、顛倒或複雜的圖片,然後由模型來處理這些圖片。
在直播過程中,OpenAI的技術人員Brandon McKinzie通過回顧一個2015年的物理海報項目展示了這一點。
他解釋了o3是如何進行複雜分析的:「o3進行縮放操作,找到相關圖表,推斷出斜率與物理夸克質量的關係,對數據進行歸一化處理,然後查詢最新的論文以獲取更新後的估算值。這節省了人工數天的工作量。」

研究人員Wenda Li補充說,「為了實現這一點,該模型會主動瀏覽代碼,使用常見的終端工具:列出文件,用 `sed` 命令打開文件,試圖找到它要找的內容。它甚至能識別代碼中的繼承問題,在應用補丁並運行單元測試之前檢查方法解析順序(MRO),就像一個優秀的工程師那樣。」
研究人員Ananya Kumar指出,這種複雜的、多步驟的問題解決過程並非是通過明確編程實現的,該模型 「自然而然地學會了做這些事情」,包括簡化自己的初始暴力破解代碼,並對結果進行雙重檢查。
在軟件工程基準測試(SWE-bench)中,o3平均通過37次容器化的shell交互修復了開源代碼中的漏洞;有些修復甚至需要超過100次交互,這展示了在長時間的工具使用過程中,o3所具備的強大能力和持久性。
02.基準測試表現
這些模型在各個領域的基準測試中都取得了令人矚目的成績。
「AI Explained」特別強調了一項成就:「在大規模多任務語言理解基準測試(MMMU)中,o3的得分達到了82.9%。這確實比Google的Gemini 2.5 Pro的81.7%要高。」
這是一個重要的里程碑,標誌著OpenAI在一項關鍵的多模態基準測試中超越了主要競爭對手。
「AI Explained」還提到了o3在他們自己的測試框架中的出色表現:「o3是首個在我設計的基準測試SimpleBench的前10個公開問題中,能得到6分(滿分10)的模型,它的一些回答真的讓我印象深刻。」
該分析尤其稱讚了o3分析基準測試網站本身的能力:「它分析我的基準測試網站的方式非常特別,它還創建了一張圖片,並進行了深度分析。此外,它針對基準測試本身及其局限性給出了一些非常細緻入微的建議。」
03.開發者生態系統
OpenAI還開源了codex-cli,演講者Fouad Torky將其描述為「一個輕量級的接口,用於將我們的模型與用戶及其計算機連接起來」。
他將其定位為「一個關於如何在需要的地方安全部署代碼執行代理的參考實現」,它建立在像響應API這樣的公共API之上,並集成了諸如思維鏈總結等新功能。

演講者Michael Kim解釋說,Codex CLI預設以「建議模式」運行,在這種模式下「可以批準每一項[命令或編輯]」,但對於更快捷的工作流程(比如現場演示),它可以在「全自動模式」下運行。
據Torky介紹,還設立了一筆100萬美元的開源信用基金,專門用於那些將codex-cli與最新模型相結合的項目,以「推動開源領域的前沿發展」。
04.發佈計劃
Mark Chen在直播中詳細介紹了這些模型的發佈時間:
- 從今天開始:如果用戶是Pro、Plus或Team的訂閱用戶,將開始逐步獲得對o3、o4-mini和o4-mini-high的訪問權限。這些模型將取代之前的o1和o3-mini模型。
- 一週後:如果用戶是企業版(Enterprise)或教育版(EDU)用戶,需要再等一週。
- o1專業版用戶:如果用戶現在使用o1專業版並且很喜歡它,我們將推出o3專業版,但這需要一些時間。
- API接口:o3和o4-mini模型現在已經可以通過API接口使用。Chen還指出,基於API的工具使用端點將在未來幾週內推出。
Brockman確認了模型替換策略:「我們將用新模型替換o1系列模型。」 這與「AI Explained」的觀察結果一致,即「這些[o3和o4-mini]現在是ChatGPT中最好的模型」,證實了它們在OpenAI生態系統中地位的提升。
憑藉新的推理深度、更低的每令牌成本以及更強的多模態技能,o系列模型旨在將先進的人工智能從實驗室里的研究對象轉變為日常科學和工程領域的實用工具。
Brockman總結道,這些模型代表著「我們在實現通用人工智能(AGI)以造福全人類的使命中向前邁出了重要一步」。
「AI Explained」在其分析中給出了恰當的總結,他承認「o3代表著實實在在的進步。」受到人工智能社區中一位重要評論者的讚揚,為OpenAI所宣稱的技術進步增添了份量,儘管這些新模型的全面影響力還有待觀察。
原文來源於:
1.https://www.rdworldonline.com/openai-releases-o3-a-model-that-tops-99-of-human-competitors-on-ioi-2024-and-codeforces-benchmarks/
本文來自微信公眾號「元宇宙之心MetaverseHub」,作者:元宇宙之心,36氪經授權發佈。


















