OpenAI的o3正式登場,我們總結了這7個最關鍵的信息點
在ChatGPT問世近一年半後,OpenAI再次邁出關鍵一步。
2025年4月16日,OpenAI正式發佈新一代推理模型o3及輕量版o4-mini,這是繼GPT-4 Turbo之後,首次從底層架構、訓練策略到能力定位全面重構的模型更新。相比以往,這一次的關鍵詞不再是「更強的生成能力」,而是「更清晰的推理路徑、更主動的工具調度、更真實的問題感知」。
官方沒有過多渲染「AGI臨近」這樣的宏大敘事,卻實實在在交付了一個「能讀圖、能思考、能動手」的智能體雛形——它能看懂你上傳的手寫公式,也能自己查資料、調用工具鏈、重構任務解法,真正從「助手」邁向「代理者」(Agent)。
如果我們將視野從參數躍遷拉回到結構演化,o3的出現,標誌著一個重要趨勢:訓練範式的極限已現,推理結構的重塑正在成為AI進化的主戰場。
OpenAI在這個關鍵節點推出o3系列,不止是一次模型升級,更像是一種範式上的聲明,也是一種技術坐標系的重新標定。
2025年4月16日,OpenAI正式發佈新一代推理模型o3及輕量版o4-mini。它們不僅性能領先,更在「結構」與「能力」上開啟了範式轉折:不再僅僅強調上下文長度和生成流暢度,而是從根本上強調推理路徑的清晰性、工具調用的主動性,以及圖文信息的融合處理能力。
為更好理解這一變革,我們系統梳理了OpenAI官方發佈的產品博客內容,並結合團隊在X平台AMA中的回應與解讀,從七個方面提煉出o3系列模型在推理方式、結構策略與實際應用中的關鍵進展,輔以我們對趨勢脈絡的觀察,供開發者與關注AI基礎設施演進的讀者參考。
OpenAI團隊在X平台上舉辦的AMA總結

發佈和路線圖
-
強化微調(GA)將很快對公開微調或具有推理模型的強化學習(RL)可用;
-
OpenAI計劃在未來幾個月發佈一個優秀的開源模型,並歡迎開發者反饋以改進其實用性;
-
API中的新圖像生成功能將很快可用;
-
API中的o3-mini永遠不會支持視覺功能,但o4-mini已經支持視覺功能,目前作為具有圖像輸入的推理迷你模型可用;
-
o3今天已在API中提供,更高級的o3-pro模型正在開發中,並將很快發佈。
模型性能和用法
-
GPT-4.1系列模型專門針對編碼和代理任務進行訓練;模型選擇取決於用戶的工作流程以及所需的性能、成本和延遲之間的平衡。
-
o3在處理困難的編碼問題或廣泛的主題搜索時最為強大,而o4-mini則速度更快,在大多數場景中性能相當,更適合快速交互或較小的編碼任務。
-
o4-mini具有更高的速率限制,在涉及視覺、數學、科學和某些編碼任務的評估中與o3相當;o3在處理深奧知識和細微任務方面具有明顯優勢。
-
微調GPT-4.1可以提高針對特定用例的性能,減少提示中所需的示例數量;GPT-4.1經過訓練以探索可能的解決方案、自我反思和自我糾正。
-
o3和o4-mini都提供200k個token的上下文窗口,最大輸出100k個token,並已通過內部和第三方進行網絡安全評估;兩者均未達到高風險閾值,但仍然是迄今為止最強大的模型。
-
模型具有分析圖像細節的工具;o3在從PDF中提取結構化數據方面特別有效-如從「注意力就是一切」論文中完美提取表格所示。
-
與GPT-4.1相比,GPT-4.1-mini在圖像分析方面具有更低的成本。
API功能和支持工具
-
在Responses API中,開發者消息和系統消息之間的切換是自動處理的;向o3發送系統消息或向GPT-4.1發送開發者消息會導致自動轉換。
-
API中提供了一個推理努力參數,用於控制o系列模型的成本,特別是在它們變得越來越具有代理性時,允許優化工具使用。
-
目前,ChatCompletions或Responses API不支持託管工具;然而,一旦支持可用,開發者將獲得對啟用工具的控制權。
-
在Responses API中支持推理摘要(推理跟蹤),提供更清晰的可見性,以便在模型解決問題和調用各種工具時瞭解推理步驟。
-
SDK自動將Pydantic架構轉換為兼容的JSON架構,以處理「additionalProperties」等屬性。
-
在o3和o4-mini的推理階段,積極使用工具如網絡搜索、文件搜索和代碼解釋器;目前,這些工具在ChatGPT中得到支持,但在API中尚未支持-將很快添加支持。
代理 SDK 和 Codex CLI
-
OpenAI正在積極開發線程支持以改進代理SDK中的對話歷史和保留。
-
他們對為Agents SDK提出的低代碼平台建議很感興趣,並邀請反饋最有用的功能。
-
已支持通過 Agents SDK 調用外部模型。
-
Codex CLI包含多個文檔化的批準模式,允許用戶按操作或會話選擇模式;Codex CLI並非旨在取代Cursor、Windsurf或Lovable等IDE工具;相反,它旨在在用戶在主IDE中工作時運行後台任務。
-
將Codex的編碼能力與深度研究能力進行比較取決於所選的模型(o3或o4-mini);Codex專門利用函數調用,直接在用戶的計算機上執行命令。
-
新模型主要在通用瀏覽、Python/代碼執行工具以及有助於開發者的用戶定義工具上進行訓練。
GPT-4.1 和模型命名
-
GPT-4.1通過API發佈而非ChatGPT,因為它專門針對API使用場景進行了優化,例如指令遵循、長上下文管理、編碼和工具使用。
-
GPT-4.5雖然更強大,但速度較慢且計算密集,因此GPT-4.1為開發者提供了一種更快、更經濟的選項。
-
GPT-4.1的一些改進已經集成到ChatGPT中,並將繼續集成更多改進。
-
OpenAI承認了模型名稱如「4o」和「o4」之間的命名混淆,並計劃不久後簡化模型命名。
推理能力的躍升:o3 vs o1,為什麼是質變?
首先要介紹OpenAI o3,它是OpenAI最強大的推理模型,它推動了ChatGPT在編碼、數學、科學、視覺感知等領域的發展。它在Codeforces、SWE-bench(無需構建特定於模型的自定義支架)和MMMU等基準測試中創造了新的SOTA。
OpenAI o3非常適合進行多方面分析的複雜查詢,而且並不會給出簡單的答案。它在分析圖像、圖表和圖形等可視化任務方面表現尤為突出。在外部專家的評估中,o3在高難度的任務中比OpenAI o1少犯20%的大錯誤,尤其是在編程、商務/諮詢和創意構思等領域表現出色。早期的測試人員強調了它作為思想夥伴的嚴謹分析能力,並強調了它生成和批判性評估新假設的能力–尤其是在生物學、數學和工程學方面。
OpenAI o4-mini是一個較小的模型,為實現快速、經濟高效的推理而進行了優化–就其大小和成本而言,它實現了卓越的性能,尤其是在數學、編碼和視覺任務方面。它是AIME 2024和2025上表現最佳的基準模型。在專家評估中,它在非STEM任務以及數據科學等領域的表現也優於其前身o3-mini。由於效率高,o4-mini比o3支持更高的使用限制,因此對於需要推理的問題來說,o4-mini是高容量、高吞吐量的理想選擇。

OpenAI O3是解決複雜編碼問題或廣泛主題搜索的最佳選擇,而o4-mini速度更快,在大多數情況下同樣強大,更適合快速交互或較小的編碼任務。o3和o4-mini均提供20萬個令牌的上下文窗口,最大輸出令牌數為10萬個,並且已經過內部和第三方的網絡安全評估;雖然均未達到高風險閾值,但仍然是目前性能最強的模型。
外部專家評估員對這兩個模型的評價是,與前代產品相比,由於智能化程度的提高和網絡資源的加入,這兩個模型都能更好地跟上指令,並提供更有用、更可驗證的回答。與以前的推理模型迭代相比,這兩個模型應該會讓人感覺更自然、更會說話,特別是它們會參考記憶和過去的對話,使回答更個性化、更相關。
RL再次被證實:強化學習成性能提升主引擎
在OpenAI o3的整個開發過程中,我們觀察到大規模強化學習呈現出與GPT系列預訓練相同的趨勢,即「更多計算=更佳性能」。通過回溯擴展路徑,我們在訓練計算和推理時間上都增加了一個數量級,但仍能看到明顯的性能提升,這驗證了模型的性能會隨著思考時間的增加而不斷提高。
在延遲和成本與OpenAI o1相當的情況下,o3在ChatGPT中提供了更高的性能,而且我們已經驗證,如果讓它思考更長時間,其性能會繼續攀升。
我們還通過強化學習訓練這兩種模型使用工具–不僅教它們如何使用工具,還教它們推理何時使用工具。它們根據預期結果部署工具的能力,使它們在開放式情境中,尤其是在涉及視覺推理和多步驟工作流程的情境中更有能力。根據早期測試者的報告,這種進步既體現在學術基準上,也體現在實際任務中。
圖像即語言:首次實現「視覺參與推理鏈」

這兩款模型首次具備將圖像直接融入他們的思維鏈中的能力。它們不僅能看到圖像,還能用圖像進行思考。這開啟了一種融合視覺和文字推理的新的問題解決方式,體現在它們在多模態基準測試中的一流性能上。

人們可以上傳白板、教科書圖表或手繪草圖的照片,而模型可以對其進行解讀–即使圖像模糊、顛倒或質量不高。通過使用工具,模型可以在推理過程中對圖片進行旋轉、縮放或變換等操作。
這些模型在視覺感知任務上具有同類最佳的準確性,使其能夠解決以前無法解決的問題。
我們還通過強化學習訓練這兩種模型使用工具–不僅教它們如何使用工具,還教它們推理何時使用工具。它們根據預期結果部署工具的能力,使它們在開放式情境中,尤其是在涉及視覺推理和多步驟工作流程的情境中更有能力。根據早期測試者的報告,這種進步既體現在學術基準上,也體現在實際任務中。
調用工具不是技能,而是策略判斷
OpenAI o3和o4-mini可以訪問ChatGPT中的工具,也可以通過API中的函數調用訪問用戶的自定義工具。這些模型經過訓練,能夠推理如何解決問題,選擇何時以及如何使用工具,以正確的輸出格式快速生成詳細周到的答案–通常不超過一分鐘。
例如,用戶可能會問:「與去年相比,加州的夏季能源使用情況如何?」。模型可以在網絡上搜索公共數據,編寫Python代碼以建立預測路徑,並生成圖表或圖像,還能解釋預測背後的關鍵因素,將多個工具調用串聯起來。通過推理,模型可以對遇到的信息作出必要的反應和調整。例如,它們可以在搜索提供商的幫助下多次搜索網絡,查看結果,並在需要更多信息時嘗試新的搜索。
這種靈活的戰略方法使模型能夠處理需要獲取模型內置知識以外的最新信息、擴展推理、綜合和跨模態生成輸出的任務。
成本效能邊界再擴:更強,更便宜


OpenAI o3和o4-mini是我們發佈過的最智能的模型,而且它們通常比其前身OpenAI o1和o3-mini更高效。例如,在2025年AIME數學競賽中,o3的性價比前沿嚴格優於o1,同樣,o4-mini的前沿也嚴格優於o3-mini。一般來說,我們預計在大多數實際應用中,o3和o4-mini也將分別比o1和o3-mini更智能、更便宜。
模型安全:推理力進化背後的底線重構
模型能力的每一次提升都需要相應的安全性改進。對於OpenAI o3和o4-mini,我們完全重建了安全培訓數據,在生物威脅(生物風險)、惡意軟件生成和越獄等領域添加了新的拒絕提示。更新後的數據使o3和o4-mini在我們的內部拒絕基準(如指令分級、越獄)上取得了優異的表現。除了在模型拒絕方面表現出色外,我們還開發了系統級緩解措施,以標記前沿風險領域的危險提示。與圖像生成方面的早期工作類似,我們訓練了一個推理LLM監測器,該監測器根據人類編寫的、可解釋的安全規範工作。當應用於生物風險時,該監控器在我們的人類紅隊活動中成功標記了約99%的對話。
我們用迄今為止最嚴格的安全計劃對兩種型號進行了壓力測試。根據我們更新的「準備框架」,我們對o3和o4-mini進行了框架所涵蓋的三個跟蹤能力領域的評估:生物與化學、網絡安全和人工智能自我改進。根據這些評估結果,我們確定o3和o4-mini在所有三個類別中均低於該框架的「高」閾值。我們在隨附的系統卡中公佈了這些評估的詳細結果。
Codex CLI發佈:最小代理化入口

我們還將分享一項新實驗:Codex CLI,一種可在終端運行的輕量級編碼代理。它可直接在電腦上運行,旨在最大限度地發揮o3和o4-mini等模型的推理能力,並即將支持GPT-4.1等其他API模型。
通過向模型傳遞屏幕截圖或低保真草圖,並結合本地代碼訪問,您可以從命令行獲得多模態推理的好處。我們將其視為將模型與用戶及其電腦連接起來的最小接口。現在,Codex CLI已在github.com/openai/codex(在新窗口中打開)上完全開源。
與此同時,我們還啟動了一項100萬美元的計劃,以支持使用Codex CLI和OpenAI模型的項目。我們將評估並接受以API點數形式遞增的25,000美元資助申請。提案可在此處提交。
從今天起,ChatGPT Plus、Pro和Team用戶將在型號選擇器中看到o3、o4-mini和o4-mini-high,取代o1、o3-mini和o3-mini-high。ChatGPT企業和教育用戶將在一週後獲得訪問權限。免費用戶可以在提交查詢之前,通過在構成器中選擇「Think」來試用o4-mini。所有計劃的費率限制與上一組模型相比保持不變。
o3現已在API中可用,更先進的o3-pro模型正在開發中,預計將在幾週後發佈支持全部工具的OpenAI o3-pro。目前,專業版用戶仍可訪問o1-pro。
目前,開發人員還可以通過Chat Completions API和Responses API訪問o3和o4-mini[某些開發人員需要驗證其組織(在新窗口中打開)才能訪問這些模型]。Responses API支持推理摘要,能夠保留函數調用周圍的推理標記以提高性能,不久還將支持內置工具,如網絡搜索、文件搜索和模型推理中的代碼解釋器。要開始使用,請瀏覽我們的文檔(在新窗口中打開),並隨時關注更多更新。
今天的更新反映了我們模型的發展方向:我們正在將o系列的專業推理能力與GPT系列的更多自然對話能力和工具使用能力融合在一起。通過整合這些優勢,我們未來的模型將支持無縫、自然的對話,以及主動的工具使用和高級問題解決。
原文鏈接:
https://openai.com/index/introducing-o3-and-o4-mini/
https://x.com/btibor91/status/1912608982063349897?utm_source=chatgpt.com