OpenAI發佈「會思考的模型」o3和o4-mini,支持視覺推理,工具調用能力大升級
4 月 17 日淩晨,OpenAI帶來了兩個新模型。
一個是 o3 完全體,另一個是 o3-mini 的下一代 o4-mini。

兩個模型均屬於 o 系列推理模型,不同於主打對話自然性的 GPT 系列,它們的目標是「會思考的模型」。
備受關注的 o3 完全體主打性能強悍,不負眾望地在多個基準測試上追平/超越了競爭對手的最強模型,而 o4-mini 則接過了「性價比最高」的頭銜。
最引人注目的是,它們首次具備了真正的視覺推理能力:不僅能看圖識圖,更能看圖思考。上傳一張板書、圖表、手寫草圖或者截圖,模型就能基於圖像展開分析、生成代碼,甚至動手操作圖像本身。

以往的語言模型雖然支持上傳圖片,但更多是識別圖像,而不是推理。o3 和 o4-mini 打破了這一限制,它們能夠將圖片信息真正整合進推理鏈條中,成為模型決策過程的一部分。
在直播演示中,OpenAI 在 X 上截取了一張有關「圖像到 ASCII 風格轉換」的推文圖片,直接丟給 o3。
經過推理後,o3 模型詢問是否要按截圖中的需求生成代碼,在獲得後續提示後,它成功生成了可運行代碼,能夠實時將攝像頭的影片流轉化成 ASCII 風格。
「它們不只是看圖,而是用圖像來思考。」OpenAI 表示。

目前,o3 和 o4-mini 已向 ChatGPT Plus、Pro、Team 用戶開放,並替代舊版 o1 和 o3-mini。企業和教育版用戶將在一週後將獲得接入權限。
免費用戶可以通過 ChatGPT 的「思考」功能體驗 o4-mini。API 開發者可以通過 Chat Completions API 和 Responses API 使用新模型和新能力。
在定價方面,o3 的每百萬輸入 token 為 10 美元,每百萬輸出 token 為 40 美元。而 o4-mini 的定價僅有其十分之一左右,每百萬輸入 token 為 1.1 美元,每百萬輸出 token 為 4.4 美元。

據 OpenAI 介紹,o3 是其最強大的通用推理模型,特別擅長處理編程、數學、科學和圖像分析等任務。與上一代 o1 模型相比,它在處理商業諮詢、編程創意等真實世界複雜任務時,重大錯誤率降低了 20%。
而 o4-mini 則是一款輕量級模型,強調高性價比和高吞吐量,適用於更頻繁、更成本敏感的應用場景。


在基準測試成績方面,o3 和 o4-mini 在所有測試中都大幅超越了上一代模型 o1 和 o3-mini。o4-mini 甚至在 AIME 2025 數學競賽中(啟用 Python 工具後)達到了 99.5% 的驚人成績,幾乎封頂該測試。
相比競爭對手的最強模型 Gemini 2.5 Pro 和 Claude 3.7 Sonnet,o3 和 o4-mini 與它們不分伯仲,在不同的測試中互有勝負。


有意思的是,OpenAI 在 2024 年 12 月第一次公開 o3 模型時,曾給出了一些測試的成績,比如 SWE-Bench Verified 是 71.7,Codeforces 是 2727,AIME 2024 是 96.7,GPQA 是 87.7。
但再看 OpenAI 今天給出的成績,o3 的分數均出現了下滑,具體原因未知。
如果將 o3 的新成績放到一些主流大模型榜單上,它將被 Gemini 2.5 Pro 或 Claude 3.7 Sonnet 反超,哪怕只有零點幾分。這也側面說明如今的大模型競爭有多激烈——零點幾分的差距就決定了誰是(紙面上的)第一名。
「與我們之前的推理模型相比,這兩個模型的體驗更加自然、更具對話性,尤其是在參考記憶和歷史對話的情況下,能給出更個性化和相關的回覆。」OpenAI 表示。

兩個新模型最重要的一大特徵是具備「用工具解決問題」的能力,OpenAI 稱之為「agentic tool use」。它支持調用 ChatGPT 工具集,包括聯網搜索、代碼解釋、文件分析、圖像編輯等等。
在任務執行中,模型可以像數字代理一樣,自主決定是否調用工具、調用哪個工具、以何種順序完成多步驟任務,並快速輸出高質量結果,大多數情況下只需一分鐘左右。
比如用戶提問:「今年夏天加州的能源使用情況和去年相比會怎樣?」
模型可以自動聯網搜索公共電力數據、用 Python 編寫預測腳本、生成圖表,並用自然語言解釋影響因素。整個流程幾乎無需用戶介入。

它的工具調用策略也變得更聰明:遇到信息不足時,它可以自行重新搜索、換關鍵詞,嘗試不同角度;在需要寫代碼時,它能動態調用 Python,或者結合文件分析器查閱用戶上傳的 Excel 或 PDF 數據。
這一變化的意義不僅在於多模態處理能力的增強,更在於它奠定了未來代理型 AI 的核心基礎:感知(視覺輸入)、思考(邏輯推理)、行動(調用工具)。
這使得模型在處理真實世界任務時更接近一個真正的「數字執行者」,而不只是一個「聰明的聊天機器人」。
不過 OpenAI 也指出了目前視覺推理能力的局限性,比如思維鏈過長,模型可能會執行冗餘或不必要的工具調用和圖像處理步驟,出現基本視覺感知錯誤,推理可靠性有待提升等等。

除了模型本身,OpenAI 這次還發佈了一個新工具實驗:Codex CLI。一個可以直接在終端(terminal)運行的輕量級 AI 編程助手,支持調用 o3 和 o4-mini 等模型。
Codex CLI 現已開源,同時 OpenAI 還啟動了一項 100 萬美元的項目資助計劃,用於鼓勵開發者圍繞 CLI 和 OpenAI 模型構建新工具。
OpenAI 還透露將在數週內推出 o3-pro,提供更全面的工具支持。
接下來,OpenAI 計劃繼續推動「推理模型與對話模型」的融合,即結合 GPT 系列的自然語言交互能力和 o 系列的工具使用能力。
這或許意味著傳聞中的 GPT-5 離我們不遠了。
參考資料:
https://openai.com/index/introducing-o3-and-o4-mini/
https://openai.com/index/thinking-with-images/
https://openai.com/api/pricing/
排版:劉雅坤