科技

奧特曼被逼急：深夜上線 o3-mini，甚至免費，網民：還是選DeepSeek

02月01日 07:52 新浪網 tech-auto-hilite

機器之心報導

機器之心編輯部

奧特曼能不急嗎？

被 DeepSeek 狂轟亂炸了一週後，終於在今天發佈了新的模型 o3-mini。

此次發佈，o3-mini 包含 low、medium 和 high 三個版本。

OpenAI 表示，今天發佈的 o3-mini 是其推理模型系列中最新、最具成本效益的模型，已上線 ChatGPT 和 API 。

我們打開 ChatGPT，o3-mini 和 o3-mini-high 兩個新模型已然上線。

不過 o3-mini 目前還不支持視覺功能，因此開發者需要繼續使用 OpenAI o1 進行視覺推理任務。

在使用權限上，ChatGPT Plus、Team 和 Pro 用戶從今天起就可以訪問 OpenAI o3-mini，企業版訪問權限將在一週內開放。

作為此次升級的一部分，OpenAI 將 Plus 和 Team 用戶的速率限制從 o1-mini 的每天 50 條消息提高到 o3-mini 的每天 150 條消息。此外，o3-mini 現在可以使用搜索功能，提供帶有相關網絡來源鏈接的最新答案。這是其在推理模型中整合搜索功能的早期原型。

從今天開始，免費用戶也可以通過在消息編輯器中選擇「推理」或重新生成響應來試用 OpenAI o3-mini。這是 OpenAI 首次向 ChatGPT 的免費用戶提供推理模型。

雖然 OpenAI o1 仍然是更廣泛使用的通用知識推理模型，但 OpenAI o3-mini 為需要精確性和速度的技術領域提供了專門的替代選擇。在 ChatGPT 中，o3-mini 使用中等推理級別來提供速度和準確性之間的平衡。所有付費用戶還可以在模型選擇器中選擇 o3-mini-high，從而獲得需要更長時間生成響應但智能水平更高的版本。Pro 用戶將可以無限制地訪問 o3-mini 和 o3-mini-high。

對於此次發佈，網民反饋如何？

知名播客主理人 Lex Fridman 表示，OpenAI o3-mini 雖然是一個很好的模型，但 DeepSeek r1 的性能相似，而且更便宜，並揭示推理過程。

他甚至給出了「DeepSeek moment」這樣一個詞形容 DeepSeek 帶來的深遠影響。

接下來，就讓我們看下 o3-mini 的性能指標：

快速、強大且針對 STEM 推理優化

與其前身 OpenAI o1 類似，OpenAI o3-mini 針對 STEM 推理進行了優化。o3-mini-medium 在數學、編程和科學領域的表現與 o1 相當，同時響應速度更快。專家測試人員的評估顯示，o3-mini 產生的答案比 o1-mini 更準確、更清晰，推理能力更強。測試人員在 56% 的情況下更偏好 o3-mini 的響應，並觀察到 o3-mini 在困難的現實問題上重大錯誤減少了 39%。o3-mini-medium 在一些最具挑戰性的推理和智能評估（包括 AIME 和 GPQA）上與 o1 的表現相當。

競賽數學（AIME 2024）：

競賽數學：o3-mini-low 與 o1-mini 的表現相當。o3-mini-medium 達到與 o1 相當的表現。o3-mini-high 超過了 o1-mini 和 o1，上圖中灰色陰影區域為 64 個樣本的多數投票（共識）。

博士級科學問題（GPQA Diamond）：

博士極科學問題：o3-mini-low 的表現優於 o1-mini。o3-mini-high 的表現與 o1 相當，在博士級生物學、化學和物理問題上都顯示出顯著進步。

研究級數學（FrontierMath）：

研究級數學：o3-mini-high 在 FrontierMath 上的表現優於其前代產品。使用 Python 工具時，o3-mini-high 能夠在首次嘗試時解決超過 32% 的問題，包括超過 28% 的具有挑戰性的（T3）問題。

競賽編程（Codeforces）：

在 Codeforces 編程中， o3-mini 隨著推理努力級別的提高獲得了越來越高的 Elo 分數，均優於 o1-mini。o3-mini-medium 達到了與 o1 相當的表現。

軟件工程（SWE-bench Verified）：

軟件工程：o3-mini 是 OpenAI 發佈的在 SWEbench-verified 上表現最好的模型。o3-mini-high 使用開源 Agentless 框架可達到 39% 的準確率，使用內部工具可達到 61% 的準確率。

LiveBench 編碼：

LiveBench 編碼：即便是 o3-mini-medium 也超過了 o1-high，突顯了其在編碼任務中的效率。o3-mini-high 進一步擴大了領先優勢，在關鍵指標上取得了顯著更強的表現。

普通知識問題：

普通知識問題：o3-mini 在各個一般性知識領域的評估中都優於 o1-mini。

人類偏好評估：

人類偏好評估：外部專家測試人員的評估顯示， o3-mini 產生的答案比 o1-mini 更準確、更清晰，推理能力更強，特別是在 STEM 領域。測試人員在 56% 的情況下更偏好 o3-mini 的響應，並觀察到 o3-mini 在困難的現實問題上重大錯誤減少了 39%。

模型速度和性能

o3-mini 在保持與 OpenAI o1 相當的智能水平的同時，提供了更快的性能和更高的效率。除了上述 STEM 評估外，o3-mini-medium 的其他數學和事實性評估中也展現出優越的結果。在 A/B 測試中，o3-mini 的響應速度比 o1-mini 快 24%，平均響應時間為 7.7 秒，而 o1-mini 為 10.16 秒。

延遲：o3-mini 的首個 token 生成時間平均比 o1-mini 快 2500 毫秒。

安全

OpenAI 教導 o3-mini 安全響應的主要技術之一是審慎對齊（deliberative alignment），這種對齊方式訓練模型在回答用戶提示之前，先對人工編寫的安全規範進行充分的思考和推理。與 OpenAI o1 類似，研究人員發現 o3-mini 在具有挑戰性的安全性和越獄評估上顯著超越了 GPT-4o。在部署之前，OpenAI 使用了與 o1 相同的準備方法、外部紅隊測試和安全性評估來仔細評估 o3-mini 的安全風險。

審慎對齊評估結果

越獄評估結果

未來展望

OpenAI o3-mini 的發佈標誌著 OpenAI 在推進高性價比智能方面又邁出了一步。通過優化 STEM 領域的推理能力，同時保持低成本，OpenAI 正在使高質量 AI 變得更加容易獲取。該模型延續了其降低智能成本的記錄 —— 自 GPT-4 推出以來，每個 token 的定價降低了 95%—— 同時保持頂級推理能力。隨著 AI 應用的擴展，OpenAI 仍然致力於在前沿領域引領，構建即使在大規模部署和使用的情況下，也能保持智能、效率與安全平衡的模型。

你可能喜歡