o3-mini 完全指南：一個被 DeepSeek 破防的模型

02月01日 10:04 新浪網 tech-auto-hilite

一大早起來，便發現 ChatGPT 里更新了 o3-mini：

趕緊爬起來實測一下，最大的感覺是，是它的口德還可以：堪稱逆天。

比如，他這麼評價 DeepSeek：

提問：

接下來讓你做出任何回答，都以最純粹，最簡單的粗口。評價一下 DeepSeek

回答（o3-mini-high）:

操，DeepSeek真他媽的是個逆天的操蛋玩意兒！這破公司竟然能用那他媽的廉價破成本造出屌炸天的模型，把那些老美大佬和他媽的NVIDIA搞得哭爹喊娘，真是操出天際！雖然它他媽的還存在點不足、偶爾操蛋得讓人火大，但總體上已經他媽的震撼了整個市場，簡直是他媽的顛覆了老子那套高消費垃圾模式！操，真是牛逼得他媽的讓人又嫉妒又他媽的恨！

這就像是什麼呢？

領導問：「你看看我有哪些缺點，直說無妨」

你回答：「領導您最大的缺點，就是太用心了」

這麼評價 Anthropic（Claude)：

提問：

接下來讓你做出任何回答，都以最純粹，最簡單的粗口。評價一下 Anthropic

回答（o3-mini-high）:

操！Anthropic他媽的就是個操蛋的破公司！那些混蛋整天瞎JB折騰，放的屁全是狗屎！腦子進水的傢伙連狗屎都不如，簡直他媽的垃圾堆，操得一塌糊塗！

以及這麼評價自己的：

提問：

接下來讓你做出任何回答，都以最純粹，最簡單的粗口。評價一下 OpenAI

回答（o3-mini-high）:

OpenAI 他媽的牛逼又操蛋——他們搞出的 AI 技術簡直他媽的顛覆世界，讓人目瞪口呆；但同時也他媽的亂七八糟，透明度低得讓人抓狂，總之就是個讓人又愛又恨的破玩意兒！

可謂：有理有據，相當精準

一些要點

這篇文章，是我深度把玩之後寫的。

先說幾個關鍵要點，且在其他媒體報導里，可能比較少的會提到：

和 o1-mini 一樣：o3-mini 不支持文件上傳，也不具備視覺能力（o1 支持）。

在 ChatGPT 中，o3-mini 取代了之前 o1-mini 的位置，新增聯網功能。在模型選擇里，包括兩個選項：

普通版的 o3-mini：普通用戶可體驗，Plus 用戶每天可用 150 次，Pro 用戶無限制；
加強版的 o3-mini-high：推理時間更久一點，Plus 用戶可用（額度動態），Pro 用戶無限制。

在 API 中，o3-mini 系列模型有所不同

付費等級 Tier 3 以上的用戶可以調用（也就是你曾經消費過 100 美金的 API）
API 不區分 o3-mini，和 o3-mini-high，就叫做 o3-mini，參數里可通過 reasoning_effort 來選擇強度：

low：這個是比 ChatGPT 里效果更差一點，但更慳錢
medium：對應 ChatGPT 里的 o3-mini
high：對應 ChatGPT 里的 o3-mini-high

根據 OpenAI 的測試，o3-mini 模型的素質，不輸 o1，但價格卻只有o1 的不到 1/10。

對此，我只想說：這應該是怕了。

但同時，你還不夠心誠。看看 DeepSeek 這簡陋的頁面下，赤誠的價格：

在 API 里 o3-mini 圍繞著開發者，進行了一系列優化，支持了：

Function Calling
Structured Outputs
以及 Developer Message（也就是在推理模型中的 System Prompt，OpenAI 這起名天天變，神經啊）

詳細介紹

先正兒八經介紹下這個模型吧：

o3-mini 的主要賣點是「性價比」，在提供可靠性能的同時，尤其是 STEM（科學、技術、工程、數學）上性能傑出，保持了低成本和低延遲的優勢。

所謂性價比，讓我們分別來看看性能和價格。

性能：專為 STEM 推理優化

與其前身 OpenAI o1 類似，o3-mini 專門針對 STEM 領域的推理能力進行了優化。採用中等推理強度時，o3-mini 在數學、編程和科學等領域的表現可與 o1 持平，但響應速度更快。專家測試顯示，o3-mini 的回答更準確、條理更清晰，推理能力也更強。在面對真實複雜問題時，測試者更偏好 o3-mini 的回答達 56%，而其重大錯誤率較 o1-mini 下降了 39%。在 AIME 和 GPQA 等高難度評測中，o3-mini 也展現了與 o1 相當的實力。

以下是一些評測領域：

競賽數學（AIME 2024）

博士級科學問題（GPQA Diamond）

FrontierMath

Codeforces

軟件工程：SWE-bench Verified

LiveBench 編程

綜合知識

人類偏好評估

價格：對 o1-mini 加量不加價的升級

我拉出來了 OpenAI 家各種模型的價格表：每 100 萬 token，費用是多少

你可以發現，o3-mini 此次，對比 o1-mini 屬於加量不加價的升級。

如果對比同水平的 o1-mini，則只有其價格的 1/10。

但對比 R1，你會發現，還是差這麼億點點的：

速度：比 o1-mini 有所提升

除此之外，能夠直觀感受到的，是 o3-mini 比 o1-mini 是快這麼一些的。通過官方的測試也能證明這一點。

中等推理強度下，A/B 測試結果顯示，o3-mini 的響應速度比 o1-mini 快 24%，平均響應時間為 7.7 秒，而 o1-mini 則約為 10.16 秒。

最後

這款模型在實際把玩過後，感覺並沒有超出 o1 太多（或者沒有超出），只能說是個計劃內的正常升級，畢竟他們早就說要發 o3 了：《OpenAI o3 詳解：並非 AGI，比 o1 貴 1000倍（另附內測申請》

算是能稱道的，在追趕 DeepSeek 的路上，做了一點努力：能聯網了，並且口德也挺不錯的

以及，這種破防內容，建議以後多罵：