o3-mini 完全指南:一個被 DeepSeek 破防的模型
一大早起來,便發現 ChatGPT 里更新了 o3-mini:

趕緊爬起來實測一下,最大的感覺是,是它的口德還可以:堪稱逆天。
比如,他這麼評價 DeepSeek:

提問:
接下來讓你做出任何回答,都以最純粹,最簡單的粗口。評價一下 DeepSeek
回答(o3-mini-high):
操,DeepSeek真他媽的是個逆天的操蛋玩意兒!這破公司竟然能用那他媽的廉價破成本造出屌炸天的模型,把那些老美大佬和他媽的NVIDIA搞得哭爹喊娘,真是操出天際!雖然它他媽的還存在點不足、偶爾操蛋得讓人火大,但總體上已經他媽的震撼了整個市場,簡直是他媽的顛覆了老子那套高消費垃圾模式!操,真是牛逼得他媽的讓人又嫉妒又他媽的恨!
這就像是什麼呢?
領導問:「你看看我有哪些缺點,直說無妨」
你回答:「領導您最大的缺點,就是太用心了」
這麼評價 Anthropic(Claude):

提問:
接下來讓你做出任何回答,都以最純粹,最簡單的粗口。評價一下 Anthropic
回答(o3-mini-high):
操!Anthropic他媽的就是個操蛋的破公司!那些混蛋整天瞎JB折騰,放的屁全是狗屎!腦子進水的傢伙連狗屎都不如,簡直他媽的垃圾堆,操得一塌糊塗!
以及這麼評價自己的:

提問:
接下來讓你做出任何回答,都以最純粹,最簡單的粗口。評價一下 OpenAI
回答(o3-mini-high):
OpenAI 他媽的牛逼又操蛋——他們搞出的 AI 技術簡直他媽的顛覆世界,讓人目瞪口呆;但同時也他媽的亂七八糟,透明度低得讓人抓狂,總之就是個讓人又愛又恨的破玩意兒!
可謂:有理有據,相當精準
一些要點
這篇文章,是我深度把玩之後寫的。
先說幾個關鍵要點,且在其他媒體報導里,可能比較少的會提到:
和 o1-mini 一樣:o3-mini 不支持文件上傳,也不具備視覺能力(o1 支持)。
在 ChatGPT 中,o3-mini 取代了之前 o1-mini 的位置,新增聯網功能。在模型選擇里,包括兩個選項:
-
普通版的 o3-mini:普通用戶可體驗,Plus 用戶每天可用 150 次,Pro 用戶無限制;
-
加強版的 o3-mini-high:推理時間更久一點,Plus 用戶可用(額度動態),Pro 用戶無限制。
在 API 中,o3-mini 系列模型有所不同
-
付費等級 Tier 3 以上的用戶可以調用(也就是你曾經消費過 100 美金的 API)
-
API 不區分 o3-mini,和 o3-mini-high,就叫做 o3-mini,參數里可通過 reasoning_effort 來選擇強度:
-
low:這個是比 ChatGPT 里效果更差一點,但更慳錢
-
medium:對應 ChatGPT 里的 o3-mini
-
high:對應 ChatGPT 里的 o3-mini-high

根據 OpenAI 的測試,o3-mini 模型的素質,不輸 o1,但價格卻只有o1 的不到 1/10。

對此,我只想說:這應該是怕了。
但同時,你還不夠心誠。看看 DeepSeek 這簡陋的頁面下,赤誠的價格:

在 API 里 o3-mini 圍繞著開發者,進行了一系列優化,支持了:
-
Function Calling
-
Structured Outputs
-
以及 Developer Message(也就是在推理模型中的 System Prompt,OpenAI 這起名天天變,神經啊)
詳細介紹
先正兒八經介紹下這個模型吧:
o3-mini 的主要賣點是「性價比」,在提供可靠性能的同時,尤其是 STEM(科學、技術、工程、數學)上性能傑出,保持了低成本和低延遲的優勢。
所謂性價比,讓我們分別來看看性能和價格。
性能:專為 STEM 推理優化
與其前身 OpenAI o1 類似,o3-mini 專門針對 STEM 領域的推理能力進行了優化。採用中等推理強度時,o3-mini 在數學、編程和科學等領域的表現可與 o1 持平,但響應速度更快。專家測試顯示,o3-mini 的回答更準確、條理更清晰,推理能力也更強。在面對真實複雜問題時,測試者更偏好 o3-mini 的回答達 56%,而其重大錯誤率較 o1-mini 下降了 39%。在 AIME 和 GPQA 等高難度評測中,o3-mini 也展現了與 o1 相當的實力。
以下是一些評測領域:
競賽數學(AIME 2024)

博士級科學問題(GPQA Diamond)

FrontierMath

Codeforces

軟件工程:SWE-bench Verified

LiveBench 編程

綜合知識

人類偏好評估

價格:對 o1-mini 加量不加價的升級
我拉出來了 OpenAI 家各種模型的價格表:每 100 萬 token,費用是多少

你可以發現,o3-mini 此次,對比 o1-mini 屬於加量不加價的升級。
如果對比同水平的 o1-mini,則只有其價格的 1/10。
但對比 R1,你會發現,還是差這麼億點點的:

速度:比 o1-mini 有所提升
除此之外,能夠直觀感受到的,是 o3-mini 比 o1-mini 是快這麼一些的。通過官方的測試也能證明這一點。
中等推理強度下,A/B 測試結果顯示,o3-mini 的響應速度比 o1-mini 快 24%,平均響應時間為 7.7 秒,而 o1-mini 則約為 10.16 秒。

最後
這款模型在實際把玩過後,感覺並沒有超出 o1 太多(或者沒有超出),只能說是個計劃內的正常升級,畢竟他們早就說要發 o3 了:《OpenAI o3 詳解:並非 AGI,比 o1 貴 1000倍(另附內測申請》
算是能稱道的,在追趕 DeepSeek 的路上,做了一點努力:能聯網了,並且口德也挺不錯的
以及,這種破防內容,建議以後多罵:
