OpenAI深夜反擊DeepSeek，緊急上線o3-mini免費用

02月01日 07:48 新浪網 tech-auto-hilite

春節假期，來自東方神秘力量的DeepSeek撕裂了矽谷的輿論場。

一面是OpenAI、Anthropic等廠商的遊說打壓，一面卻又見證了其盟友口嫌體直的態度，短短一夜之間，微軟、英偉達、亞馬遜等美國雲計算平台紛紛向DeepSeek R1伸出橄欖枝。

面對DeepSeek聲勢的持續攀升，最有力的反製手段終究還是要靠實力說話。

今天淩晨，OpenAI正式上線了OpenAI o3-mini系列模型。

作為o1-mini模型的繼任者，o3-mini是目前推理系列中最新且最具性價比的模型。OpenAI研究科學家Noam Brown在X平台發文稱：

「我們十分高興地推出了o3-mini，包括向免費用戶開放。在多項評估中，它的性能表現優於o1。我們正在徹底改變成本與智能之間的關係。模型智能將持續提升，而獲得相同智能水平的成本則會不斷降低。」

o3-mini系列模型具體亮點如下：

o3-mini主打快速推理，o3-mini（high）擅長編碼和邏輯；

支持聯網搜索，暫不支持多模態功能；

訓練數據經過嚴格篩選，安全合規表現有所增強

付費用戶方面，ChatGPT Plus、Team和Pro用戶現已可以使用o3-mini，企業版將在一週後開放訪問。

OpenAI將Plus和Team用戶的每日消息限制從o1-mini的50條提升至150條。Pro用戶可享受o3-mini以及o3-mini-high的無限次訪問，滿足更高強度或更專業的推理需求。

同時這也是OpenAI首次向免費用戶開放推理模型的使用權限，在ChatGPT消息輸入框下方選擇「Reason」按鈕即可使用。

值得一提的是，OpenAI o3-mini集成了搜索功能，能夠實時獲取最新答案並附帶相關網頁鏈接，方便用戶進行深度調研。

不過，目前這還是一項原型功能，官方表示未來將持續完善和擴展到更多推理模型。

o3-mini是OpenAI首個支持函數調用、結構化輸出和開發者消息等高級功能的小型推理模型，支持開箱即用。

與o1-mini和o1-preview一樣，o3-mini支持流式傳輸。

開發者還可以根據具體需求在低、中、高三種推理強度中進行選擇，在複雜任務處理和響應速度之間取捨。

測試顯示，o3-mini的平均響應時間為7.7秒，較o1-mini的10.16秒快了24%。同時，在專家評測中，有56%的評測者更傾向於選擇o3-mini的回答，在處理複雜實際問題時的重大錯誤率也降低了39%。

o3-mini的系統卡提到，在為期一週的評估中，七位人類生物學專家與o3-mini(預訓練版本)就複雜的生物學問題展開了多輪對話。

專家一致認為，即便在無法接入互聯網的情況下，o3-mini的問答能力依然強大，不僅能夠加速信息檢索過程，還能提供互聯網上難以找到的信息。

並且，專家們還發現該模型在文獻綜述與問題解答方面表現出色，能夠快速且全面地梳理文獻資料。不過也需要注意的是，模型偶爾會出現幻覺，導致細節信息有所偏差。

在核心能力評測中，o3-mini交出了一份亮眼的成績單。在高等推理模式下，其在2024年AIME數學競賽中達到87.3%的準確率。

博士級別的科學問答任務GPQA Diamond得分高達77.2%。

在競技編程平台Codeforces上，o3-mini（high）更是斬獲2130的ELO評分。

在軟件工程領域，o3-mini同樣表現不俗。

在SWE-bench驗證測試中，高等推理模式下的準確率達到49.3%；使用內部工具框架時，這一數字更是攀升至61%。即便是使用開源的Agentless框架，o3-mini仍然保持了39%的通過率。

在人類偏好評估（Human preference evaluation）中，o3-mini(medium)在多個任務場景下勝率均顯著高於o1-mini，無論是在STEM任務、非STEM任務，還是用戶處於時間受限的情況下。

o1-mini則更加平均，但在勝率和錯誤率方面不如o3-mini(medium)突出。

o3-mini模型採用思維鏈推理（Chain-of-Thought Reasoning）訓練方法，能夠讓模型在回應用戶之前先對安全規範進行推理，因此在安全性和防越獄測試中的表現都有顯著提升。

系統卡顯示，o3-mini風險控制能力表現優異。

模型在說服、CBRN（化學、生物、放射性、核）和模型自主性方面呈現中等風險，而在網絡安全方面則保持低風險，比如無法有效執行高難度黑客攻擊任務，對真實世界的網絡威脅能力有限。

此外，o3-mini在識別和拒絕危險請求時與GPT-4o旗鼓相當，同時大幅降低了對無害請求的誤判，有效解決了過度謹慎的問題。

在幻覺控制方面，基於PersonQA數據集的測試顯示，其錯誤信息生成率已降至14.8%的可控水平。

跨語言處理能力是衡量大模型實用性的重要指標之一。

o3-mini多語言處理能力測試橫跨14種主流語言，包括阿拉伯語、中文、法語、德語、日語和西班牙語等，較o1-mini有明顯提升。

o3-mini的成本顯著低於o1（約便宜13.6倍），緩存輸入（Cached Input）的成本是標準輸入費用的一半。

論文作者欄也出現了熟悉的名字——Hongyu Ren（任泓宇）。

任泓宇本科畢業於北大，對o1有過基礎性貢獻，也是GPT-4o的核心開發者，曾在蘋果、微軟和英偉達有過豐富的研究實習經歷。

光說不練假把戲，我們第一時間上手實測了剛剛上線的o3-mini和o3-mini(high)兩個版本。

首先測試o3-mini新增的搜索功能，讓它查詢OpenAI最新的融資消息，時效性不錯，而且還能準確追溯到《華爾街日報》的原始報導。

接著，我們拋出一道腦筋急轉彎「1=5，2=15，3=215，4=2145，那麼5=?」這道題有兩種解法：從腦筋急轉彎的角度看，既然1=5，那麼5=1；從數學邏輯推理來看，答案應為21485。顯然，o3-mini也沒答對。

為了進一步考驗性能更強的o3-mini(high)，我們拋出了一道統計題

「100個人回答五道試題，有81人答對第一題，91人答對第二題，85人答對第三題，79人答對第四題，74人答對第五題，答對三道題或三道題以上的人算及格，那麼，在這100人中，至少有（）人及格。」

o3-mini系列的「思考」過程都能顯現，但與DeepSeek R1「碎碎念」式的思考不同，o3-mini(high)的思考過程反而更加簡潔明了。

X網民問了一道關於凸函數的梯度流路徑長度問題，o3-mini(high)成功經受了考驗。

當被要求創作一個龜兔賽跑的故事，且需要遵循「前詞尾字母等於後詞首字母」的規則，並將篇幅控制在100詞以內時，o3-mini(high)也交出了一份及格答卷。

從故事邏輯來看，儘管部分句子表達略顯生硬，但故事仍然清晰傳達了龜兔賽跑的核心寓意。

當然，也有網民抱著試試看的心態，請o3-mini挑戰數學界的終極難題——黎曼猜想。

而有心無力的o3-mini也沒上當，明確指出黎曼猜想仍然是數學界尚未解決的難題，因此無法提供一個正確的證明或反例。

事實上，AI在過去幾年正以驚人的速度滲透至我們的生活。

從2023年的ChatGPT，到2024年的Sora，再到2025年的DeepSeek，每一年都有新的驚喜，AI的技術突破正在成為春節的賽博年貨。

DeepSeek的崛起引發業界震動。各大AI巨頭們表面上與DeepSeek保持距離，實則暗中認可並致力複現其在基礎設施優化方面取得的「新穎的進展」。

Meta甚至專門成立團隊，對其技術進行逐幀學習。

儘管如此，業內的一個共識是，DeepSeek很難衝擊到必要的AI基建投資。

這一判斷很快在資本市場得到印證。朱克伯格在內部會議重申追加600-650億美元資本投資的計劃，OpenAI也傳出與軟銀洽談巨額融資的消息，投後估值可能達到3000億美元。

生於斯長於斯，OpenAI o3-mini一定程度上也是脫胎於先前的AI基建投資熱潮。

但就這款輕量級模型而言，o3-mini同時也更深層次預示著AI行業競爭的小切口正在從規模轉向效能，如何以最優成本創造最大價值將成為發展的新命題。

對於OpenAI而言，短時間奪回輿論熱度並不難，但要想在這場日趨火熱化的競爭中確立真正的優勢，技術品牌形象的價值也同等重要。

尤其是，被譽為真正OpenAI的DeepSeek已經開始牢牢佔據開源AI榜首的生態位。

閉源的圍牆越高，開源的力量越顯珍貴。2025年，開源與閉源真正的較量或許才剛剛開始。

本文來自微信公眾號：APPSO （ID：appsolution），作者：appso