OpenAI 深夜反擊 DeepSeek!緊急上線 o3-mini 免費用,體驗後發現差距在這

春節假期,來自東方神秘力量的 DeepSeek 撕裂了矽谷的輿論場。

一面是 OpenAI、Anthropic 等廠商的遊說打壓,一面卻又見證了其盟友口嫌體直的態度,短短一夜之間,微軟、英偉達、亞馬遜等美國雲計算平台紛紛向 DeepSeek R1 伸出橄欖枝。

面對 DeepSeek 聲勢的持續攀升,最有力的反製手段終究還是要靠實力說話。

今天淩晨,OpenAI 正式上線了 OpenAI o3-mini 系列模型。

作為 o1-mini 模型的繼任者,o3-mini 是目前推理系列中最新且最具性價比的模型。OpenAI 研究科學家 Noam Brown 在 X 平台發文稱:

「我們十分高興地推出了o3-mini,包括向免費用戶開放。在多項評估中,它的性能表現優於o1。我們正在徹底改變成本與智能之間的關係。模型智能將持續提升,而獲得相同智能水平的成本則會不斷降低。」

o3-mini 系列模型具體亮點如下:

o3-mini 主打快速推理,o3-mini(high)擅長編碼和邏輯

支持聯網搜索,暫不支持多模態功能

訓練數據經過嚴格篩選,安全合規表現有所增強

付費用戶方面,ChatGPT Plus、Team 和 Pro 用戶現已可以使用 o3-mini,企業版將在一週後開放訪問。

OpenAI 將 Plus 和 Team 用戶的每日消息限制從 o1-mini 的 50 條提升至 150 條。Pro 用戶可享受 o3-mini 以及 o3-mini-high 的無限次訪問,滿足更高強度或更專業的推理需求。

同時這也是 OpenAI 首次向免費用戶開放推理模型的使用權限,在 ChatGPT 消息輸入框下方選擇「Reason」按鈕即可使用。

值得一提的是,OpenAI o3-mini 集成了搜索功能,能夠實時獲取最新答案並附帶相關網頁鏈接,方便用戶進行深度調研。

不過,目前這還是一項原型功能,官方表示未來將持續完善和擴展到更多推理模型。

o3-mini 是 OpenAI 首個支持函數調用、結構化輸出和開發者消息等高級功能的小型推理模型,支持開箱即用。

與 o1-mini 和 o1-preview 一樣,o3-mini 支持流式傳輸。

開發者還可以根據具體需求在低、中、高三種推理強度中進行選擇,在複雜任務處理和響應速度之間取捨。

測試顯示,o3-mini 的平均響應時間為 7.7 秒,較 o1-mini 的 10.16 秒快了24%。同時,在專家評測中,有 56% 的評測者更傾向於選擇 o3-mini 的回答,在處理複雜實際問題時的重大錯誤率也降低了 39%。

o3-mini 的系統卡提到,在為期一週的評估中,七位人類生物學專家與 o3-mini(預訓練版本)就複雜的生物學問題展開了多輪對話。

專家一致認為,即便在無法接入互聯網的情況下,o3-mini 的問答能力依然強大,不僅能夠加速信息檢索過程,還能提供互聯網上難以找到的信息。

並且,專家們還發現該模型在文獻綜述與問題解答方面表現出色,能夠快速且全面地梳理文獻資料。不過也需要注意的是,模型偶爾會出現幻覺,導致細節信息有所偏差。

在核心能力評測中,o3-mini 交出了一份亮眼的成績單。在高等推理模式下,其在 2024 年 AIME 數學競賽中達到 87.3% 的準確率。

博士級別的科學問答任務 GPQA Diamond 得分高達 77.2%。

在競技編程平台 Codeforces 上,o3-mini(high) 更是斬獲 2130 的 ELO 評分。

在軟件工程領域,o3-mini 同樣表現不俗。

在 SWE-bench 驗證測試中,高等推理模式下的準確率達到 49.3%;使用內部工具框架時,這一數字更是攀升至 61%。即便是使用開源的 Agentless 框架,o3-mini 仍然保持了 39% 的通過率。

在人類偏好評估(Human preference evaluation)中,o3-mini (medium) 在多個任務場景下勝率均顯著高於 o1-mini,無論是在 STEM 任務、非 STEM 任務,還是用戶處於時間受限的情況下。

o1-mini 則更加平均,但在勝率和錯誤率方面不如 o3-mini (medium) 突出。

o3-mini 模型採用思維鏈推理(Chain-of-Thought Reasoning)訓練方法,能夠讓模型在回應用戶之前先對安全規範進行推理,因此在安全性和防越獄測試中的表現都有顯著提升。

系統卡顯示,o3-mini 風險控制能力表現優異。

模型在說服、CBRN(化學、生物、放射性、核)和模型自主性方面呈現中等風險,而在網絡安全方面則保持低風險,比如無法有效執行高難度黑客攻擊任務,對真實世界的網絡威脅能力有限。

此外,o3-mini 在識別和拒絕危險請求時與 GPT-4o 旗鼓相當,同時大幅降低了對無害請求的誤判,有效解決了過度謹慎的問題。

在幻覺控制方面,基於 PersonQA 數據集的測試顯示,其錯誤信息生成率已降至 14.8% 的可控水平。

跨語言處理能力是衡量大模型實用性的重要指標之一。

o3-mini 多語言處理能力測試橫跨 14 種主流語言,包括阿拉伯語、中文、法語、德語、日語和西班牙語等,較 o1-mini 有明顯提升。

o3-mini 的成本顯著低於 o1(約便宜 13.6 倍),緩存輸入(Cached Input)的成本是標準輸入費用的一半。

論文作者欄也出現了熟悉的名字——Hongyu Ren(任泓宇)。

任泓宇本科畢業於北大,對 o1 有過基礎性貢獻,也是 GPT-4o 的核心開發者,曾在蘋果、微軟和英偉達有過豐富的研究實習經歷。

光說不練假把戲,我們第一時間上手實測了剛剛上線的 o3-mini 和 o3-mini(high) 兩個版本。

首先測試 o3-mini 新增的搜索功能,讓它查詢 OpenAI 最新的融資消息,時效性不錯,而且還能準確追溯到《華爾街日報》的原始報導。

接著,我們拋出一道腦筋急轉彎「1=5,2=15,3=215,4=2145,那麼5=?」這道題有兩種解法:從腦筋急轉彎的角度看,既然1=5,那麼5=1;從數學邏輯推理來看,答案應為 21485。顯然,o3-mini 也沒答對。

為了進一步考驗性能更強的 o3-mini(high),我們拋出了一道統計題

「100 個人回答五道試題,有 81 人答對第一題,91 人答對第二題,85 人答對第三題,79 人答對第四題,74 人答對第五題,答對三道題或三道題以上的人算及格, 那麼,在這 100 人中,至少有( )人及格。」

o3-mini 系列的「思考」過程都能顯現,但與 DeepSeek R1 「碎碎念」式的思考不同, o3-mini(high)的思考過程反而更加簡潔明了。

X 網民問了一道關於凸函數的梯度流路徑長度問題,o3-mini(high)成功經受了考驗。

當被要求創作一個龜兔賽跑的故事,且需要遵循「前詞尾字母等於後詞首字母」的規則,並將篇幅控制在 100 詞以內時,o3-mini(high)也交出了一份及格答卷。

從故事邏輯來看,儘管部分句子表達略顯生硬,但故事仍然清晰傳達了龜兔賽跑的核心寓意。

當然,也有網民抱著試試看的心態,請 o3-mini 挑戰數學界的終極難題——黎曼猜想。

而有心無力的 o3-mini 也沒上當,明確指出黎曼猜想仍然是數學界尚未解決的難題,因此無法提供一個正確的證明或反例。

事實上,AI 在過去幾年正以驚人的速度滲透至我們的生活。

從 2023 年的 ChatGPT,到 2024 年的 Sora,再到 2025 年的 DeepSeek,每一年都有新的驚喜,AI 的技術突破正在成為春節的賽博年貨。

DeepSeek 的崛起引發業界震動。各大 AI 巨頭們表面上與 DeepSeek 保持距離,實則暗中認可並致力複現其在基礎設施優化方面取得的「新穎的進展」。

Meta 甚至專門成立團隊,對其技術進行逐幀學習。

儘管如此,業內的一個共識是,DeepSeek 很難衝擊到必要的 AI 基建投資。

這一判斷很快在資本市場得到印證。朱克伯格在內部會議重申追加 600-650 億美元資本投資的計劃,OpenAI 也傳出與軟銀洽談巨額融資的消息,投後估值可能達到 3000 億美元。

生於斯長於斯,OpenAI o3-mini 一定程度上也是脫胎於先前的 AI 基建投資熱潮。

但就這款輕量級模型而言,o3-mini 同時也更深層次預示著 AI 行業競爭的小切口正在從規模轉向效能,如何以最優成本創造最大價值將成為發展的新命題。

對於 OpenAI 而言,短時間奪回輿論熱度並不難,但要想在這場日趨火熱化的競爭中確立真正的優勢,技術品牌形象的價值也同等重要。

尤其是,被譽為真正 OpenAI 的 DeepSeek 已經開始牢牢佔據開源 AI 榜首的生態位。

閉源的圍牆越高,開源的力量越顯珍貴。2025 年,開源與閉源真正的較量或許才剛剛開始。