OpenAI深夜反擊DeepSeek,緊急上線o3-mini免費用

春節假期,來自東方神秘力量的DeepSeek撕裂了矽谷的輿論場。

一面是OpenAI、Anthropic等廠商的遊說打壓,一面卻又見證了其盟友口嫌體直的態度,短短一夜之間,微軟、英偉達、亞馬遜等美國雲計算平台紛紛向DeepSeek R1伸出橄欖枝。

面對DeepSeek聲勢的持續攀升,最有力的反製手段終究還是要靠實力說話。

今天淩晨,OpenAI正式上線了OpenAI o3-mini系列模型。

作為o1-mini模型的繼任者,o3-mini是目前推理系列中最新且最具性價比的模型。OpenAI研究科學家Noam Brown在X平台發文稱:

「我們十分高興地推出了o3-mini,包括向免費用戶開放。在多項評估中,它的性能表現優於o1。我們正在徹底改變成本與智能之間的關係。模型智能將持續提升,而獲得相同智能水平的成本則會不斷降低。」

o3-mini系列模型具體亮點如下:

  • o3-mini主打快速推理,o3-mini(high)擅長編碼和邏輯;

  • 支持聯網搜索,暫不支持多模態功能;

  • 訓練數據經過嚴格篩選,安全合規表現有所增強

付費用戶方面,ChatGPT Plus、Team和Pro用戶現已可以使用o3-mini,企業版將在一週後開放訪問。

OpenAI將Plus和Team用戶的每日消息限制從o1-mini的50條提升至150條。Pro用戶可享受o3-mini以及o3-mini-high的無限次訪問,滿足更高強度或更專業的推理需求。

同時這也是OpenAI首次向免費用戶開放推理模型的使用權限,在ChatGPT消息輸入框下方選擇「Reason」按鈕即可使用。

值得一提的是,OpenAI o3-mini集成了搜索功能,能夠實時獲取最新答案並附帶相關網頁鏈接,方便用戶進行深度調研。

不過,目前這還是一項原型功能,官方表示未來將持續完善和擴展到更多推理模型。

o3-mini是OpenAI首個支持函數調用、結構化輸出和開發者消息等高級功能的小型推理模型,支持開箱即用。

與o1-mini和o1-preview一樣,o3-mini支持流式傳輸。

開發者還可以根據具體需求在低、中、高三種推理強度中進行選擇,在複雜任務處理和響應速度之間取捨。

測試顯示,o3-mini的平均響應時間為7.7秒,較o1-mini的10.16秒快了24%。同時,在專家評測中,有56%的評測者更傾向於選擇o3-mini的回答,在處理複雜實際問題時的重大錯誤率也降低了39%。

o3-mini的系統卡提到,在為期一週的評估中,七位人類生物學專家與o3-mini(預訓練版本)就複雜的生物學問題展開了多輪對話。

專家一致認為,即便在無法接入互聯網的情況下,o3-mini的問答能力依然強大,不僅能夠加速信息檢索過程,還能提供互聯網上難以找到的信息。

並且,專家們還發現該模型在文獻綜述與問題解答方面表現出色,能夠快速且全面地梳理文獻資料。不過也需要注意的是,模型偶爾會出現幻覺,導致細節信息有所偏差。

在核心能力評測中,o3-mini交出了一份亮眼的成績單。在高等推理模式下,其在2024年AIME數學競賽中達到87.3%的準確率。

博士級別的科學問答任務GPQA Diamond得分高達77.2%。

在競技編程平台Codeforces上,o3-mini(high)更是斬獲2130的ELO評分。

在軟件工程領域,o3-mini同樣表現不俗。

在SWE-bench驗證測試中,高等推理模式下的準確率達到49.3%;使用內部工具框架時,這一數字更是攀升至61%。即便是使用開源的Agentless框架,o3-mini仍然保持了39%的通過率。

在人類偏好評估(Human preference evaluation)中,o3-mini(medium)在多個任務場景下勝率均顯著高於o1-mini,無論是在STEM任務、非STEM任務,還是用戶處於時間受限的情況下。

o1-mini則更加平均,但在勝率和錯誤率方面不如o3-mini(medium)突出。

o3-mini模型採用思維鏈推理(Chain-of-Thought Reasoning)訓練方法,能夠讓模型在回應用戶之前先對安全規範進行推理,因此在安全性和防越獄測試中的表現都有顯著提升。

系統卡顯示,o3-mini風險控制能力表現優異。

模型在說服、CBRN(化學、生物、放射性、核)和模型自主性方面呈現中等風險,而在網絡安全方面則保持低風險,比如無法有效執行高難度黑客攻擊任務,對真實世界的網絡威脅能力有限。

此外,o3-mini在識別和拒絕危險請求時與GPT-4o旗鼓相當,同時大幅降低了對無害請求的誤判,有效解決了過度謹慎的問題。

在幻覺控制方面,基於PersonQA數據集的測試顯示,其錯誤信息生成率已降至14.8%的可控水平。

跨語言處理能力是衡量大模型實用性的重要指標之一。

o3-mini多語言處理能力測試橫跨14種主流語言,包括阿拉伯語、中文、法語、德語、日語和西班牙語等,較o1-mini有明顯提升。

o3-mini的成本顯著低於o1(約便宜13.6倍),緩存輸入(Cached Input)的成本是標準輸入費用的一半。

論文作者欄也出現了熟悉的名字——Hongyu Ren(任泓宇)

任泓宇本科畢業於北大,對o1有過基礎性貢獻,也是GPT-4o的核心開發者,曾在蘋果、微軟和英偉達有過豐富的研究實習經歷。

光說不練假把戲,我們第一時間上手實測了剛剛上線的o3-mini和o3-mini(high)兩個版本。

首先測試o3-mini新增的搜索功能,讓它查詢OpenAI最新的融資消息,時效性不錯,而且還能準確追溯到《華爾街日報》的原始報導。

接著,我們拋出一道腦筋急轉彎「1=5,2=15,3=215,4=2145,那麼5=?」這道題有兩種解法:從腦筋急轉彎的角度看,既然1=5,那麼5=1;從數學邏輯推理來看,答案應為21485。顯然,o3-mini也沒答對。

為了進一步考驗性能更強的o3-mini(high),我們拋出了一道統計題

「100個人回答五道試題,有81人答對第一題,91人答對第二題,85人答對第三題,79人答對第四題,74人答對第五題,答對三道題或三道題以上的人算及格,那麼,在這100人中,至少有()人及格。」

o3-mini系列的「思考」過程都能顯現,但與DeepSeek R1「碎碎念」式的思考不同,o3-mini(high)的思考過程反而更加簡潔明了。

X網民問了一道關於凸函數的梯度流路徑長度問題,o3-mini(high)成功經受了考驗。

當被要求創作一個龜兔賽跑的故事,且需要遵循「前詞尾字母等於後詞首字母」的規則,並將篇幅控制在100詞以內時,o3-mini(high)也交出了一份及格答卷。

從故事邏輯來看,儘管部分句子表達略顯生硬,但故事仍然清晰傳達了龜兔賽跑的核心寓意。

當然,也有網民抱著試試看的心態,請o3-mini挑戰數學界的終極難題——黎曼猜想。

而有心無力的o3-mini也沒上當,明確指出黎曼猜想仍然是數學界尚未解決的難題,因此無法提供一個正確的證明或反例。

事實上,AI在過去幾年正以驚人的速度滲透至我們的生活。

從2023年的ChatGPT,到2024年的Sora,再到2025年的DeepSeek,每一年都有新的驚喜,AI的技術突破正在成為春節的賽博年貨。

DeepSeek的崛起引發業界震動。各大AI巨頭們表面上與DeepSeek保持距離,實則暗中認可並致力複現其在基礎設施優化方面取得的「新穎的進展」。

Meta甚至專門成立團隊,對其技術進行逐幀學習。

儘管如此,業內的一個共識是,DeepSeek很難衝擊到必要的AI基建投資。

這一判斷很快在資本市場得到印證。朱克伯格在內部會議重申追加600-650億美元資本投資的計劃,OpenAI也傳出與軟銀洽談巨額融資的消息,投後估值可能達到3000億美元。

生於斯長於斯,OpenAI o3-mini一定程度上也是脫胎於先前的AI基建投資熱潮。

但就這款輕量級模型而言,o3-mini同時也更深層次預示著AI行業競爭的小切口正在從規模轉向效能,如何以最優成本創造最大價值將成為發展的新命題。

對於OpenAI而言,短時間奪回輿論熱度並不難,但要想在這場日趨火熱化的競爭中確立真正的優勢,技術品牌形象的價值也同等重要。

尤其是,被譽為真正OpenAI的DeepSeek已經開始牢牢佔據開源AI榜首的生態位。

閉源的圍牆越高,開源的力量越顯珍貴。2025年,開源與閉源真正的較量或許才剛剛開始。

本文來自微信公眾號:APPSO (ID:appsolution),作者:appso