科技

OpenAI發佈o3，更強也更貴了，仨月更新一代只為證明AGI還有戲

12月21日 09:26 新浪網 tech-auto-hilite

作者｜Jessica郵箱｜JessicaZhang@pingwest.com

今天是「12 Days of OpenAI」活動的最後一天。無論從前幾天發佈節奏還是時間點來看，都到了必須拿出真傢伙的時候。

果然，正如Sam Altman「oh oh oh」啞謎暗示的那樣，OpenAI終於官宣了推理模型系列的最新旗艦成員：o3和o3 mini。

團隊稱，這兩款模型在性能上實現了重大突破。能夠處理日益複雜的推理任務，標誌著」AI技術邁入了一個全新階段。」

有意思的是，作為 o1 的下一代模型，OpenAI 在命名時越過「o2」，直接跳到了o3。以此防止與英國電信運營商O2的商標衝突，避開潛在的法律糾紛。

o3模型：推理性能飆升，多項超人類專家

作為OpenAI當前性能最強的推理模型， o3在多項基準測試中表現卓越，特別是編程和數學領域顯著提升。

• 編程能力：在真實世界軟件任務評估（HumanEval-Verified）中，o3以71.7%的準確率刷新記錄，相比前代模型o1提升超過20%；在競爭性代碼編程平台（Competition Code）上的ELO評分高達2727，遠超o1的1891。

直播中， Sam問同時在教授競技編程的研究主管Mark能拿多少分，Mark回答自己在類似平台的最好成績大概是2500分。Sam隨即透露，o3的分數甚至超過了首席科學家Yakov。

當得知公司里有人能拿到 3000 多分後，Sam 調侃道：「他還能享受這優勢幾個月吧，o3在編程方面的表現確實不可思議。」

• 數學推理：o3在美國數學奧林匹克考試（AIME）中獲得前所未有的96.7%準確率，在博士級科學問題測試（GPQA Diamond）上準確率達到87.7%，顯著超過人類專家平均水平的 70%。

• 前沿測試五年來首次被攻克

Mark提到，在現有的傳統基準測試中，o3已接近飽和，突顯了更難測試的必要性。

最近，Epic AI的前沿數學基準測試脫穎而出，被認為是眼下最難的數學評估。該數據集包含全新、未發表且極端複雜的問題，即使專業數學家解決一道題也可能需數小時甚至數天時間。

目前市面上的所有產品在該測試中的準確率都低於2%，而o3在嚴格設置下準確率卻達到了25%以上，展現出強大的數學推理能力。

而更大的驚喜來自o3在Arc AGI測試中的表現。

Arc AGI是由François Chollet在2019年設計的一個獨特基準測試，旨在評估AI系統的通用智能水平。其特別之處在於，它不考察已學習的知識，而是要求模型通過觀察幾個示例，推斷新任務規則並即時學習。例如：

推斷規則「在空格處放置深藍色方塊」；

或「數出黃色方塊中的彩色方塊數量，再以此為寬度圍住黃色方塊」。

這些規則對人類來說直觀，但對 AI 系統卻極具挑戰性。

在這項五年來未被攻克的測試中，o3實現了歷史性突破：在低算力配置下，其準確率達到75.7%，創下公開記錄新高；在高算力下表現更是提升至87.5%，高於人類平均水平的85%。

這是AI系統首次在需要即時理解和學習新規則的任務中超越了人類表現，驗證了AI在新穎性適應方面的實質性進展。

不過，負責該測試的組織ARC Prize也表示，這並不代表已經實現了AGI。o3在某些簡單任務上仍有失誤，表明它與人類智能仍存在本質差異。他們會繼續舉辦大獎賽，直到出現一個取得85% 成績的高效開源的解決方案（圖中可見，高算力下的o3執行每個任務需要耗費1千美元）。

o3 mini：性能超o1，高效低成本的理想之選

針對需要在性能與成本之間取得平衡的應用場景，OpenAI推出了o3 mini。它繼承了此前o1 mini在數學和編碼方面的優勢，並在性價比上實現了更大突破。

最引人注目的是其創新的”自適應思考時間“功能，提供低、中、高三種推理強度選項，讓用戶能根據任務複雜度靈活調整模型的思考時間，就像給大腦切換不同的工作模式。

在實際的編程測試中，o3 mini在中等推理時間下性能已超越o1，而成本和延遲僅為其一小部分。意味者它能以更經濟的方式完成高難度的編程任務，為開發者提供了一個理想選擇。

研究科學家 Hongyu 通過幾個案例，演示了o3 mini在高、中、低三種強度模式下的真實世界優異表現：

1. 代碼生成與執行：

在高強度模式下，o3 mini被要求用Python編寫一個智能編程助手。該助手配備一個簡單的輸入框界面，用戶只需輸入需求，它就能生成並執行代碼。這一複雜任務充分展現了模型在編程場景中的高效性和精準性。

2. 自我評估能力：

在中強度模式下，o3 mini被要求評估自身在複雜 GPQA 數據集上的表現。模型生成了評估腳本，快速完成了數據集解析、問題分類、答案生成和結果評分，在1分鐘內取得了61.62%的成績。這樣的表現對人類專家而言也具有較大挑戰。

3. 效率測試與數學推理：

在低強度模式下，o3 mini的響應速度幾乎與 GPT-4 持平，用戶按下發送鍵後幾乎立即得到回覆。即使在中等模式下，其速度也比o1快了一倍，而這一高性能是在大幅降低成本的情況下實現的。

在美國數學奧林匹克 2024 數據集測試中，o3 mini 在中等推理時間設置下表現已與o1相當，而在高推理時間下，其表現更是超越了o1。

此外，o3 mini還支持函數調用、結構化輸出等開發者所需的API特性。

開放測試與部署時間線

OpenAI計劃在2025年1月底發佈o3 mini，隨後推出完整版o3。

即日起，研究人員和開發者可以到OpenAI官網（https://openai.com/index/early-access-for-safety-testing/#how-to-apply）申請安全測試，以獲得早期訪問權限。申請將持續至2025年1月10日。

本次發佈會還特別提到， o3和o3 mini引入了全新的深度對齊（Deliberative Alignment）技術。

該技術通過推理用戶的輸入意圖，大幅提升了模型對潛在不安全請求的識別能力，即使用戶嘗試使用隱晦語言繞過限制，模型也能準確判斷危險意圖。測試結果顯示，o3 在安全性評估中的表現卓越，拒絕不安全請求的準確率和靈敏度均有顯著提升。

華人研究員嶄露頭角

在o3 mini的官宣過程中，除了出鏡介紹的研究科學家Hongyu Ren外，還出現了同樣負責模型訓練的Kevin Lu、Shengjia Zhao等年輕華人研究員面孔。

Hongyu Ren本科畢業於北京大學，並於史丹福大學取得計算機科學博士學位。加入OpenAI以前曾在Apple、Google、NVIDIA和Microsoft擔任實習研究員。

作為OpenAI o1-mini 的creator和o1的foundational contributor，Hongyu還擔任了GPT-4o mini 的負責人，深度參與了 GPT-4o 的開發工作，專注於讓模型思考得更快速、更深刻、更精準。

Kevin Lu畢業於加州大學伯克利分校電子信息工程與計算機科學專業，曾在Berkeley AI Research做研究工作。

Shengjia Zhao本科畢業於清華大學，同樣擁有史丹福大學計算機科學專業博士學位，是GPT-4的核心貢獻者。

OpenAI要放棄GPT，全力投入o系列了嗎？

從今天的壓軸發佈來看，OpenAI正在經歷一次重大的戰略轉向。

在近期的NeurIPS 2024大會上， OpenAI曾經的聯合創始人Ilya Sutskever以《預訓練時代終結》為題發表了演講。他指出，AI模型的預訓練方法正面臨數據瓶頸，互聯網可用數據如同「化石燃料」，具有不可持續性。表明傳統的「更多數據和算力等於更好性能」的擴展法則正在失效，AI技術需要尋找新的發展路徑。

Ilya預測，未來的AI系統將更加「agentic」。不僅僅是完成任務，更能通過推理能力像人類一樣逐步解決問題。這種新範式可能是突破當前技術瓶頸的關鍵，也會帶來更高的不確定性。

OpenAI從傳統GPT大語言模型轉向「o」系列推理模型，或許正是意識到僅依賴預訓練的GPT模型已難以滿足未來AI發展的需求。希望通過整合推理能力，為實現更高水平的智能尋找突破口。

除了OpenAI，類似的趨勢也體現在競爭對手Google的佈局中。其剛發佈的Gemini 2.0 Flash Thinking被視為AI推理模型的開端，未來可能與主要語言模型深度整合。

各家技術公司的舉措都表明，推理能力正成為行業發展的新焦點，而如何將其與通用大語言模型有機結合，可能是下一階段AI競爭的核心方向。OpenAI開始在這個技術方向上使用GPT階段同樣的策略——快速的迭代，哪怕是期貨也先展示出來再說，然後把AGI和Scaling law這些對整個行業的思考和發展以及宣傳上都最重要的概念牢牢握在自己手中，由它定義。

在o3發佈後，OpenAI的明星研究員Jason Wei就表示，更重要的是o1到o3只用了三個月，證明了新的範式下進步可以有多快。

比預訓練的一兩年更新一次的範式快多了。