OpenAI發佈o3系列模型「劍指」AGI 北大畢業生打造

12月21日 15:15 新浪網 news-china-auto-hilite

12月21日，OpenAI連續12個工作日的直播發佈活動正式收官，與第一天發佈正式版o1模型相對應的是，最後一天OpenAI首席執行官山姆·奧特曼推出了該公司的下一代大模型並將其命名為o3，o3在一系列測試中的表現超過了o1，並在一項關於通往AGI（通用人工智能）的測試中表現優異。

不過，同今年年中發佈o1預覽版時相同，山姆·奧特曼坦言o1仍然需要進行安全測試，並沒有公開具體的對外界開放的日程表。取而代之的是o3-mini（即迷你版本）會在明年1月底發佈。值得注意的是，o3-mini的訓練者是北大計算機系畢業，後在史丹福獲得博士學位的任泓宇。

總體來看，本次OpenAI持續約兩週的發佈活動算得上「量大管飽」，包括正式版本o1、Sora的「千呼萬喚始出來」，也包括下一代模型o3的推出，中間還夾雜了一系列針對開發者、具體產品以及算法技術上的更新升級。但發佈內容雖多，卻並未再現像上半年影片模型Sora和多模態模型GPT-4o推出時那樣帶給業界的震撼，尤其是不少用戶在使用過正式發佈的Sora後發現該產品仍然存在較多缺陷，並非明顯優於國內影片模型。這或許說明OpenAI雖然仍是AI大模型領域的佼佼者，但已並非望塵莫及。

o3大模型現身 Arc AGI測試題得分超過人類閾值

從左至右分別為Arc Prize基金會主席Greg Camerad、OpenAI研究主管Mark Chen、OpenAI首席執行官山姆·奧特曼。

本次OpenAI的「收官」直播，山姆·奧特曼與OpenAI高級副總裁、研究主管Mark Chen擔任主持人，另外還有兩位解說嘉賓分兩次上場。

在「上半場」，Mark首先介紹了o3大模型的能力：在一項由現實世界軟件任務組成的基準測試中，o3得分71.7，超過了得分48.9的o1和得分41.3的o1 preview（預覽版）。而在一項名為Elo的競爭性編程能力測評上，o3取得了2727分，o1評分1891，o1 preview評分1258，o3的性能已經達到了o1 preview的兩倍多。而在數學基準測試中o3的得分為96.7，也超過了前兩者的83.3分和56.7分，「這表示我們正在攀登實用性的前沿。」Mark說。

作為對比，Mark本人就是計算機專家，他還曾指導過類似的編程競賽，但他本人在編程測評上的最好成績約為2500分，這一點上他被o3擊敗了。不過他在數學競賽上的最高分是滿分，這一點上o3仍然無法達到人類頂尖水平。「這麼說，我就安全了。」山姆·奧特曼對此打趣道。

事實上，在OpenAI的最後一場直播之前，有很多網民猜測其是否能夠再次震撼業界，如推出一款通往AGI的跨時代產品。而第一位嘉賓——Arc Prize基金會主席Greg Camerad的出場證實了網民的猜測方向。

Arc Prize是一個非營利性組織，其推出了「通用人工智能抽像和推理語料庫」（ARC-AGI）基準，來衡量AI在獲取在未知任務上的效率，該組織為AGI所下的定義為：一個可以在其訓練數據之外有效地獲得新技能的系統。

Greg Camerad表示，該組織的測試題旨在驗證大模型在通往AGI方向上的水平，目前o3取得了該組織經驗證過的最高分：在低算力配置下，其準確率達到75.7%，高算力下的表現提升至87.5%，而人類平均水平的閾值為85%，這意味著o3在該項測評中的表現已經達到了人類水平，這是一個重要的里程碑，而在o3達到這一水平之前，該測試題已經5年未被攻克。

不過，ARC Prize組織方面也表示，這並不代表已經實現了AGI，因為o3在某些簡單任務上仍有失誤，該組織會繼續舉辦大獎賽，直到出現一個取得85%成績的高效開源解決方案。根據ARC Prize組織透露的數據，高算力下的o3模型執行每個任務的消耗高達1000美元

o1-mini首先推出北大畢業生任泓宇擔綱訓練任務

OpenAI研究員任泓宇（左）介紹o3-mini大模型。

雖然o3成為了OpenAI最先進的大模型，不過山姆·奧特曼也坦言，o3不會馬上對外開放，理由是該大模型仍然需要進行安全測試。不過他表示將首先開放外部安全測試申請，同時明年1月底將率先開放o3-mini大模型。

在本次直播的「下半場」，山姆·奧特曼表示「o3-mini是我們真正感到興奮的大模型，而訓練該大模型的任泓宇將加入我們。」貝殼財經記者瞭解到，任泓宇本科畢業於北京大學計算機系，後在史丹福獲得博士學位，早在o1-mini推出時，他就擔任了訓練任務。

相比o3模型，o3-mini在性能與成本平衡方面表現更加出色，能夠以較低成本提供高效服務。根據任泓宇的演示，o3-mini在編程上展現出了出色的性能，隨著思考時間的增加，o3-mini模型的表現不斷提升，性能超越o1-mini。

任泓宇表示，在中位思考時間下，o3-mini勝過正式版o1模型，能夠以大約一個數量級的更低成本提供相當甚至更好的代碼性能。此外，o3-mini的響應時間大大縮短，達到了o1的一半。

在實用演示中，用戶在文本框中輸入編碼請求後，模型能夠迅速將請求發送至API，並自動解決任務，生成代碼並保存至桌面，隨後自動打開終端執行代碼。整個過程複雜且涉及大量代碼處理，但o3-mini模型在低成本模式下依然表現出了極快的處理效率。

最後，Mark介紹，OpenAI推出了一款被稱為審慎對齊的新技術，以找到具體的安全邊界，讓大模型知道什麼時候該審查或拒絕用戶提出的需求，但又不會過度拒絕。

「現在你可以填寫申請表，進行對o3和o3-mini的外部安全測試，有越多人進行安全測試，就能越快確保我們達到明年1月底發佈o3-mini以及之後發佈o3的目標。」山姆·奧特曼在直播最後表示。

新京報貝殼財經記者羅亦丹

編輯曲筱藝

校對趙琳

你可能喜歡