OpenAI o3 詳解:並非 AGI,比 o1 貴 1000倍(另附內測申請)
今日發佈
o3
o3 – 更強的 o1
按計算量:1000 倍的成本
(o3-high 對比 o1-high)
根據 ARC-AGI 測試標準
單任務成本,大概 3500 美金
問一句「9.09 和 9.11 誰更大」
2萬人民幣就沒了
模型的代號為 α
也可以叫他獵戶座
模型尚未開放
可在這裏申請內測
https://openai.com/index/early-access-for-safety-testing/
之後會有一個縮水版的 o3-mini
預計明年 1 月底開放
接下來
我們先談成績
再說問題
很會編程
在編程領域,非常優秀
Codeforces 2727 分
2727 分
相當於 CF 編程大神榜單 175 名
怎麼評價呢
OpenAI 現任首席科學家
以前也是玩 Codeforces 的
歷史最高得分是 2655
很會數學
在數學難題解答上
也是遙遙領先
Frontier Math
包含一個數據集
裡面都是未發佈的超高難度數學問題
即便是優秀的專業人員
解答其中的一個問題
也需要數小時到數天
在之前的測試中
AI 的最好成績是解決了 2% 的問題
而 o3 解決了 25.2% 的問題
再說問題
很貴
非常離譜的貴
o 系列模型
會有多種算力模式
比如:low/medium/high
在 ARC-AGI 測試中
對於 o3 – low
單任務成本約 20 美金
是 o1 – low 的 10 倍
對於 o3 – high
單任務成本約 3500 美金
是 o1-high 的 2000 倍
以上數據,來源 ARC
注意:o3-high 價格尚未確定,根據計算量進行成本推算
並非 AGI
上面提到的 ARC
是 OpenAI 的新晉測試夥伴
提供關於 AGI 的測試基準
(馬上我會詳細講)
雖然 o3 在這個測試中
取得了不錯的成績
但遠達不到 AGI 的標準
ARC 的官方說法是這樣
I don’t think o3 is AGI yet
我不認為 o3 是 AGI
o3 still fails on some very easy tasks
o3 在很多簡單問題上,做得很差。
indicating fundamental differences with human intelligence
這說明他和人類之間還是有根本性差距的
同時,ARC 官方也表示
在第2版榜單里
人類的基準成績是 95%
而 o3 的成績會跌到不到 30%
說說 ARC-AGI
這是 Keras 創始人 Chollet,在 2019 年搞出來的一個基準測試,來測測 AI 到底有多會”學習”。最開始發表在論文《On the Measure of Intelligence》。
https://arxiv.org/abs/1911.01547
怎麼測的
給被測試的 AI,一些彩色網格的示例對。然後再給一個新的輸入,讓他預測輸出。
每個格子可以是十種顏色之一,網格大小從 1×1 到 30×30 不等。
目前,o1 的正確率在 30% 左右,o3-high 則達到了 88%。
在定向任務的團隊中,目前的最好成績是 the ARChitects,正確率 53.5%。
代碼:
https://www.kaggle.com/code/gregkamradt/arc-prize-v8?scriptVersionId=211457842
論文:
https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf
為什麼有這個測試
對於 AGI 是什麼,有很多種表述,一個主流的說法是”能把大部分有經濟價值工作,進行自動化的系統”。
Chollet 覺得,這個定義有點偏離:真正的智能不是你會多少技能,而是你有多會學習。畢竟,現在的大模型,你只要給他足夠的數據,他就會有對應的技能,看不出到底有多聰明。
於是 Chollet 搞出來了這個 ARC-AGI 的基準測試,用來評估那些 「沒有出現過的問題」,也是目前唯一一個專門測量 AGI 進展的測試。
o3 的測試
測試在兩個數據集上進行:
-
一個是 100 道私密題目
-
另一個是 400 道公開題目
o3-low 的成績是 75.7%,而 o3-high(172 倍消耗) 則能達到 87.5%。在公開數據集上的表現更好,分別達到了 82.8% 和 91.5%。而之前最好的大模型成績,是 30%。
這個事情也證明了一點,對於創新性任務,只靠碓數據和加大算力(Scaling Laws),是不夠的,畢竟給 GPT-4 再多的算力也不行。
順道說一下,找外包來處理這些題目,人力成本大概是… 5 美金/題(放在國內,相信能捲到 1 塊錢一題),而即便是最便宜的 o3-low,也需要 20 美金。
所以,就目前來說:由於人工隊薪金低,飯碗還能保住。(什麼逆天言論)
你比 o3 更聰明
這裏有幾個 o3 沒有解決的難題,可以來試試。相信你比 o3 更聰明
Task ID: c6e1b8da
Task ID: 0d87d2a6
Task ID: b457fec5
一定要注意
即便某個 AI 完美通過 ARC-AGI,並不意味著已經實現 AGI。
另外的:由於 o3 在很多簡單問題上,做得很差,這說明他和人類之間還是有根本性差距的,更不能說 o3 探明了 AGI 之路。
此外,ARC-AGI-2 的測試標準即將亮相。即便是 o3-high,其得分也只不到 30% ,而聰明的人類則在在 95%,這還是基於無任何訓練的前提。
以及,Claude 和 OpenAI 在 ARC-AGI 的測試結果,可以在這裏看到:
https://github.com/arcprizeorg/model_baseline/tree/main/results
OpenAI 的12天發佈
美國時間 12 月 4 日,山姆奧特曼在Twitter上表示,要連發 12 天的貨。賽博禪心為此做了全程記錄,讓我們一起來回顧下。
Day 1:o1 / ChatGPT Pro
Plus 用戶,每月支付 20 美金:o1 會獲得更新,支持圖片上傳
Pro 用戶,每月支付 200 美金:無限使用 o1,並且可用 o1 pro mode
Day 3:Sora
年初展示的 Sora,終於發貨了,同時帶來的,還有一整套在線編輯工具。
Day 4:o1 / ChatGPT Pro
ChatGPT 中的畫板功能獲得更新,可在其中直接運行 Python,類似 Jupyter/Colab
Day 6:高級語音模式更新
手機版 ChatGPT 支持和 AI 進行影片通話了,還可以和 AI 共享屏幕。
Day 7:Projects
ChatGPT 有了「文件夾」,在對話之間,可以共享文件。
Day 8:o1 / ChatGPT Pro
ChatGPT 的搜索功能,更新了交互樣式,並且在語音對話的過程中,也能用。
Day 9:API 接口更新
對於開發者來說,這是一個海量更新,包括不僅限於:o1 支持了 Function Call, Realtime API 新貨調價 & 發佈 SDK,新增模型微調,新增 Java 和 Go 的 SDK…
Day 10:電話接入
撥打 +1 800 242 8478,可以和 ChatGPT 聊天了。也可以通過 WhatsAPP 和 ChatGPT 發短信
在下面這篇里,我做了一個非常好玩的 SVG 👇
Day 11:ChatGPT 的新玩法
ChatGPT 桌面版,能讀到別的應用信息了,在語音模式下更絲滑。
這是一個冷飯級別的發佈(之前就更新了)
Day 12:o3
也就是本篇:一個遙遙領先,但貴但匪夷所思的模型,期待調價。