科技

OpenAI o3 詳解：並非 AGI，比 o1 貴 1000倍（另附內測申請）

12月21日 07:58 新浪網 tech-auto-hilite

今日發佈

o3 – 更強的 o1

按計算量：1000 倍的成本

（o3-high 對比 o1-high）

根據 ARC-AGI 測試標準

單任務成本，大概 3500 美金

問一句「9.09 和 9.11 誰更大」

2萬人民幣就沒了

模型的代號為 α

也可以叫他獵戶座

模型尚未開放

可在這裏申請內測

https://openai.com/index/early-access-for-safety-testing/

之後會有一個縮水版的 o3-mini

預計明年 1 月底開放

接下來

我們先談成績

再說問題

很會編程

在編程領域，非常優秀

Codeforces 2727 分

2727 分

相當於 CF 編程大神榜單 175 名

怎麼評價呢

OpenAI 現任首席科學家

以前也是玩 Codeforces 的

歷史最高得分是 2655

很會數學

在數學難題解答上

也是遙遙領先

Frontier Math

包含一個數據集

裡面都是未發佈的超高難度數學問題

即便是優秀的專業人員

解答其中的一個問題

也需要數小時到數天

在之前的測試中

AI 的最好成績是解決了 2% 的問題

而 o3 解決了 25.2% 的問題

再說問題

很貴

非常離譜的貴

o 系列模型

會有多種算力模式

比如：low/medium/high

在 ARC-AGI 測試中

對於 o3 – low

單任務成本約 20 美金

是 o1 – low 的 10 倍

對於 o3 – high

單任務成本約 3500 美金

是 o1-high 的 2000 倍

以上數據，來源 ARC

注意：o3-high 價格尚未確定，根據計算量進行成本推算

並非 AGI

上面提到的 ARC

是 OpenAI 的新晉測試夥伴

提供關於 AGI 的測試基準

（馬上我會詳細講）

雖然 o3 在這個測試中

取得了不錯的成績

但遠達不到 AGI 的標準

ARC 的官方說法是這樣

I don’t think o3 is AGI yet

我不認為 o3 是 AGI

o3 still fails on some very easy tasks

o3 在很多簡單問題上，做得很差。

indicating fundamental differences with human intelligence

這說明他和人類之間還是有根本性差距的

同時，ARC 官方也表示

在第2版榜單里

人類的基準成績是 95%

而 o3 的成績會跌到不到 30%

說說 ARC-AGI

這是 Keras 創始人 Chollet，在 2019 年搞出來的一個基準測試，來測測 AI 到底有多會”學習”。最開始發表在論文《On the Measure of Intelligence》。

https://arxiv.org/abs/1911.01547

怎麼測的

給被測試的 AI，一些彩色網格的示例對。然後再給一個新的輸入，讓他預測輸出。

每個格子可以是十種顏色之一，網格大小從 1×1 到 30×30 不等。

目前，o1 的正確率在 30% 左右，o3-high 則達到了 88%。

在定向任務的團隊中，目前的最好成績是 the ARChitects，正確率 53.5%。

代碼：

https://www.kaggle.com/code/gregkamradt/arc-prize-v8?scriptVersionId=211457842

論文：

https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf

為什麼有這個測試

對於 AGI 是什麼，有很多種表述，一個主流的說法是”能把大部分有經濟價值工作，進行自動化的系統”。

Chollet 覺得，這個定義有點偏離：真正的智能不是你會多少技能，而是你有多會學習。畢竟，現在的大模型，你只要給他足夠的數據，他就會有對應的技能，看不出到底有多聰明。

於是 Chollet 搞出來了這個 ARC-AGI 的基準測試，用來評估那些「沒有出現過的問題」，也是目前唯一一個專門測量 AGI 進展的測試。

o3 的測試

測試在兩個數據集上進行：

一個是 100 道私密題目
另一個是 400 道公開題目

o3-low 的成績是 75.7%，而 o3-high（172 倍消耗）則能達到 87.5%。在公開數據集上的表現更好，分別達到了 82.8% 和 91.5%。而之前最好的大模型成績，是 30%。

這個事情也證明了一點，對於創新性任務，只靠碓數據和加大算力（Scaling Laws），是不夠的，畢竟給 GPT-4 再多的算力也不行。

順道說一下，找外包來處理這些題目，人力成本大概是… 5 美金/題（放在國內，相信能捲到 1 塊錢一題），而即便是最便宜的 o3-low，也需要 20 美金。

所以，就目前來說：由於人工隊薪金低，飯碗還能保住。（什麼逆天言論）

你比 o3 更聰明

這裏有幾個 o3 沒有解決的難題，可以來試試。相信你比 o3 更聰明

Task ID: c6e1b8da

Task ID: 0d87d2a6

Task ID: b457fec5

一定要注意

即便某個 AI 完美通過 ARC-AGI，並不意味著已經實現 AGI。

另外的：由於 o3 在很多簡單問題上，做得很差，這說明他和人類之間還是有根本性差距的，更不能說 o3 探明了 AGI 之路。

此外，ARC-AGI-2 的測試標準即將亮相。即便是 o3-high，其得分也只不到 30% ，而聰明的人類則在在 95%，這還是基於無任何訓練的前提。

以及，Claude 和 OpenAI 在 ARC-AGI 的測試結果，可以在這裏看到：

https://github.com/arcprizeorg/model_baseline/tree/main/results

OpenAI 的12天發佈

美國時間 12 月 4 日，山姆奧特曼在Twitter上表示，要連發 12 天的貨。賽博禪心為此做了全程記錄，讓我們一起來回顧下。

Day 1：o1 / ChatGPT Pro

Plus 用戶，每月支付 20 美金：o1 會獲得更新，支持圖片上傳

Pro 用戶，每月支付 200 美金：無限使用 o1，並且可用 o1 pro mode

Day 3：Sora

年初展示的 Sora，終於發貨了，同時帶來的，還有一整套在線編輯工具。

Day 4：o1 / ChatGPT Pro

ChatGPT 中的畫板功能獲得更新，可在其中直接運行 Python，類似 Jupyter/Colab

Day 6：高級語音模式更新

手機版 ChatGPT 支持和 AI 進行影片通話了，還可以和 AI 共享屏幕。

Day 7：Projects

ChatGPT 有了「文件夾」，在對話之間，可以共享文件。

Day 8：o1 / ChatGPT Pro

ChatGPT 的搜索功能，更新了交互樣式，並且在語音對話的過程中，也能用。

Day 9：API 接口更新

對於開發者來說，這是一個海量更新，包括不僅限於：o1 支持了 Function Call， Realtime API 新貨調價 & 發佈 SDK，新增模型微調，新增 Java 和 Go 的 SDK…

Day 10：電話接入

撥打 +1 800 242 8478，可以和 ChatGPT 聊天了。也可以通過 WhatsAPP 和 ChatGPT 發短信

在下面這篇里，我做了一個非常好玩的 SVG 👇

Day 11：ChatGPT 的新玩法

ChatGPT 桌面版，能讀到別的應用信息了，在語音模式下更絲滑。

這是一個冷飯級別的發佈（之前就更新了）

Day 12：o3

也就是本篇：一個遙遙領先，但貴但匪夷所思的模型，期待調價。

你可能喜歡