科技

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會

12月29日 13:17 新浪網 tech-auto-hilite

機器之心報導

編輯：佳琪、蛋醬

翻車，但微翻，翻了 12.5% 吧。

前幾天，OpenAI 已經完成了 12 連更的最後一更 —— 如外界所料，是新的推理系列模型 o3 和 o3-mini 。

從 o1 開始，OpenAI 所指出的推理 Scaling Law 似乎帶來了全新的實現 AGI 的希望。此次被用來驗證 o3 推理能力的基準是 ARC-AGI，這項基準已經提出了 5 年時間，但一直未被攻克。

而新模型 o3 是首個突破 ARC-AGI 基準的 AI 模型：最低性能可達 75.7%，如果讓其使用更多計算資源思考更長時間，甚至可以達到 87.5% 的水平。

對於 o1 來說，此前在這項基準中能達到的準確率僅在 25% 到 32% 之間。

在 ARC-AGI 基準中，AI 需要根據配對的「輸入 – 輸出」示例尋找規律，然後再基於一個輸入預測輸出。ARC-AGI 發起者、Keras 之父 François Chollet 在測試報告中表示，雖然成本高昂，但仍然表明新任務的性能確實隨著計算量的增加而提高。o3 在低計算量模式下每個任務需要 17-20 美元，高計算量模式下每個任務數千美元。但這些數字不僅僅是將暴力計算應用於基準測試的結果。OpenAI 的新 o3 模型代表了人工智能適應新任務的能力的重大飛躍。

「這不僅僅是漸進式的改進，而是真正的突破，標誌著與 LLM 之前的局限性相比，人工智能能力發生了質的轉變。o3 能夠適應以前從未遇到過的任務，可以說在 ARC-AGI 領域接近人類水平的表現。」

比如，對於同一道題，Llama 系列的模型就會因為參數量的提高，從而推測出更加準確的答案。

但大家也注意到了，在 ARC-AGI 的 400 個任務中，還有 34 個任務是 o3 無法解決的，即使思考了 16 小時也沒能給出正確答案。正如 François Chollet 所說：「事實上，我認為 o3 還不是 AGI。o3 在一些非常簡單的任務上仍然失敗，這表明其與人類智能存在根本差異。」

這些任務是什麼，難點又在哪裡，接下來讓我們一起看看。