AI大牛解析o3技術路線，大模型下一步技術路線已現端倪？

12月23日 19:20 新浪網 tech-auto-hilite

本文來自微信公眾號：硬AI，作者：硬AI，題圖來自：AI生成

2024年12月21日，OpenAI在其為期12天發佈會活動的最後一天，正式發佈了備受期待的o3系列模型。在外界普遍認為AI發展速度趨緩之際，OpenAI帶來了「改變遊戲規則」的重大突破，向AGI邁出關鍵一步。

在被視為通用人工智能（AGI）重要衡量標準的ARC-AGI測試中，o3模型創下新紀錄：低算力配置下便以75.7%的得分登頂公共排行榜，而高算力版本更是達到87.5%的驚人成績，一騎絕塵。

這一成績遠超o1系列，後者在同一測試中的得分僅為25%。

這一突破的意義非同尋常。Keras之父、ARC-AGI測試發起人François Chollet對此評價道：

「這是一個令人驚訝且重要的階躍式提升，展示了GPT系列模型前所未有的新型任務適應能力。

作為對比，ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%，曆時四年。

隨著o3的出現，關於人工智能能力的所有既有認知都需要重新評估……

這不僅僅是漸進式的改進，而是真正的突破。」

不過，雖然ARC-AGI測試中表現出色，但這並不意味著o3已達到了AGI水平，因為它仍會在一些非常簡單的任務中犯錯。

此外，Chollet還表示，在即將發佈的新版測試（ARC-AGI-2）中，其表現預計將大幅下降至30%以下，而普通人類仍能保持95%以上的高分。

更重要的是，o3仍然依賴人工標註數據，無法像人類那樣通過與現實世界的直接互動來學習和適應。

一、o3來了

2024年12月21日，OpenAI在其為期12天發佈會活動的最後一天，正式發佈了備受期待的o3系列模型，包括o3和o3-mini。

o3 是一個非常強大的模型，在編碼、數學以及ARC-AGI基準測試等多個基準上超過了OpenAI此前的o1模型（o1得分25%，o3得分87.5%）。

o3-mini是o3更經濟高效且性能導向的版本，在成本和延遲方面比o1-mini低得多，同時提供類似的功能。

OpenAI正向安全研究人員開放o3和o3-mini的早期訪問，預計o3-mini將於1月底左右發佈，o3則稍後。

二、技術路線推演，大模型下一步技術路線已現端倪？

ARC-AGI（人工通用智能評估基準）測試是由Keras之父François Chollet發起，旨在評估AI系統在面對未見過的新任務時的適應能力。ARC-AGI測試的核心在於其設計的任務往往需要深度邏輯推理和創新思維，這使得它成為評估AI系統通用智能能力的重要工具。

如前文所述，o3系列在這一測試中取得了顯著的成績。Chollet認為，o3的成功絕非依靠簡單的算力堆砌，其核心創新在於從根本上改變了AI處理信息的方式。

傳統大語言模型（LLM）採用「記憶-獲取-應用」的範式，本質上是通過被動接觸人類內容來存儲和運行數百萬個微型程序。這種方法雖然能在特定任務上達到很高水平，但始終無法突破適應新環境或即時掌握新技能。

相比之下，Chollet推測，o3開創了全新的方法：

在token空間內進行自然語言程序搜索和執行；
使用類似AlphaZero的蒙地卡羅樹搜索方法；
通過評估器模型引導搜索過程。

這種創新使o3能夠：

實時生成和執行解決方案程序；

通過思維鏈（Chain of Thought）實現知識的動態重組；

展現出類人的任務適應能力。

雖然目前每個任務的計算成本仍然較高（低算力模式下約17-20美元/任務，相比人工解決方案的5美元/任務），但Chollet認為，這種成本預計將隨技術發展快速下降。

三、距離AGI還有多遠？

儘管o3取得了突破性進展，但稱其為AGI還為時過早。Chollet在文章中提及，o3的主要局限包括：

1. 技術層面的局限：

仍然依賴自然語言指令而非可執行的符號程序；

缺乏與現實世界的直接交互能力；

無法通過直接執行來評估解決方案的有效性。

2. 性能層面的局限：

在某些基礎任務上仍會出現失誤；

在即將發佈的ARC-AGI-2測試中，預計其得分可能降至30%以下（而普通人類仍能保持95%以上的得分）；

依賴專家標註的人工生成數據，缺乏自主學習能力。

3. 效率層面的局限：

高昂的計算成本；

大量的計算資源消耗；

在某些任務上的效率低於人類。

四、結語

毫無疑問，o3的出現無疑是一個裡程碑式的突破。

對於整個AI行業來說，o3的價值可能在於，它證明了AI進步不僅僅依賴於簡單地擴大模型規模和增加訓練數據，更關鍵的是架構創新，這種方法為AI的發展開闢了新的方向。

Chollet表示：

「實際上，o3代表了一種深度學習引導的程序搜索形式……

同時，由於推理預算的可變性，效率（如計算成本）已成為評估AI性能時的必要指標。」

本文來自微信公眾號：硬AI，作者：硬AI