AI大牛解析o3技術路線,大模型下一步技術路線已現端倪?

本文來自微信公眾號:硬AI,作者:硬AI,題圖來自:AI生成

2024年12月21日,OpenAI在其為期12天發佈會活動的最後一天,正式發佈了備受期待的o3系列模型。在外界普遍認為AI發展速度趨緩之際,OpenAI帶來了「改變遊戲規則」的重大突破,向AGI邁出關鍵一步。

在被視為通用人工智能(AGI)重要衡量標準的ARC-AGI測試中,o3模型創下新紀錄:低算力配置下便以75.7%的得分登頂公共排行榜,而高算力版本更是達到87.5%的驚人成績,一騎絕塵。

這一成績遠超o1系列,後者在同一測試中的得分僅為25%。

這一突破的意義非同尋常。Keras之父、ARC-AGI測試發起人François Chollet對此評價道:

「這是一個令人驚訝且重要的階躍式提升,展示了GPT系列模型前所未有的新型任務適應能力。

作為對比,ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%,曆時四年。

隨著o3的出現,關於人工智能能力的所有既有認知都需要重新評估……

這不僅僅是漸進式的改進,而是真正的突破。」

不過,雖然ARC-AGI測試中表現出色,但這並不意味著o3已達到了AGI水平,因為它仍會在一些非常簡單的任務中犯錯。

此外,Chollet還表示,在即將發佈的新版測試(ARC-AGI-2)中,其表現預計將大幅下降至30%以下,而普通人類仍能保持95%以上的高分。

更重要的是,o3仍然依賴人工標註數據,無法像人類那樣通過與現實世界的直接互動來學習和適應

一、o3來了

2024年12月21日,OpenAI在其為期12天發佈會活動的最後一天,正式發佈了備受期待的o3系列模型,包括o3和o3-mini。

  • o3 是一個非常強大的模型,在編碼、數學以及ARC-AGI基準測試等多個基準上超過了OpenAI此前的o1模型(o1得分25%,o3得分87.5%)

  • o3-mini是o3更經濟高效且性能導向的版本,在成本和延遲方面比o1-mini低得多,同時提供類似的功能。

OpenAI正向安全研究人員開放o3和o3-mini的早期訪問,預計o3-mini將於1月底左右發佈,o3則稍後。

二、技術路線推演,大模型下一步技術路線已現端倪?

ARC-AGI(人工通用智能評估基準)測試是由Keras之父François Chollet發起,旨在評估AI系統在面對未見過的新任務時的適應能力。ARC-AGI測試的核心在於其設計的任務往往需要深度邏輯推理和創新思維,這使得它成為評估AI系統通用智能能力的重要工具。

如前文所述,o3系列在這一測試中取得了顯著的成績。Chollet認為,o3的成功絕非依靠簡單的算力堆砌,其核心創新在於從根本上改變了AI處理信息的方式。

傳統大語言模型(LLM)採用「記憶-獲取-應用」的範式,本質上是通過被動接觸人類內容來存儲和運行數百萬個微型程序。這種方法雖然能在特定任務上達到很高水平,但始終無法突破適應新環境或即時掌握新技能。

相比之下,Chollet推測,o3開創了全新的方法:

  1. 在token空間內進行自然語言程序搜索和執行;

  2. 使用類似AlphaZero的蒙地卡羅樹搜索方法;

  3. 通過評估器模型引導搜索過程。

這種創新使o3能夠:

  • 實時生成和執行解決方案程序;

  • 通過思維鏈(Chain of Thought)實現知識的動態重組;

  • 展現出類人的任務適應能力。

雖然目前每個任務的計算成本仍然較高(低算力模式下約17-20美元/任務,相比人工解決方案的5美元/任務),但Chollet認為,這種成本預計將隨技術發展快速下降。

三、距離AGI還有多遠?

儘管o3取得了突破性進展,但稱其為AGI還為時過早。Chollet在文章中提及,o3的主要局限包括:

1. 技術層面的局限:

  • 仍然依賴自然語言指令而非可執行的符號程序;

  • 缺乏與現實世界的直接交互能力;

  • 無法通過直接執行來評估解決方案的有效性。

2. 性能層面的局限:

  • 在某些基礎任務上仍會出現失誤;

  • 在即將發佈的ARC-AGI-2測試中,預計其得分可能降至30%以下(而普通人類仍能保持95%以上的得分)

  • 依賴專家標註的人工生成數據,缺乏自主學習能力。

3. 效率層面的局限:

  • 高昂的計算成本;

  • 大量的計算資源消耗;

  • 在某些任務上的效率低於人類。

四、結語

毫無疑問,o3的出現無疑是一個裡程碑式的突破。

對於整個AI行業來說,o3的價值可能在於,它證明了AI進步不僅僅依賴於簡單地擴大模型規模和增加訓練數據,更關鍵的是架構創新,這種方法為AI的發展開闢了新的方向。

Chollet表示:

「實際上,o3代表了一種深度學習引導的程序搜索形式……

同時,由於推理預算的可變性,效率(如計算成本)已成為評估AI性能時的必要指標。」

本文來自微信公眾號:硬AI,作者:硬AI