AI大牛解析o3技術路線,大模型下一步技術路線已現端倪?
本文來自微信公眾號:硬AI,作者:硬AI,題圖來自:AI生成
2024年12月21日,OpenAI在其為期12天發佈會活動的最後一天,正式發佈了備受期待的o3系列模型。在外界普遍認為AI發展速度趨緩之際,OpenAI帶來了「改變遊戲規則」的重大突破,向AGI邁出關鍵一步。
在被視為通用人工智能(AGI)重要衡量標準的ARC-AGI測試中,o3模型創下新紀錄:低算力配置下便以75.7%的得分登頂公共排行榜,而高算力版本更是達到87.5%的驚人成績,一騎絕塵。
這一成績遠超o1系列,後者在同一測試中的得分僅為25%。
這一突破的意義非同尋常。Keras之父、ARC-AGI測試發起人François Chollet對此評價道:
「這是一個令人驚訝且重要的階躍式提升,展示了GPT系列模型前所未有的新型任務適應能力。
作為對比,ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%,曆時四年。
隨著o3的出現,關於人工智能能力的所有既有認知都需要重新評估……
這不僅僅是漸進式的改進,而是真正的突破。」
不過,雖然ARC-AGI測試中表現出色,但這並不意味著o3已達到了AGI水平,因為它仍會在一些非常簡單的任務中犯錯。
此外,Chollet還表示,在即將發佈的新版測試(ARC-AGI-2)中,其表現預計將大幅下降至30%以下,而普通人類仍能保持95%以上的高分。
更重要的是,o3仍然依賴人工標註數據,無法像人類那樣通過與現實世界的直接互動來學習和適應。
一、o3來了
2024年12月21日,OpenAI在其為期12天發佈會活動的最後一天,正式發佈了備受期待的o3系列模型,包括o3和o3-mini。
-
o3 是一個非常強大的模型,在編碼、數學以及ARC-AGI基準測試等多個基準上超過了OpenAI此前的o1模型(o1得分25%,o3得分87.5%)。
-
o3-mini是o3更經濟高效且性能導向的版本,在成本和延遲方面比o1-mini低得多,同時提供類似的功能。
OpenAI正向安全研究人員開放o3和o3-mini的早期訪問,預計o3-mini將於1月底左右發佈,o3則稍後。
二、技術路線推演,大模型下一步技術路線已現端倪?
ARC-AGI(人工通用智能評估基準)測試是由Keras之父François Chollet發起,旨在評估AI系統在面對未見過的新任務時的適應能力。ARC-AGI測試的核心在於其設計的任務往往需要深度邏輯推理和創新思維,這使得它成為評估AI系統通用智能能力的重要工具。
如前文所述,o3系列在這一測試中取得了顯著的成績。Chollet認為,o3的成功絕非依靠簡單的算力堆砌,其核心創新在於從根本上改變了AI處理信息的方式。
傳統大語言模型(LLM)採用「記憶-獲取-應用」的範式,本質上是通過被動接觸人類內容來存儲和運行數百萬個微型程序。這種方法雖然能在特定任務上達到很高水平,但始終無法突破適應新環境或即時掌握新技能。
相比之下,Chollet推測,o3開創了全新的方法:
-
在token空間內進行自然語言程序搜索和執行;
-
使用類似AlphaZero的蒙地卡羅樹搜索方法;
-
通過評估器模型引導搜索過程。
這種創新使o3能夠:
-
實時生成和執行解決方案程序;
-
通過思維鏈(Chain of Thought)實現知識的動態重組;
-
展現出類人的任務適應能力。
雖然目前每個任務的計算成本仍然較高(低算力模式下約17-20美元/任務,相比人工解決方案的5美元/任務),但Chollet認為,這種成本預計將隨技術發展快速下降。
三、距離AGI還有多遠?
儘管o3取得了突破性進展,但稱其為AGI還為時過早。Chollet在文章中提及,o3的主要局限包括:
1. 技術層面的局限:
-
仍然依賴自然語言指令而非可執行的符號程序;
-
缺乏與現實世界的直接交互能力;
-
無法通過直接執行來評估解決方案的有效性。
2. 性能層面的局限:
-
在某些基礎任務上仍會出現失誤;
-
在即將發佈的ARC-AGI-2測試中,預計其得分可能降至30%以下(而普通人類仍能保持95%以上的得分);
-
依賴專家標註的人工生成數據,缺乏自主學習能力。
3. 效率層面的局限:
-
高昂的計算成本;
-
大量的計算資源消耗;
-
在某些任務上的效率低於人類。
四、結語
毫無疑問,o3的出現無疑是一個裡程碑式的突破。
對於整個AI行業來說,o3的價值可能在於,它證明了AI進步不僅僅依賴於簡單地擴大模型規模和增加訓練數據,更關鍵的是架構創新,這種方法為AI的發展開闢了新的方向。
Chollet表示:
「實際上,o3代表了一種深度學習引導的程序搜索形式……
同時,由於推理預算的可變性,效率(如計算成本)已成為評估AI性能時的必要指標。」
本文來自微信公眾號:硬AI,作者:硬AI