LeCun痛批矽谷傲慢病!圈內爆火長文:DeepSeek R1-Zero比R1更重要,成AGI破局關鍵

新智元報導
編輯:Aeneas
【新智元導讀】奧特曼罕見地承認了自己犯下的「歷史錯誤」,LeCun發文痛批矽谷一大常見病——錯位優越感。DeepSeek的終極意義在哪?圈內熱轉的這篇分析指出,相比R1,R1-Zero具有更重要的研究價值,因為它打破了終極的人類輸入瓶頸!
DeepSeek再度創造歷史。
居然能逼得OpenAI CEO奧特曼承認:「我們在開源/開放權重AI模型方面,一直站在了歷史的錯誤一邊。」

LeCun也發文指出,矽谷圈子的常見病,就是一種錯位的優越感。
高級階段的症狀,是認為小圈子就能壟斷好的想法。而晚期症狀就是,假設來自他人的創新都是靠作弊。

DeepSeek的最大意義在哪裡?
ARC Prize聯合創始人Mike Knoop發出長文中總結道——R1-Zero打破了最終的人類輸入瓶頸——專家CoT標註!其中一個例子,就是監督微調(SFT)。
從R1-Zero到AGI,一切都與效率有關。

另一個值得注意的觀點就是:相比R1,R1-Zero具有更重要的研究價值。
這是因為,R1-Zero完全依賴強化學習(RL),而不使用人類專家標註的監督微調(SFT)。
這就表明,在某些領域,SFT並非實現準確清晰CoT的必要條件,完全有可能讓AI通過純粹的RL方法實現廣泛推理能力。


以下為Mike Knoop的完整分析。
從此,推理計算需求激增
上週,DeepSeek發佈了他們新的R1-Zero和R1「推理」系統,在ARC-AGI-1基準測試上的表現可與OpenAI的o1系統相媲美。
R1-Zero、R1和o1(低算力模式)都取得了15-20%的得分,而GPT-4o僅為5%——而這已是多年純LLM scaling的巔峰成果。
根據本週美國市場的反應,公眾也開始理解了純LLM scaling的局限性。
然而,大多數人仍沒有意識到推理計算需求即將激增的問題。
2024年12月,OpenAI發佈了一個新的突破性系統o3,經過驗證,該系統在低算力模式下得分76%,高算力模式下得分88%。
o3系統首次展示了計算機在面對全新、未知問題時進行適應的通用能力。

儘管o3在ARC-AGI-1基準測試中取得了突破性的成績,但這一科技大事件卻在主流媒體中幾乎未被報導,也未引起廣泛關注。
這是AI和計算機科學領域的一個極其重要的時刻,這些系統值得深入研究。
然而,由於o1和o3是閉源的,我們只能依靠推測進行分析。
幸運的是,借助ARC-AGI-1,以及現在(幾乎)開源的R1-Zero和R1,我們能夠進一步加深對這一領域的理解。
這裏的「幾乎」指的是,DeepSeek並未公佈從零開始複現其模型權重的方法。
特別值得注意的是,相比R1,R1-Zero具有更重要的研究價值。

R1-Zero比R1更值得分析:它消除了人為瓶頸
在對o1和o3的分析中,ARC Prize團隊對這些推理系統的工作原理進行了推測。
它們的關鍵思路如下:
-
為特定問題領域生成思維鏈(CoT)。
-
使用人工專家(「監督微調」SFT)和自動化機器(「強化學習」RL)的組合對中間的CoT步驟進行標註。
-
利用(2)中標註的數據訓練基礎模型。
-
在測試時,模型會基於這一推理過程進行迭代推理。
下圖回顧了用於各模型用於迭代采樣的技術,及其在ARC-AGI-1評分的相關情況。

隨著DeepSeek發表的新研究,ARC Prize團隊就可以更好地驗證自己的推測。
一個關鍵的發現是,LLM推理系統在適應新穎性(以及提高可靠性)方面的提升,主要沿著以下三個維度展開:
-
為CoT過程模型的訓練添加人工標註,即SFT(監督微調)。
-
使用CoT搜索而非線性推理(即每個步驟並行進行CoT推理)。
-
進行整體CoT采樣(即並行推理整個軌跡)。
第(1)點受到人工數據生成的限制,因此決定了哪些領域的推理系統能從中受益最大。
例如,在o1系統上,MMLU中的專業法律類目得分遠低於數學和邏輯類目,這令人頗感意外。
第(2)和(3)點的主要瓶頸在於計算效率。
o1和o3都在ARC-AGI-1基準測試上表現出對推理計算量的對數式改進,即它們在測試時使用越多的計算資源,基準準確率就越高。
同時,不同的計算方式會影響這條曲線在x軸上的位置。
ARC Prize團隊認為,DeepSeek最有趣的做法是單獨發佈了R1-Zero。R1-Zero不使用SFT(即不依賴人工標註),完全依賴強化學習(RL)。
R1-Zero和R1在ARC-AGI-1上的得分高度一致,分別為14%和15%。
此外,DeepSeek自己發佈的基準測試結果也表明R1-Zero和R1的表現相近,例如在 MATH AIME 2024上的得分分別為71%和76%(相比之下,基礎模型DeepSeek V3的得分僅為約40%)。
在論文中,R1-Zero的作者指出:「DeepSeek-R1-Zero在可讀性較差和語言混雜等方面存在挑戰」,這一點也在網絡上得到了印證。
然而,在ARC Prize團隊的測試中,他們卻幾乎沒有發現R1-Zero在ARC-AGI-1上表現出不連貫性,而這一測試任務與該系統通過強化學習訓練的數學和編程領域相似。
綜合這些發現,ARC Prize團隊得出了以下結論:
-
在具有強可驗證性的領域,SFT(即人工專家標註)並非實現準確且清晰的 CoT(思維鏈)推理的必要條件。
-
R1-Zero的訓練過程能夠通過RL優化,在token空間內自發構建內部的特定領域語言(DSL,Domain-Specific Language)。
-
SFT在提升CoT推理的跨領域泛化能力方面是必要的。
這一點符合直覺,因為語言本質上也是一種推理DSL。相同的「詞」可以在一個領域中學習,並在另一個領域中應用,就像程序一樣。

而純RL方法目前尚未能夠發現一個廣泛共享的詞彙體系,這可能會成為未來研究的一個重要方向。
最終,R1-Zero展示了一種潛在的擴展路徑——即使在訓練數據採集階段,也完全消除了人工瓶頸。
可以肯定的是,DeepSeek 的目標是挑戰OpenAI的o3系統。
接下來的關鍵觀察點在於:SFT是否仍然是CoT搜索和采樣的必要條件,或者是否可以構建一個類似「R2-Zero」的系統,在相同的對數式推理計算擴展曲線上繼續提升準確率。
根據R1-Zero的實驗結果,團隊認為,在這種假設的擴展版本中,SFT並不是超越ARC-AGI-1所必需的條件。
用更多資金,換取AI的可靠性
從經濟角度來看,AI領域正在發生兩大重要變化:
-
投入更多資金,以獲得更高的準確性和可靠性。
-
訓練成本正在向推理成本轉移。
這兩點都將極大地推動推理計算的需求,同時也不會抑制對更強計算資源的需求,反而會進一步增加計算需求。
AI 推理系統的價值,遠不止於提高基準測試中的準確率。
當前阻礙AI更廣泛自動化應用(即推理需求)的首要問題,就是可靠性。
ARC Prize團隊曾與數百位試圖在業務中部署AI智能體的Zapier客戶交流過,他們的反饋高度一致:「我還不信任它們,因為它們的工作表現不夠穩定。」
以前,ARC Prize曾提出,朝著ARC-AGI方向的進展將提升AI可靠性。
LLM智能體的主要挑戰在於,它們需要強有力的本地領域控制才能穩定運行。
而更強的泛化能力,要求AI能夠適應全新的、未見過的情況。如今,已有證據表明這一觀點是正確的。
因此,Anthropic、OpenAI、Apple等多家公司紛紛推出AI智能體也不足為奇。

由於可靠性需求,智能體將推動短期內的推理計算需求增長。
此外,開發者可以選擇投入更多計算資源,以提高用戶對系統的信任度。
然而,更高的可靠性並不意味著100%的準確性——但它能讓錯誤更加穩定、可預測。
這反而是可接受的,因為當準確率較低時,用戶和開發者可以通過提示詞更穩定地引導 AI行為。
過去被認為計算機無法解決的問題,如今都可以用金錢衡量其解決成本。隨著AI計算效率的提升,這些成本也將逐漸下降。
推理即訓練:AI數據獲取範式或將永久轉變
另一個正在發生的重要變化,是用於LLM預訓練的數據來源。
過去,大多數訓練數據要麼是購買的,要麼是從網絡爬取的,要麼是由現有的LLM合成生成(例如蒸餾或數據增強)。
但推理系統提供了一種全新的選擇——生成「真實」數據,而非傳統意義上的「合成」數據。
AI行業通常將「合成數據」視為質量較低的數據,這些數據通常是通過LLM循環生成的,僅僅是為了增加訓練數據的總體規模,但其收益會逐漸遞減。
如今,借助推理系統和驗證器,我們可以創造全新的、有效的數據來進行訓練。這可以通過兩種方式實現:
-
離線生成 ——開發者支付費用來創建數據。
-
推理時生成 ——終端用戶支付費用來創建數據。
這是一種引人注目的經濟模式轉變,可能會導致AI系統開發者之間出現「贏家通吃」的局面。
擁有最多付費用戶的AI公司將擁有巨大的數據壟斷優勢,因為這些用戶在無形中資助了新高質量數據的創建,而這些數據反過來又進一步提升模型能力,使其更受用戶青睞……由此形成一個自增強的良性循環。
如果我們能夠突破人類專家CoT標註的瓶頸,並構建一個極高效的搜索/合成+驗證系統來自動生成新數據,那麼可以預見,未來將會有大量計算資源投入到這些推理系統中。
因為這些系統的訓練效果將直接與資金投入和數據輸入量掛鉤,也就是說,只要投入資金和原始數據,模型就會變得更強。
最終,這種AI訓練模式將徹底取代基於人類生成數據的預訓練方法。

結論:DeepSeek推動全世界科學發展
隨著推理需求的增長變得更加明確,市場將繼續經歷調整。
AI 系統的效率提升不僅會推動更多的應用,這不僅符合傑文斯悖論,更重要的是,更高的計算效率解鎖了全新的訓練範式。

隨著R1的開源和可複現性,越來越多的個人和團隊將探索CoT和搜索技術的極限。
這將幫助我們更快地釐清當前AI研究的前沿在哪裡,並推動一波技術創新浪潮,從而加速通向 AGI的進程。
已經有幾位研究者告訴ARC Prize團隊,他們計劃在2025年ARC獎中使用R1風格的系統,這讓人非常期待看到最終的結果。
R1的開源,對整個世界來說都是一件好事。DeepSeek推動了科學的前沿發展,並為AI 研究帶來了新的突破。
參考資料:
https://arcprize.org/blog/r1-zero-r1-results-analysis
