LeCun痛批矽谷傲慢病！圈內爆火長文：DeepSeek R1-Zero比R1更重要，成AGI破局關鍵

02月01日 21:57 新浪網 tech-auto-hilite

新智元報導

編輯：Aeneas

【新智元導讀】奧特曼罕見地承認了自己犯下的「歷史錯誤」，LeCun發文痛批矽谷一大常見病——錯位優越感。DeepSeek的終極意義在哪？圈內熱轉的這篇分析指出，相比R1，R1-Zero具有更重要的研究價值，因為它打破了終極的人類輸入瓶頸！

DeepSeek再度創造歷史。

居然能逼得OpenAI CEO奧特曼承認：「我們在開源/開放權重AI模型方面，一直站在了歷史的錯誤一邊。」

LeCun也發文指出，矽谷圈子的常見病，就是一種錯位的優越感。

高級階段的症狀，是認為小圈子就能壟斷好的想法。而晚期症狀就是，假設來自他人的創新都是靠作弊。

DeepSeek的最大意義在哪裡？

ARC Prize聯合創始人Mike Knoop發出長文中總結道——R1-Zero打破了最終的人類輸入瓶頸——專家CoT標註！其中一個例子，就是監督微調（SFT）。

從R1-Zero到AGI，一切都與效率有關。

另一個值得注意的觀點就是：相比R1，R1-Zero具有更重要的研究價值。

這是因為，R1-Zero完全依賴強化學習（RL），而不使用人類專家標註的監督微調（SFT）。

這就表明，在某些領域，SFT並非實現準確清晰CoT的必要條件，完全有可能讓AI通過純粹的RL方法實現廣泛推理能力。

以下為Mike Knoop的完整分析。

從此，推理計算需求激增

上週，DeepSeek發佈了他們新的R1-Zero和R1「推理」系統，在ARC-AGI-1基準測試上的表現可與OpenAI的o1系統相媲美。

R1-Zero、R1和o1（低算力模式）都取得了15-20%的得分，而GPT-4o僅為5%——而這已是多年純LLM scaling的巔峰成果。

根據本週美國市場的反應，公眾也開始理解了純LLM scaling的局限性。

然而，大多數人仍沒有意識到推理計算需求即將激增的問題。

2024年12月，OpenAI發佈了一個新的突破性系統o3，經過驗證，該系統在低算力模式下得分76%，高算力模式下得分88%。

o3系統首次展示了計算機在面對全新、未知問題時進行適應的通用能力。

儘管o3在ARC-AGI-1基準測試中取得了突破性的成績，但這一科技大事件卻在主流媒體中幾乎未被報導，也未引起廣泛關注。

這是AI和計算機科學領域的一個極其重要的時刻，這些系統值得深入研究。

然而，由於o1和o3是閉源的，我們只能依靠推測進行分析。

幸運的是，借助ARC-AGI-1，以及現在（幾乎）開源的R1-Zero和R1，我們能夠進一步加深對這一領域的理解。

這裏的「幾乎」指的是，DeepSeek並未公佈從零開始複現其模型權重的方法。

特別值得注意的是，相比R1，R1-Zero具有更重要的研究價值。

R1-Zero比R1更值得分析：它消除了人為瓶頸

在對o1和o3的分析中，ARC Prize團隊對這些推理系統的工作原理進行了推測。

它們的關鍵思路如下：

為特定問題領域生成思維鏈（CoT）。
使用人工專家（「監督微調」SFT）和自動化機器（「強化學習」RL）的組合對中間的CoT步驟進行標註。
利用（2）中標註的數據訓練基礎模型。
在測試時，模型會基於這一推理過程進行迭代推理。

下圖回顧了用於各模型用於迭代采樣的技術，及其在ARC-AGI-1評分的相關情況。

隨著DeepSeek發表的新研究，ARC Prize團隊就可以更好地驗證自己的推測。

一個關鍵的發現是，LLM推理系統在適應新穎性（以及提高可靠性）方面的提升，主要沿著以下三個維度展開：

為CoT過程模型的訓練添加人工標註，即SFT（監督微調）。
使用CoT搜索而非線性推理（即每個步驟並行進行CoT推理）。
進行整體CoT采樣（即並行推理整個軌跡）。

第（1）點受到人工數據生成的限制，因此決定了哪些領域的推理系統能從中受益最大。

例如，在o1系統上，MMLU中的專業法律類目得分遠低於數學和邏輯類目，這令人頗感意外。

第（2）和（3）點的主要瓶頸在於計算效率。

o1和o3都在ARC-AGI-1基準測試上表現出對推理計算量的對數式改進，即它們在測試時使用越多的計算資源，基準準確率就越高。

同時，不同的計算方式會影響這條曲線在x軸上的位置。

ARC Prize團隊認為，DeepSeek最有趣的做法是單獨發佈了R1-Zero。R1-Zero不使用SFT（即不依賴人工標註），完全依賴強化學習（RL）。

R1-Zero和R1在ARC-AGI-1上的得分高度一致，分別為14%和15%。

此外，DeepSeek自己發佈的基準測試結果也表明R1-Zero和R1的表現相近，例如在 MATH AIME 2024上的得分分別為71%和76%（相比之下，基礎模型DeepSeek V3的得分僅為約40%）。

在論文中，R1-Zero的作者指出：「DeepSeek-R1-Zero在可讀性較差和語言混雜等方面存在挑戰」，這一點也在網絡上得到了印證。

然而，在ARC Prize團隊的測試中，他們卻幾乎沒有發現R1-Zero在ARC-AGI-1上表現出不連貫性，而這一測試任務與該系統通過強化學習訓練的數學和編程領域相似。

綜合這些發現，ARC Prize團隊得出了以下結論：

在具有強可驗證性的領域，SFT（即人工專家標註）並非實現準確且清晰的 CoT（思維鏈）推理的必要條件。
R1-Zero的訓練過程能夠通過RL優化，在token空間內自發構建內部的特定領域語言（DSL，Domain-Specific Language）。
SFT在提升CoT推理的跨領域泛化能力方面是必要的。

這一點符合直覺，因為語言本質上也是一種推理DSL。相同的「詞」可以在一個領域中學習，並在另一個領域中應用，就像程序一樣。

而純RL方法目前尚未能夠發現一個廣泛共享的詞彙體系，這可能會成為未來研究的一個重要方向。

最終，R1-Zero展示了一種潛在的擴展路徑——即使在訓練數據採集階段，也完全消除了人工瓶頸。

可以肯定的是，DeepSeek 的目標是挑戰OpenAI的o3系統。

接下來的關鍵觀察點在於：SFT是否仍然是CoT搜索和采樣的必要條件，或者是否可以構建一個類似「R2-Zero」的系統，在相同的對數式推理計算擴展曲線上繼續提升準確率。

根據R1-Zero的實驗結果，團隊認為，在這種假設的擴展版本中，SFT並不是超越ARC-AGI-1所必需的條件。

用更多資金，換取AI的可靠性

從經濟角度來看，AI領域正在發生兩大重要變化：

投入更多資金，以獲得更高的準確性和可靠性。
訓練成本正在向推理成本轉移。

這兩點都將極大地推動推理計算的需求，同時也不會抑制對更強計算資源的需求，反而會進一步增加計算需求。

AI 推理系統的價值，遠不止於提高基準測試中的準確率。

當前阻礙AI更廣泛自動化應用（即推理需求）的首要問題，就是可靠性。

ARC Prize團隊曾與數百位試圖在業務中部署AI智能體的Zapier客戶交流過，他們的反饋高度一致：「我還不信任它們，因為它們的工作表現不夠穩定。」

以前，ARC Prize曾提出，朝著ARC-AGI方向的進展將提升AI可靠性。

LLM智能體的主要挑戰在於，它們需要強有力的本地領域控制才能穩定運行。

而更強的泛化能力，要求AI能夠適應全新的、未見過的情況。如今，已有證據表明這一觀點是正確的。

因此，Anthropic、OpenAI、Apple等多家公司紛紛推出AI智能體也不足為奇。

由於可靠性需求，智能體將推動短期內的推理計算需求增長。

此外，開發者可以選擇投入更多計算資源，以提高用戶對系統的信任度。

然而，更高的可靠性並不意味著100%的準確性——但它能讓錯誤更加穩定、可預測。

這反而是可接受的，因為當準確率較低時，用戶和開發者可以通過提示詞更穩定地引導 AI行為。

過去被認為計算機無法解決的問題，如今都可以用金錢衡量其解決成本。隨著AI計算效率的提升，這些成本也將逐漸下降。

推理即訓練：AI數據獲取範式或將永久轉變

另一個正在發生的重要變化，是用於LLM預訓練的數據來源。

過去，大多數訓練數據要麼是購買的，要麼是從網絡爬取的，要麼是由現有的LLM合成生成（例如蒸餾或數據增強）。

但推理系統提供了一種全新的選擇——生成「真實」數據，而非傳統意義上的「合成」數據。

AI行業通常將「合成數據」視為質量較低的數據，這些數據通常是通過LLM循環生成的，僅僅是為了增加訓練數據的總體規模，但其收益會逐漸遞減。

如今，借助推理系統和驗證器，我們可以創造全新的、有效的數據來進行訓練。這可以通過兩種方式實現：

離線生成 ——開發者支付費用來創建數據。
推理時生成 ——終端用戶支付費用來創建數據。

這是一種引人注目的經濟模式轉變，可能會導致AI系統開發者之間出現「贏家通吃」的局面。

擁有最多付費用戶的AI公司將擁有巨大的數據壟斷優勢，因為這些用戶在無形中資助了新高質量數據的創建，而這些數據反過來又進一步提升模型能力，使其更受用戶青睞……由此形成一個自增強的良性循環。

如果我們能夠突破人類專家CoT標註的瓶頸，並構建一個極高效的搜索/合成+驗證系統來自動生成新數據，那麼可以預見，未來將會有大量計算資源投入到這些推理系統中。

因為這些系統的訓練效果將直接與資金投入和數據輸入量掛鉤，也就是說，只要投入資金和原始數據，模型就會變得更強。

最終，這種AI訓練模式將徹底取代基於人類生成數據的預訓練方法。

結論：DeepSeek推動全世界科學發展

隨著推理需求的增長變得更加明確，市場將繼續經歷調整。

AI 系統的效率提升不僅會推動更多的應用，這不僅符合傑文斯悖論，更重要的是，更高的計算效率解鎖了全新的訓練範式。

隨著R1的開源和可複現性，越來越多的個人和團隊將探索CoT和搜索技術的極限。

這將幫助我們更快地釐清當前AI研究的前沿在哪裡，並推動一波技術創新浪潮，從而加速通向 AGI的進程。

已經有幾位研究者告訴ARC Prize團隊，他們計劃在2025年ARC獎中使用R1風格的系統，這讓人非常期待看到最終的結果。

R1的開源，對整個世界來說都是一件好事。DeepSeek推動了科學的前沿發展，並為AI 研究帶來了新的突破。

參考資料：

https://arcprize.org/blog/r1-zero-r1-results-analysis