Scaling Law要撞牆了嗎?如何找到基座大模型的未來方向?

“如果把參數規模擴大x倍,模型能力就會得到y倍的提升” ——這條支撐著AI領域幾年狂飆突進的Scaling Law,似乎正在走向盡頭。

從GPT-3到GPT-4,從BERT到PaLM,AI的進化史幾乎就是一部算力競賽史。但最近的發展卻給這個故事帶來了轉折:Claude 3在維持3.2B上下文的同時顯著壓縮了參數規模;Anthropic的研究人員公開表示”更大的模型未必更好”;DeepMind在近期論文中更是直指Scaling Law在逼近人類認知能力時可能存在根本性限制。當千億參數、萬億tokens逐漸成為標配,簡單的堆料堆算力似乎越來越難以帶來質的飛躍。

這不禁讓人思考:

  • 是我們對Scaling Law的理解還不夠深入?

  • 還是這條路徑本身就存在天花板?

  • 基座大模型的下一個突破點究竟在哪?

我們特別挑選了一批在知乎活躍的AI領域答主的精彩回答,他們中既有來自科技公司的一線從業者,也有對AI發展長期關注並深度研究的技術博主。相信這些觀點能為我們提供更多關於AI發展的思路與洞見。

@傅聰Cong

作為一個AI從業者,個人觀點「Scaling Law撞牆」,完全不是媒體吹得那麼聳人聽聞!它只是意味著——未來通用人工智能的發展路徑應當適時地轉向。

下面說說我的理由:「Scaling Law撞牆」的問題為什麼引發了AI圈如此廣泛的焦慮?

其實人們擔心的問題,並不是一個實驗觀察規律失效與否的小問題,而是其背後可能存在的大模型效果進入瓶頸期的問題:如果大模型不能夠繼續」越大越好」了,那麼OpenAI先前拋出的未來大模型智商超過人類頂級水準的預言,可能無法實現。除了題主問題背景中的信息,更讓人擔心的消息是,號稱AI圈「卓偉」的光頭哥爆料:「獵戶座」——大眾認知的GPT-5——內測效果不能達到預期。類似的小道消息還包括Anthropic的Claude的新版本的效果也低於預期。就好比家裡孩子初中升高中(GPT-3到GPT-3.5)、高中升大學(GPT-3.5到GPT-4)都很順利,結果研究生卻怎麼都考不上了。

隨之而來的,不僅僅是對技術發展的擔憂,更嚴重的後果是投資的斷流。顯而易見的是,目前的LLM經濟就是一個砸錢的生意,錢沒了就更不可能scaling下去了,所有的投資方都會給LLM相關的企業和從業者施加更大的壓力,並且更審慎地看待目前企業經由LLM的盈利能力。說不好聽的,LLM行業可能會存在「大踩油門,大踩刹車」的泡沫危機!

說了這麼多,咱也不能馬後炮地怪「Scaling Law」的提出者當初咋不好好做實驗。那麼「Scaling Law」到底撞牆了嘛?

我們再來重新看看Scaling Law那張著名的圖:

注意,這裏的縱坐標是test loss。也就是說,所謂的scaling能力,是對準「測試損失」這個指標的,所以理性地講,沒有人承諾過,隨著投入的數據、算力、參數的增加,模型的」智商「會線性提升。

接下來,我們來糾正兩個閱讀這張圖的誤區:

test loss和模型的能力目前來看並不存在一個線性相關的關係。恰恰相反,當test loss低到一定程度,人對於模型輸出效果的好壞的感知能力會弱化。這件事情,我其實在我之前的一篇論文的討論里聊到過:

https://www.zhihu.com/question/599186065/answer/3019505570?utm_campAIgn=shareopn&utm_content=group3_myAnswer&utm_medium=social&utm_psn=1858611794765025280

縱軸的坐標也是log scale的!這裏畫重點!在雙log scale的坐標刻度設置下,這篇論文的研究者畫出了很漂亮的一條接近直線的結果。也就是說,想要test loss線性下降,需要投入的算力、數據等資源成指數速度上升!

OK,問題的根源找到了。

那麼尋找基座模型未來的短期內的方向,我們可以從以下兩個方面入手:

首先!也是最重要的事情!就是回到原點!完善當前或尋找更好的評價體系。目前的評價體系,難以和人的認知對齊,也難以全面地評價大模型的能力。不完備的評價體系,不利於模型的良性迭代。也不利於構建良性的市場環境。就好比很多模型都號稱自己在一些benchmark的表現上超過GPT-4,但給用戶的體感,卻並非那樣。變相鼓勵、培養出了一群cherry pickers。

探索其它的scaling type。除了「trAIning phase scaling」,最近的研究和產品還展示出不同的scaling形態。例如multi-agent的scaling,不需要一個超級大模型,而是鼓勵更多不同的專家小模型進行協作,強化「模塊化」優勢;以及「inference phase scaling」,給大模型更多的「思考」的時間以及更多的context信息,讓它「找到」正確的答案,這也更符合類人智能驅動的設計方法論,畢竟我們人類解決複雜問題的時候主要通過「慢思考」系統來構建動態的解決路徑,同時,也不需要把所有任務相關的信息都「預先」記憶到腦子裡。就好比老闆讓你做一個PPT,你是不需要先背下來PPT的逐字講稿,再進行繪圖、設計的。

最後,雖然我必須承認技術發展的「慣性」——所有人都基於當前的transformer架構進行增量研究——存在一定的積極作用,但我個人期待的通用人工智能,尤其是基座模型,應當是低能耗,更接近生物能的。

當前的這種範式,即便我們在前文所述的兩個方面有所突破,也是不可持續的。

https://epoch.AI/blog/can-AI-scaling-continue-through-2030 這份調研報告指出,到2030年,按照Scaling Law去訓練一個「GPT-6」所需的算力是充足的,但首先卡脖子的,很可能是電力資源。同時,屆時訓練一次GPT-6,需要上百億美金,換個計量單位,賣掉我司都不夠訓練一次的,容錯率是低的不能再低了……

希望到2030年,我們能找到更加可持續的通用人工智能的研發路徑,一個讓社會各界都能有參與度的方式,而不是現在這種資本通吃的局面。因為我相信,無論是針對這種技術的研發還是監督,都需要更廣範圍的合作。

@平凡

英偉達的黃仁勳在CES 2025上展示了一張PPT,標題為「從一種到三種Scaling Laws」,其縱坐標標註為智能程度(Intelligence),強調了人工智能發展過程中三種關鍵的Scaling Laws:預訓練(Pre-training)、後訓練(Post-training)和測試時推理(Test-Time Scaling)。

具體來說:

Pre-training Scaling(預訓練)

這是AI模型訓練的初始階段,以GPT早期模型為代表。特點是依賴超大規模神經網絡和海量互聯網數據,利用無監督學習方法,通過預測下一個字符或詞語進行訓練。

智能程度:此階段的訓練目標是構建一個通用的語言模型,但輸出結果相對基礎,缺乏複雜的語境理解和邏輯推理能力。

局限性:雖然訓練數據量龐大,但缺乏針對性的優化,模型表現的智能程度受到一定限制。

Post-training Scaling(後訓練)

代表AI模型的進化階段,以ChatGPT的原型為例。關鍵特性是通過人類反饋的強化學習(RLHF)進一步對預訓練模型進行優化和調整,以提高模型的交互能力和人類對齊度。它的訓練方式是模型根據人類提供的反饋評分,優化其回答內容和風格,逐步具備更自然、更貼合人類表達習慣的語言能力。

智能程度:在這個階段,AI模型不僅能生成流暢的文本,還能展現一定程度的創造性和邏輯推理能力,其天花板就是GPT-4o。

局限性:適合需要複雜對話和任務管理的場景,如智能客服、寫作輔助和教育工具,但對於需要高強度推理以及複雜任務依舊不能勝任。

Test-Time Scaling(測試時推理)

代表AI智能發展的最新階段,以ChatGPT的o系列模型為例,專長於推理和複雜任務處理。它的工作原理基於後訓練模型,通過進一步細化任務執行流程,將複雜任務分解為多個可驗證的小步驟(微推理模塊),以提高成功率和準確性。採用“用時間換空間”的策略,通過更高的計算資源和更長的推理時間換取任務完成率的顯著提升。

智能程度:特別適合數學、物理和化學等需要邏輯分析與多步驗證的問題,表現出更強的推理和決策能力。

局限性:這種模式的資源和時間成本較高,適用於對精度要求極高的應用場景。

可以看到,這三種scaling law帶來的智能程度提升是非常顯著的,可以側面證明,scaling law短時間內不會失效,只是會通過另一種形式表現出來。

未來的AI還會繼續朝著提升智能以及擴展應用邊界的路子走下去,前者依舊需要大量的人類反饋數據,scaling才剛剛開始;後者需要更需要的Agent的反饋數據,也才剛剛摸到門檻。

@桔了個仔

所謂Scaling Law,俗話說就是「力大磚飛」。Scaling Law指的是,模型性能隨著模型參數量、數據量和算力的增加呈現的冪律關係。

不過,隨著參數量的繼續增加,互聯網數據似乎不夠用了Ilya 在 NeurIPS 2024 中提出的觀點是「預訓練即將結束」,原因是隨著計算能力提升,互聯網上的數據量並沒有明顯增長。

不過,無論如何,他講的,其實只是在pre-train階段遇到瓶頸。事實上,Scaling Law可以發生在不同的維度。

首先講講基座大模型如何繼續保持Scaling Law。

合成數據(Synthetic Data)

其實這個思路是work的。例如sora就是使用了大量的合成數據,據說Sora可能採用了UE5、Unity的合成數據作為訓練集。

但這個思路還是pre-train階段提升方法,雖然喂合成數據應該也能提升模型性能,但個人認為其邊際效應已經出現了明顯遞減。可能其他方案會更有性價比。

但合成數據有另一個好處,就是有助於Alignment。具體可以參考@李rumor 這篇文章[1]。https://www.zhihu.com/people/rumor-lee

反向scale

既然通過數據帶來的邊際提升不那麼具有性價比了,那麼是否可以嘗試以更少參數實現同樣效果?畢竟人類智能並不是純粹靠數據的,人類的大腦就140-160億神經元,況且還並非全部神經元都激活了。當然,大模型參數數量不能直接等價於人腦神經元數量,但有沒一種可能,現在多數大模型都是「參數過剩」的?

其實這個想法,在2022年Deepmind發表了一篇論文《Training Compute-Optimal Large Language Models》[2]中就被論述過。這個論文最重要的一個論點是:現在所有大語言模型都是訓練不充分(undertrained)的。

這個論文還訓練了一個訓練了700億參數的模型 Chinchilla,在許多下遊任務上的性能顯著超過了很多參數更大的模型,例如 Gopher (2800億), GPT-3 (1750億) 等。

這篇論文讓很多公司意識到,堆疊參數的性價比可能不高,優化訓練集,優化訓練方法,甚至提出新架構,都可能帶來新的收益。

非Transformer架構

很多非Transformer架構,能以更少參數量實現同樣效果。例如RWKV。例如 @PENG Bo 在這篇回答里介紹到https://www.zhihu.com/question/6833253550/answer/55768424495,RWKV-7 0.1B參數的基座模型,而且還沒做任何post-training,就能實現下面的效果

除了RWKV,其他非Transformer架構還包括Mamba,S4等等,它們都是採用用 recurrent(循環)結構去替代 attention。

以上都是從基座模型方向出發。除了基座模型,還有別的方向

強化學習的Scaling Law

o1的發佈,讓大家看到,通過強化學習(Reinforcement Learning),讓大模型self-play,可以繼續提升其推理能力。具體可以看 @張俊林 的這篇分析[3]https://www.zhihu.com/question/666992324/answer/3624700849

這個方向得到了很多AI公司的認可,例如Qwen推出了QwQ(我喜歡這個名字),DeepSeek推出了R1,天工大模型推出了Skywork o1等等。估計是2025年最有價值的方向之一。

Muiti Agent的scaling law

例如@Guohao Li李國豪 在研究的方向[4]:multi agent系統的scaling law,會發現隨著投入系統的Agent數量增加,其表現出來的智能越來越強

大概就先寫這麼多,僅作為拋磚引玉。

@Trisimo崔思莫

Scaling Laws當然沒撞牆。

不能說我們突破不了光速,是狹義相對論撞牆了。

這種性能撞牆,恰恰就是Scaling Laws所預示的。

撞牆的是誰?就是數據,數據是最受製於物理世界的限制的。

參數不足?商用模型比如GPT-4o和Sonnet的參數不足,可以吃更乾淨的蒸餾,吃合成數據,數據是喂不飽大參數母模型的,所以參數不是問題。

算力不足?現在暫時足了,算力的最終本質是電力,現在暫時有核電站的訂單頂著。

1. 人工智能公司的「數據渴望」,已經達到了令人髮指的程度。(不要以為公域數據枯竭,只是說說的而已,這幫已經輸不起的資本家,無所不用其極。)

例子:Anthropic的爬蟲,爬了iFixit網站,一天爬了一百萬次。就像你說:歡迎你來我家!結果,對方一天來了一百萬次。艾麻,真是草!Dario Amodei天天擱那宣傳「合成大法好」,結果把人家的窩都薅禿了。——這不是爬蟲,這是蝗蟲。

2. 算法帶來的提升微弱,Scaling Laws主宰。本質上,神經網絡是結構單調的,這種單調性使得優化算法沒有太大空隙可以插入。暴力仍然是主宰,夯就完事了。為什麼OpenAI的GPT好用?數據,尤其是他們的後訓練精華數據。

例子:我看了DeepMind的研究科學家Felix Hill的心路自敘(這是我見過的文筆最好的AI研究員),他坦言模型算法帶來的提升非常微弱,但每天仍然需要面對它。我們不能說Felix的抑鬱自殺與這項工作的無力感直接相關,但很明顯,這種推進極小的工作,加速了他的悲劇。假設算法帶來的提升極大,那麼Felix一定能從工作中體驗到振奮感。

3. 強化學習Reasoning帶來的範式轉變,但仍然有限。RL Reasoning在R什麼東西?是一種思維方式,僅此而已?是的,僅此而已。他們沒有在R知識本身,只是在R一種套路。

例子:GPT-5預訓練遇到阻力,原因是缺乏足夠的數據量和數據多樣性,OpenAI招募專業團隊來為數學和代碼題編寫解答,同時再加上OpenAI推理模型產生的數據。如果說,數據是足夠的,或者說推理是萬能的,OpenAI何須此舉?直覺先於推理,沒有GPT形成的知識直覺,那麼推理Agent巧婦難為無米之炊。——也許OpenAI未來會變成半個數據研發公司,是的,我說的是數據研發,挺可笑的吧。

以上是現在OpenAI,Anthropic,Google禦三家的情況,其他的公司面臨的情況可能會更嚴峻。

未來的方向,如果未來是AI主導的世界,那麼數據的採集和標註會是核心工作。

數據這個故事,不是已經達到了瓶頸,而在預示一個「後數據時代」。這會是一個觀念革新的問題。一個面向真實場景的AI,它需要私域數據。也許未來的模型微調的公司,會把最大的精力放在為客戶採集數據標註數據,數據即智能(一種低泛化性的智能)。我們是否要質疑通用模型的適應性?

@鹹蛋

scaling的問題很多人沒搞明白。

如果仔細測試模型就會發現,模型沒辦法解決未知問題,哪怕是推理模型,遇到未知問題本質上是在當前內容上做擴展,也就是,如果一個外部知識模型沒有,那麼它推理也是搞不定這個問題的。

現在很多人把這個上限歸結為scaling的問題,我認為這是不對的,這個分為兩個部分,一個是深度,一個是廣度。

深度代表最強的o3,其實做題方面相當了得了,但是o1測試下來,很多模型缺乏的知識康尼容,它依然會在錯誤的認知上進行推理,就是所謂幻覺,那麼這個問題是scaling的問題嗎?

我認為不是,核心點還是模型的知識庫對齊問題,就是說模型無法解決這個問題,並非模型不會,而是它的底層認知和你要解決的問題有偏差。

也就是它理解的東西,其中某個環節,和你要工作完成的目標,有誤解,同一個API名字,他用其他庫的內容替代了,這就導致了模型的不健壯性,也就是所謂的性能瓶頸,隨著模型數據越大,這種混淆實際上更嚴重了,同義詞更多,權重模糊接近極限,中間的任何細微的知識混淆都會導致模型的整體推理步驟錯誤,所以感覺性能幾乎無法提升了。

這就是scaling撞牆的本質,也就是說,數據質量卡死了scaling而不是數據規模。

那麼一個面向所有人的通用模型,他的內部權重必然是均衡的,也就是說它不能對用戶建立單獨數據對齊,比如兩個人工作環境不同,那麼同一句話的意思可能就不同,你的9.11是數字,他的9.11是日期。

那麼結果就會導致這種不健壯性,也就是說你不可能用提示詞精確標註每個步驟的詳細指代,那麼這個東西的存在進到思維鏈,就必然導致推理過程的不健壯性。

也就是所謂的scaling失效問題,必須構建出更高質量的數據,才能提高模型的底層性能,而高質量數據的構建成本非常高,所以openAI無奈只能採用強化微調,讓模型自己生成推理鏈路,人類來修正的方法來構建增強的數據去訓練GPT5,之前直接擴大數據規模的方法在GPT5上面失效了,也就是模型進一步擴大數據集和參數後,模型的知識廣度提高了,深度則原地踏步,所以GPT5卡死兩次不得已全部轉向合成數據。

所以要想進一步提高模型的能力,這裏我有一些想法,就是要實現對數據的深度清理,還有動態數據匹配。

第一個的意思就是,要挖掘數據標註的極限,一個優質數據,可以做數據增強實驗,能否通過優化優質數據來提高分數,是一個非常值得研究的方向。

第二個則是讓模型能夠自主對齊用戶,不是後訓練方法,而是模型能夠通過用戶使用過程的反饋,自我反思推理調整模型輸出內容,無法解決的內容可以請求用戶幫助,把用戶輸入的外部知識進行內化,也就是所謂的成長型模型架構,不是固定權重的模型,模型能類似人一樣反思,自我調整,類似自動化lora,實時強化微調的感覺,但是更輕量。

另外我還有一個非常有意思的想法,如果有研究大模型的大佬可以看看是否可行,就是把模型參數進行標註和預測標註,把模型權重數據和標註數據混合,做成一個可生育模型。

什麼意思呢,就是做一個模型生成模型的大模型,這個模型的生成結果就是模型權重文件。

如果這個方向能有突破,可能是一個非常值得研究的方向,大模型自我生育,端到端的進化模型。

所以不用擔心大模型沒方向,方向多的很,AI遠未撞牆。

在多位答主的深度探討中,我們看到了對Scaling Law多維度的思考:從大模型演進的三階段論,到test loss的本質剖析;從合成數據與反向scale的技術探索,到知識對齊與數據質量的創新思路;從數據瓶頸的深刻反思,到多智能體協作的未來展望。這些討論揭示了一個關鍵事實:所謂的”瓶頸”,也許並非是Scaling Law本身的局限,而是我們對AI發展範式的認知需要跨越新的維度。

正如量子力學的發展最終突破了經典物理的藩籬,AI的下一次飛躍可能同樣需要對根本範式的重新思考:從單一的參數規模擴張,到多維度的質量提升;從靜態的知識存儲,到動態的認知演進;從追求極致算力,到探索高效且可持續的架構。這不僅是技術路徑的選擇,更是AI發展哲學的反思。

值得深思的是,在這個臨界點上,我們不應被”瓶頸”二字所困,而應將其視為一個契機——重新審視AI發展的根本命題,探索更富想像力的可能性。畢竟,正如人類認知的演進從未止步,AI的進化或許也正在醞釀著新的範式轉移。

期待在評論區看到更多真知灼見。