從預訓練轉向推理,大模型廠商尋找新的Scaling Law

文 | AI大模型工場,作者|參商,編輯|星奈

最近,關於Scaling Law是否失效的討論居高不下。 

起因是The Information、路透社和彭博社接連爆出LLM進展放緩,Scaling Law撞牆。

The Information表示,據OpneAI內部人員透露,GPT系列模型更新緩慢,即將推出的下一代旗艦模型Orion並沒有實現質的飛躍,雖然性能上超過了以往模型,但相較於從GPT-3到GPT-4的迭代,改進幅度縮小,OpenAI正在轉變策略。

路透社也發文表示,由於當前方法受到限制,OpenAI和其他公司正在尋求通向更智能AI的新途徑。

隨後,彭博社也出來拱火,認為OpenAI、Google、Anthropic三家AI公司,在新模型開發上的付出與回報的差額正在逐漸擴大。

報導稱,Google即將推出的新版Gemini並未達到內部預期,Anthropic也推遲了備受期待的Claude 3.5「超大杯」Opus的發佈時間。

儘管,後面山姆.奧特曼親自下場闢謠:沒有牆。微軟AI主管Mustafa Suleyman也表示,不會有任何放緩。

但不爭的事實是,模型界「三巨頭」在預訓練方面接連碰壁,模型發展遇到瓶頸。Scaling Law的邊界真的已經到來了嗎?

一、暴力美學失效

Scaling Law也稱尺度定律,被業界認為是大模型預訓練第一性原理。

2020年,OpenAI發佈論文「Scaling Laws for Neural Language Models」,首次發現模型參數量、數據集大小、訓練計算量的關係,即三者中任何一個因素受限時,Loss與其之間存在冪律關係,其中一些趨勢跨越了超過七個數量級。

也就是說,模型能力會隨著參數量的增加而不斷提升。OpenAI沿著這個思路也確實大獲成功,在論文發佈四個月後,GPT3問世,再到2022年ChatGPT上線,後面的故事大家都已經清楚。

從GPT3到GPT4,從Gemini到Claude,Scaling Law的暴力美學被一次次證明其正確性。

不過,隨著模型參數不斷增加,對數據量的需求也是指數級增長,人類互聯網產生的數據遲早有一天會被大模型「吞噬」,只是這一天來得如此之快。

The Information指出,OpenAI下一代ChatGPT 5的訓練出現了重大瓶頸,原因之一是高質量文本數據越來越少。

下一代要發佈的旗艦模型Orion,在預訓練階段只用了20%的訓練量,就達到了GPT4的水平,能力上升的很快,但OpenAI的研究者發現,後邊增加訓練量,Orion的水平提升卻很慢很微小,沒有實現從GPT3到GPT4的質得飛躍,這或許也是OpenAI並沒有將Orion命名為GPT5的原因。

Google和Anthropic也面臨著相同的問題,Google的下一代Gemini 模型表現低於內部預期,Anthropic Claude 3.5 Opus 的發佈也將推遲。

國內,10月初,就有消息傳出,「AI六小虎」中已經有兩家公司已經決定逐步放棄預訓練模型,近期又有消息指出,仍在繼續預訓練的公司只剩下智譜AI和MiniMAX,其他包括月之暗面、百川只能在內的公司都已經放棄預訓練。

除了這些AI初創公司,國內的BAT包括字節這些大廠對預訓練的進展並沒有披露過多,都在卷嚮應用層。

實際上,國內模型廠商轉嚮應用也從側面印證了大模型Scaling Law目前存在的困境。

LLM除了吞噬了大量的數據外,在訓練過程中所消耗的大量算力、電力等能源也成為嚴重阻礙,此外更為重要的是,超大規模的前期投入與收益無法匹配,ROI過低。

OpenAI研究者Noam Brown前段時間曾公開表示,更先進的模型可能在經濟上不可行。「畢竟,我們真的要花費數千億美元或數萬億美元訓練模型嗎?」Brown 說,「在某個時候,scaling 範式會崩潰。」

超大規模語言模型的預訓練過程極其耗費資源,通常需要數十萬張GPU並行運行數月之久,單次訓練成本可達數千萬至數億美元。例如,擁有1.8萬億參數的ChatGPT 4模型,其單次訓練費用大約為6300萬美元。

然而儘管投入巨大,這些新模型在性能上的提升卻與之前的模型性能所差無幾,這種情況下,大模型公司下一輪的融資故事恐怕難以講下去。

目前,以OpenAI為代表的初創企業,現在並沒有跑通商業模式,投資人的錢也不是大風颳來的,如果長時間看不到回報,他們對繼續投資的態度肯定會更加謹慎。畢竟,沒有那個投資人原意一直當「冤大頭」。在這種情況下,國內大模型行業整體轉向了更符合商業利益的做法——做AI應用。

另外從技術角度看,整個AI行業還有另一個轉向——從預訓練向推理轉向。

Scaling Law的忠實追隨者OpenAI前首席科學家Ilya Sutskever,在最近接受路透社採訪時表示,擴大預訓練的結果已經達到了平台期。

「現在重要的是「擴大正確的規模」」他表示,「2010年代是scaling的時代,現在,我們再次回到了奇蹟和發現的時代。每個人都在尋找下一個奇蹟。」

二、大廠轉向推理層,尋找新的Scaling Law

面對大模型Scaling Law降速的事實,各巨頭紛紛尋找新的擴展定律。

事實上,目前討論的Scaling Law撞牆更多的是指預訓練擴展定律(Pre-training Scaling Law),也就是上文討論的大模型暴力美學。

但是有關後訓練和推理的Scaling Law還未被充分挖掘,這也是諸多大佬認為Scaling Law沒有失效的重要原因。

後訓練擴展定律(Post-training Scaling Law)與傳統的預訓練擴展定律不同,關注的是在模型訓練完成後,如何通過增加推理階段的計算量來提升模型性能。

後訓練擴展定律表明,即使模型參數保持不變,通過增加推理階段的計算量,也可以顯著提升模型的性能

而推理擴展定律(Inference Scaling Law)則強調在推理階段通過增加計算資源來提升模型性能的原則。

提到這兩個定律,不得不提到測試時計算(test-timi compute ),測試時計算可以被看做是實現後訓練擴展定律和推理擴展定律的關鍵手段。

那麼什麼是測試時計算?

測試時計算是一種在模型推理階段通過優化計算資源分配來提高模型性能的方法。與預訓練相比,測試時計算借助強化學習、原生思維鏈和更長的推理時間,能夠在面對複雜問題時,能夠智能地分配計算資源,用最經濟的成本提供更高效和準確的答案。

OpenAI推出的O1推理模型正是靠測試時計算實現的。即在訓練好的O1模型回答問題時,也就是在推理階段,給他更多時間和算力,讓它自己從自己的回覆中得到更好的答案。

在OpenAI提供的O1模型後訓練階段的縮放定律圖標顯示,隨著強化學習時間和推理思考時間的增長,O1模型性能得到顯著提升。

不僅OpenAI,微軟CEO Satya Nadella在微軟Ignite大會上也直言,看到了「測試時計算」新的擴展規律的出現,並表示微軟Copilot的 “深入思考”功能也是利用這一規律來解決更難的問題。

實際上,OpenAI O1模型的推出將預訓練Scaling Law範式帶向了推理層的Scaling Law,國內企業也紛紛追隨OpenAI腳步上線推理模型。

這兩天,國內DeepSeek扔出重磅炸彈,上線了全新的推理模型 DeepSeek-R1-Lite-Preview,性能直逼O1。背後也同樣是推理層的Scaling Law在發揮作用。

DeepSeek-R1在數學和編程方面與O1-preview相當,甚至在一些競賽中已經領先O1。

DeepSeek之所以能有如此強勢的推理能力,很重要的一點就是他們採用了超長推理時間。官方表示,DeepSeek R1 系列模型推理過程包含大量反思和驗證,思維鏈長度可達數萬字。隨著思考長度的增加,模型性能在穩步提升。

最近,一反常態的月之暗面,也在成立一週年之際,向外界公佈了其數學模型k0-math的進展情況,要知道此前月之暗面的唯一核心在C端產品Kimi身上。

據瞭解,k0-math採用了強化學習和思維鏈推理技術,也是Open AI o1系列背後的關鍵技術。

楊植麟早已預見,隨著訓練數據達到上限,推理層的Scaling Law想像空間更大,也因此在推理模型上早早準備並上線。他表示,Open AI o1的變化其實可以預測,接下來會越來越關注基於強化學習(RL)的方法去「Scale」。

國內還有阿里、崑崙萬維等也都上線了相關的推理大模型產品,無論從技術實現角度還是可落地性角度,Scaling Law已經從預訓練向推理層轉向。

結尾

大模型預訓練的Scaling Law之所以能跑出來,是因為在當時的條件下,這是投入與回報最佳的Scale up路線。 

然而,站在歷史角度上看,每個技術曲線的Scaling law都有其壽命,不存在一招吃遍天下的情況。

正如摩亞定律最初定義的是集成電路中晶體管數量每兩年翻一番,但隨著時間的推移,這一規律在新技術的推動下不斷擴展,成為廣義摩亞定律,甚至超越之前的發展速度一樣。

在AI領域,雖然短期內可能會遇到技術瓶頸或成本效益比下降的問題,但從長遠來看,AI的軟硬件能力仍然會以每十年六個數量級的速度呈指數增長。

這種增長將通過多種創新路徑得以實現,包括但不限於算法優化、硬件加速、新型計算架構等,共同維持AI技術的快速發展趨勢。

即使Scaling Law真的撞牆,前代技術的商業化應用紅利依然會持續很久。