推理大模型1年內就會撞牆,性能無法再擴展幾個數量級
一年之內,大模型推理訓練可能就會撞牆。
以上結論來自Epoch AI。
這是一個專注於人工智能研究和基準測試的非營利組織,之前名動一時的FrontierMath基準測試(評估AI模型數學推理能力)就出自它家。
與之伴隨而來的還有另一個消息:
如果推理模型保持「每3-5個月都以10倍速度增長」,那麼推理訓練所需的算力可能會大幅收斂。
就像DeepSeek-R1之於OpenAI o1-preview那樣。

看了這個結果,有圍觀網民都著急了:
既然在o3基礎上再scaling非常困難,那為什麼咱不探索模塊化架構或針對特定任務的專用模型呢?「效率」比「研究過剩」更重要!

推理訓練還有scalable的空間
OpenAI的o1是推理模型的開山之作。
和o3、DeepSeek-R1等一樣,它們從傳統的大語言模型發展而來,在預訓練階段使用了大量人類數據進行訓練,然後在強化學習階段(也就是所謂的第二階段),根據解題的反饋來改進自己的推理能力。
雖然推理模型已經成為了很多AI使用者的實用幫手,但關於推理訓練所需算力的公開信息非常少,大概只有以下這些:
OpenAI表示,與o1相比,訓練o3所需的算力提升了10倍——提升部分幾乎都花在了訓練階段。
OpenAI沒有公開o1、o3的具體細節,但可以從DeepSeek-R1、微軟Phi-4-reasoning、英偉達Llama-Nemotron等其它推理模型。它們所需的推理訓練階段算力耕地,但可以根據它們進行推演。
Anthropic的創始人兼CEO Dario Amodei曾針對推理模型有過一篇公開文章。
然後就沒有然後了……
根據現有的信息和資料,Epoch AI進行了總結和分析。
首先,OpenAI公開過這樣一張圖表,上面展示了o3和o1在AIME基準測試中的表現,以及兩者在推理訓練階段可能所需的算力的對比——

可以看到,終版o3花費的算力是o1的10倍。
Epoch AI分析道:「x軸很可能顯示的是推理訓練所需算力而不是總算力。」
Epoch AI羅列了這一猜測的證據。
第一,初代o1耗費的算力比o3低四個數量級,其在AIME上的得分約為25%。
如果x軸表示總計算量,「不太可能呈現這種情況」。
第二,如果x軸表示的是所需總算力,這張圖意義就不大了。
因為這就意味著OpenAI訓練了N個版本的o1,且預訓練階段非常不完整。

依照Epoch AI的猜測,如果o3在推理結算花費的算力是o1的10倍,這意味著什麼?
由於很多推理模型背後團隊都學精了,並不公開訓練方法和過程,所以只能從現有公開資料里去尋找答案。
比如DeepSeek-R1。
Epoch AI此前估算,DeepSeek-R1推理訓練中使用的算力約為6e23 FLOP(成本約 100 萬美元),需要生成大約 20萬億個tokens——這隻有DeepSeek-V3預訓練成本的20%。
雖然只是一種估算,但R1在各個榜單上的得分和o1非常接近,「因此可以用它來為o1所需算力設定一個baseline」。
比如英偉達的Llama-Nemotron Ultra,它在各個基準上的分數與DeepSeek-R1和o1相當。
它是在DeepSeek-R1生成的數據上訓練的。
公開信息顯示,Llama-Nemotron Ultra的推理階段耗時140000 H100小時,約等於1e23 FLOP。這甚至低於它的原始基礎模型預訓練成本的1%。
再比如微軟的Phi-4-reasoning。
它是在o3-mini生成的數據上訓練的。
Phi-4-reasoning在推理階段規模更小,成本低於1e20 FLOP,可能是預訓練所需算力成本的<0.01%。
值得注意的是,Llama-Nemotron和Phi-4-reasoning都在RL階段之前進行了有監督微調。
咱們再來看看今年1月DeepSeek-R1發佈後,Anthropic的CEODario Amodei寫的一篇文章,這被視為關於現有推理模型所需算力規模的最後一點線索:
由於這是新範式,我們目前仍處於規模拓展的初期階段:所有參與者在第二階段投入的資金量都很少,花費從10萬美元提高到100萬美元就能帶來巨大收益。如今,各公司正迅速加快步伐,將第二階段的規模擴大到數億乃至數十億美元。有一點必須重視,那就是我們正處於一個獨特的轉折點上。
當然了,Amodei對非Anthropic模型所需算力的看法可能只基於自家公司內部數據。
但可以清晰瞭解,截至今年1月,他認為推理模型的訓練成本遠低於「數千萬美元」,大於1e26 FLOP。
Epoch AI總結道——
上述的預估和線索指向一個事實,那就是目前最前沿的推理模型,比如o1,甚至o3,它們的推理訓練規模都還沒見頂,還能繼續scalable。
但1年內可能就撞牆了
換句話說,如果推理訓練還沒見頂,那麼推理模型還是有潛力在短期內快速實現能力拓展的。
這就意味著,推理模型還很能打,潛力巨大。
就像OpenAI展示出的下圖,以及DeepSeek-R1論文中的圖2一樣——模型答題準確率隨著推理訓練步驟的增加而大致呈對數線性增長。

這表明,至少在數學和編程任務上,推理模型的性能隨著推理訓練的擴展而增強,就像預訓練的scaling law一樣。
行文至此處,Epoch AI寫下這樣一段話:
如果推理階段的算力需求見頂,那麼其帶來的增長率將收斂,大概是每年增長4倍。絕不會像o1推出後4個月就有了o3那樣,保持幾個月增長10倍的態勢。
因此,他得出這樣一個結論——
如果一個推理模型的訓練階段僅比前沿推理模型低幾個(比如說少於三個)數量級,這種增長率可能在一、兩年內減緩,甚至撞牆。

然鵝,想要擴展推理模型並不是那麼簡單的。
單單是數據不夠這一項,就可能導致其停滯不前。
大家也都還不清楚,除了數學、編程領域,推理訓練是否能泛化到其它規律性沒那麼強的領域。
但可以肯定的是,隨著推理模型的訓練越來越成熟,所有推理模型所需的成本可能都趨同。
雖然研究成本的高低並不影響算力和性能之間的關係,但如果相關研究保持「花錢如流水」的狀態,那麼推理模型可能無法達到人們心中預期的最佳水平。
另一方面,即使所需算力的增長速度放緩,推理模型也可能持續進化,就像R1那樣。
換句話說,不只有數據或算法創新能推動推理模型的進步,算力大增也是推動推理模型進步的關鍵因素。
參考鏈接:https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale
本文來自微信公眾號「量子位」,作者:關注前沿科技,36氪經授權發佈。