推理大模型1年內就會撞牆,性能無法再擴展幾個數量級 | FrontierMath團隊最新研究

衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI

一年之內,大模型推理訓練可能就會撞牆。

以上結論來自Epoch AI。

這是一個專注於人工智能研究和基準測試的非營利組織,之前名動一時的FrontierMath基準測試(評估AI模型數學推理能力)就出自它家。

與之伴隨而來的還有另一個消息:

如果推理模型保持「每3-5個月都以10倍速度增長」,那麼推理訓練所需的算力可能會大幅收斂。

就像DeepSeek-R1之於OpenAI o1-preview那樣。

看了這個結果,有圍觀網民都著急了:

既然在o3基礎上再scaling非常困難,那為什麼咱不探索模塊化架構或針對特定任務的專用模型呢?

「效率」比「研究過剩」更重要!

推理訓練還有scalable的空間

OpenAI的o1是推理模型的開山之作。

和o3、DeepSeek-R1等一樣,它們從傳統的大語言模型發展而來,在預訓練階段使用了大量人類數據進行訓練,然後在強化學習階段(也就是所謂的第二階段),根據解題的反饋來改進自己的推理能力。

雖然推理模型已經成為了很多AI使用者的實用幫手,但關於推理訓練所需算力的公開信息非常少,大概只有以下這些:

  • OpenAI表示,與o1相比,訓練o3所需的算力提升了10倍——提升部分幾乎都花在了訓練階段。

  • OpenAI沒有公開o1、o3的具體細節,但可以從DeepSeek-R1、微軟Phi-4-reasoning、英偉達Llama-Nemotron等其它推理模型。它們所需的推理訓練階段算力耕地,但可以根據它們進行推演。

  • Anthropic的創始人兼CEO Dario Amodei曾針對推理模型有過一篇公開文章。

然後就沒有然後了……

根據現有的信息和資料,Epoch AI進行了總結和分析。

首先,OpenAI公開過這樣一張圖表,上面展示了o3和o1在AIME基準測試中的表現,以及兩者在推理訓練階段可能所需的算力的對比——

可以看到,終版o3花費的算力是o1的10倍。

Epoch AI分析道:「x軸很可能顯示的是推理訓練所需算力而不是總算力。」

Epoch AI羅列了這一猜測的證據。

第一,初代o1耗費的算力比o3低四個數量級,其在AIME上的得分約為25%。

如果x軸表示總計算量,「不太可能呈現這種情況」。

第二,如果x軸表示的是所需總算力,這張圖意義就不大了。

因為這就意味著OpenAI訓練了N個版本的o1,且預訓練階段非常不完整。

依照Epoch AI的猜測,如果o3在推理結算花費的算力是o1的10倍,這意味著什麼?

由於很多推理模型背後團隊都學精了,並不公開訓練方法和過程,所以只能從現有公開資料里去尋找答案。

比如DeepSeek-R1

Epoch AI此前估算,DeepSeek-R1推理訓練中使用的算力約為6e23 FLOP(成本約 100 萬美元),需要生成大約 20萬億個tokens——這隻有DeepSeek-V3預訓練成本的20%。

雖然只是一種估算,但R1在各個榜單上的得分和o1非常接近,「因此可以用它來為o1所需算力設定一個baseline」。

比如英偉達的Llama-Nemotron Ultra,它在各個基準上的分數與DeepSeek-R1和o1相當。

它是在DeepSeek-R1生成的數據上訓練的。

公開信息顯示,Llama-Nemotron Ultra的推理階段耗時140000 H100小時,約等於1e23 FLOP。這甚至低於它的原始基礎模型預訓練成本的1%。

再比如微軟的Phi-4-reasoning

它是在o3-mini生成的數據上訓練的。

Phi-4-reasoning在推理階段規模更小,成本低於1e20 FLOP,可能是預訓練所需算力成本的<0.01%。

值得注意的是,Llama-Nemotron和Phi-4-reasoning都在RL階段之前進行了有監督微調。

咱們再來看看今年1月DeepSeek-R1發佈後,Anthropic的CEODario Amodei寫的一篇文章,這被視為關於現有推理模型所需算力規模的最後一點線索:

由於這是新範式,我們目前仍處於規模拓展的初期階段:所有參與者在第二階段投入的資金量都很少,花費從10萬美元提高到100萬美元就能帶來巨大收益。

如今,各公司正迅速加快步伐,將第二階段的規模擴大到數億乃至數十億美元。

有一點必須重視,那就是我們正處於一個獨特的轉折點上。

當然了,Amodei對非Anthropic模型所需算力的看法可能只基於自家公司內部數據。

但可以清晰瞭解,截至今年1月,他認為推理模型的訓練成本遠低於「數千萬美元」,大於1e26 FLOP。

Epoch AI總結道——

上述的預估和線索指向一個事實,那就是目前最前沿的推理模型,比如o1,甚至o3,它們的推理訓練規模都還沒見頂,還能繼續scalable。

但1年內可能就撞牆了

換句話說,如果推理訓練還沒見頂,那麼推理模型還是有潛力在短期內快速實現能力拓展的。

這就意味著,推理模型還很能打,潛力巨大

就像OpenAI展示出的下圖,以及DeepSeek-R1論文中的圖2一樣——模型答題準確率隨著推理訓練步驟的增加而大致呈對數線性增長。

這表明,至少在數學和編程任務上,推理模型的性能隨著推理訓練的擴展而增強,就像預訓練的scaling law一樣。

行文至此處,Epoch AI寫下這樣一段話:

如果推理階段的算力需求見頂,那麼其帶來的增長率將收斂,大概是每年增長4倍。

絕不會像o1推出後4個月就有了o3那樣,保持幾個月增長10倍的態勢。

因此,他得出這樣一個結論——

如果一個推理模型的訓練階段僅比前沿推理模型低幾個(比如說少於三個)數量級,這種增長率可能在一、兩年內減緩,甚至撞牆。

然鵝,想要擴展推理模型並不是那麼簡單的。

單單是數據不夠這一項,就可能導致其停滯不前。

大家也都還不清楚,除了數學、編程領域,推理訓練是否能泛化到其它規律性沒那麼強的領域

但可以肯定的是,隨著推理模型的訓練越來越成熟,所有推理模型所需的成本可能都趨同。

雖然研究成本的高低並不影響算力和性能之間的關係,但如果相關研究保持「花錢如流水」的狀態,那麼推理模型可能無法達到人們心中預期的最佳水平。

另一方面,即使所需算力的增長速度放緩,推理模型也可能持續進化,就像R1那樣。

換句話說,不只有數據或算法創新能推動推理模型的進步,算力大增也是推動推理模型進步的關鍵因素。

參考鏈接:

https://epoch.ai/gradient-updates/how-far-can-reasoning-models-scale