啊?7B的DeepSeek反超R1滿血版,上海AI Lab周伯文團隊新成果:計算最優的Test-Time Scaling

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

倒反天罡了,新方法讓DeepSeek蒸餾的Qwen數學能力反超R1滿血版,7B反超671B

除此之外,0.5B模型超過GPT-4o,1.5B的DeepSeek蒸餾Qwen超過o1-mini和o1-preview,3B的Llama超過405B的Llama……

這是上海AI Lab/清華哈工大/北郵團隊最新研究成果,通訊作者為齊弼卿周伯文

重新思考計算最優的Test-Time Scaling(湯臣S)

團隊認為,儘管湯臣S在提升語言模型推理能力上取得進展,但目前的研究還缺乏對策略模型、過程獎勵模型(PRM)和問題難度等因素影響的系統分析。

因此,該研究聚焦兩個核心問題:

  • 跨不同策略模型、PRM和問題難度,最優的湯臣S方式是什麼?

  • 湯臣S能在多大程度上提升語言模型在複雜任務上的表現?小模型能否超越大模型?

重新思考Test-Time Scaling

為探究這些問題,團隊在MATH-500和AIME24數學推理數據集上,使用多個不同規模的策略模型和PRM,進行了全面的實驗評估。

他們將推理問題建模為馬爾可夫決策過程,定義了狀態空間、動作空間、轉移函數、獎勵函數和折扣因子等元素。

對於湯臣S,考慮了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三種方法。

實驗發現,最優的湯臣S方法卡奧度依賴於具體的策略模型、過程獎勵模型(PRM)和問題難度。

對於小型策略模型,基於搜索的方法優於BoN,而對於大型策略模型相反。

團隊認為之所以出現這種差異,是因為較大的模型具有更強的推理能力,並且不需要驗證器來執行逐步選擇。相比之下,較小的模型依靠驗證器來選擇每個步驟,確保每個中間步驟的正確性。

對於過程獎勵模型,對Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM時效果拔群,在MATH-500數據集上搜索方法的性能隨計算預算增加顯著提升。

而使用Math-Shepherd和RLHFlow的PRMs時效果不佳甚至不如多數投票。

對於問題難度,參數少於7B的小型策略模型,BoN更適合於簡單的問題,而Beam Search更適合於更難的問題。

參數在7B-32B的策略模型,DVTS在簡單和中等問題上表現良好,而Beam Search對於困難問題更有效。

另外在72B參數的策略模型上,BoN是所有難度級別的最佳方法。

因此,團隊提出了一個更通用的獎勵感知型最優計算湯臣S框架,確保湯臣S計算能適應特定的策略模型、提示和獎勵函數。

利用獎勵感知型最優湯臣S框架,在MATH-500和AIME24上取得了如下結果:

3B的Llama3.2超越135倍大的Llama3.1-405B,與之前的湯臣S研究(超越23倍大的模型)相比,改善了487%。

DeepSeek-R1-Distill-Qwen-7B超過了OpenAI-o1(參數量未知)和DeepSeek-R1(671B)。

甚至0.5B和1.5B的小模型也展現出了與GPT-4o、o1-preview等專門的推理模型媲美的表現。

研究還比較了最優湯臣S和目前流行的基於長CoT的方法。

結果表明,湯臣S在MATH-500和AIME2024上優於多數長CoT方法。

然而,雖然湯臣S在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上卻顯示出顯著的下降。

這說明湯臣S在相對簡單任務上優勢明顯,但在更複雜的任務上則遜色於從超大規模模型蒸餾得到模型,還有提升空間。

最後,團隊提出研究真正的 「從弱到強」 方法而不是當前 「從強到弱」 的策略優化監督機制的重要性。

未來的工作應側重於開發更具適應性和通用性的監督機制,以提高小語言模型在複雜任務上的性能,並為開發有效的推理策略提供新方法。

目前的工作對數學任務上的湯臣S做了全面評估,但仍有一些局限性和未來方向需要探索:比如將湯臣S擴展到更多任務,例如代碼和化學,以及探索更高效的計算最優湯臣S方法。

論文地址:

https://arxiv.org/abs/2502.06703