張俊林:MCST樹搜索會是複刻OpenAI O1/O3的有效方法嗎
作者:張俊林
鏈接:https://www.zhihu.com/question/10114790245/answer/85357871114
Deepseek R1和Kimi K1.5同一天公佈技術報告,介紹了RL+LLM的做法,方法簡潔有效,讀完技術報告收穫很大,且兩者效果基本追平OpenAI O1,下一步就是趕超O3了,方法已經走通,趕超應該只是時間問題。
R1和K1.5的方法其實是類似的,且都沒有採取MCST+PRM的技術路線,報告發佈後湧現出一些聲音,意思是MCST是不可行的,我覺得這個結論下得有點草率,而且為時過早。就比如攀登珠穆朗瑪峰,可能有不同的路徑,條條小路通封頂,不能說A路線能通頂,由此得出結論B路就不行,這裏貌似沒有必然的邏輯關係。
如果綜合下目前相關研究進展,除了R1和K1.5,微軟的rStar-Math也是個非常值得關注的技術方案,採取MCST+PRM路線,我認為它已經把樹搜索如何做類o1模型的路趟通了,若綜合R1、K1.5和rStar-Math一起分析,再深入思考下,應該能得出很多有意思的判斷。比如,R1和K1.5以及MCST方法之間有什麼特殊的關聯嗎?我認為三者之間有著密切的關聯。本文會介紹這三者的主要思路,以及相互之間的聯繫。
正文有點長,這裏提煉出一些要點:
Kimi K1.5的做法是DeepSeek R1的特例,基於這個路線,我們可以推導出更通用的方法;
由K1.5和R1,可得到如下推論:存在大量題目,由模型給出的推理軌跡COT數據中包含中間步驟錯誤,但是這影響不大,用這種數據仍然能訓練出強大的類o1模型;
進一步的推論:大模型比人類更適合學習複雜推理的過程,對於大模型來說就是把高概率的邏輯片段建立起遷移聯繫,一環套一環玩接力遊戲就行,而人腦其實是不擅長學習長鏈條的知識推導的;
Deepseek R1和Kimi K1.5採用的方法是MCST方法的特例,如果兩者有效,一定可以推導出對應的更通用的有效MCST樹搜索版本;
All You Need is High Quality Logic Trajectory Data;
得益於Deepseek開源出的眾多R1版本模型,我們可以低成本快速複製出邏輯推理能力更強大的模型;
正文開始。
Kimi K1.5和Deepseek R1的做法及聯繫
如果看過兩者的技術報告,會發現這兩者做法非常相似, K1.5基本上可以看成R1做法的特例情況。而且我在讀完後引發了一些疑問,並在自我解釋這個疑問的過程中引發出一些有意思的推論。
Kimi K1.5的技術方案

Kimi K1.5的兩階段過程
在選定某個基座模型後,Kimi K1.5分為兩個階段,第一階段找到一批<問題,答案>數據,通過某個能力較強的模型,來產生問題對應的推理軌跡COT數據(代表模型深度思考的過程)和模型推導出的答案,根據模型產生的答案是否與標準答案相同,可以過濾掉錯誤的中間推理過程,保留那些模型產生答案和標準答案相同的推理軌跡COT,再加上一些規則判斷或人工校準,儘量減少中間推理步驟錯誤,由此產生一批推理軌跡COT數據,訓練數據此時形成<問題,推理軌跡COT,答案>的形式,然後用這些數據SFT調整下模型參數。這個階段的主要目的一個是讓大模型能夠產生初步的深度思考能力,一個是輸出格式滿足我們希望的形式,通過調整模型參數讓這種能力內化到模型里。

K1.5與R1的RL階段策略
第二個階段則採用強化學習(RL)進一步優化模型的複雜邏輯推理能力(R1和K1.5的RL階段做法非常接近,這裏一起說了)。這個過程其實和傳統的RLHF基本類似,只是RL策略里去掉了不太好調試的RM模型。具體而言(參考上圖),在經過SFT後的模型Model-SFT基礎上,比如我們現在拿到一個問題以及對應的標準答案數據<問題,標準答案>,此時讓Model-SFT自己產生K條完整的推理軌跡COT,以及對應的答案。ORM(結果回報模型)根據某條推理軌跡產生的答案是否和問題的標準答案相同給出Reward,符合標準答案給出正向高回報,不符合標準答案則負向低回報(上圖左部)。
同一個問題,K個推理軌跡,K個答案,產生高低不同的K個回報。我們可以認為得到高回報的推理軌跡質量高,於是,我們希望根據目前得到的這些數據,來調整下模型參數,讓模型以後傾向輸出那些高回報的推理軌跡COT作為思考過程,而別產生那些低回報的推理軌跡COT,這是強化學習希望達到的目標。Deepseek R1和Kimi K1.5的具體RL策略展示在上圖右側,兩者核心思想高度一致:一個問題產生K個推理軌跡,以K個推理軌跡獲得Reward的均值作為比較基準, 鼓勵模型產生高於均值Reward的軌跡,抑制模型產生低於均值Reward的軌跡。通過上述策略修正模型參數,即可達成我們希望RL達成的目標,讓Model-SFT產生質量越來越高的推理軌跡COT。
如果對大模型Post-Training比較熟悉的同學可以看出來,Kimi K1.5這種做法和標準的Post-Training流程基本是一樣的,主要區別在於:傳統的大模型SFT階段是用人寫的標準答案,而此時換成了用模型產生並人工校準的推理軌跡COT及答案;而RLHF階段做法則基本一致。
Deepseek R1的做法

Deepseek R1的兩階段過程
Deepseek R1的訓練過程看著稍微複雜一些,但是若你仔細分析就會發現,Kimi K1.5其實可以看作Deepseek R1的一個特例。如上圖所示,Deepseek R1訓練可以劃分成兩個大的階段,第一個階段(Phrase 1)基本就是上述Kimi K1.5的做法,此處不贅述,這裏的基座是Deepseek V3 Base,也就是預訓練版本模型。區別在後面,對於Kimi來說完成第一個階段就是最後的模型了,而對於Deepseek R1來說,階段一隻是個輔助過程,經過階段一RL訓練穩定後的模型Model RL-1,其主要目的是用來產生比第一次SFT階段更高質量的推理軌跡COT數據,產生完新的數據就被拋棄了,我們要新產生的數據但是不要之前的舊模型。
然後,用Model RL-1產生的新COT數據,再加入Deepseek V3在Post-training階段的數據(非邏輯推理類的數據,加入是為防止模型經過邏輯推理數據調整參數後產生的再難遺忘,導致其它非邏輯推理類任務效果變差,這是標準做法),進入第二階段(Phrase 2),其過程和Phrase 1是一樣的,內部也分為SFT和RL兩個階段,主要不同在於SFT用的數據集合換掉了,僅此而已。
但是這裏需要注意一點,也是我認為訓練邏輯推理模型過程中值得關注的技巧:第二階段的基座模型是最開始選擇的基座模型Deepseek V3 Base,而不是經過階段一強化過的Model RL-1。這個很重要,道理也好理解,我們可以認為Phrase 1里SFT階段的邏輯軌跡COT數據質量不夠高,儘管經過RL有所增強,但比起Model RL-1產生的邏輯推理數據來說仍有所不如,所以可以把Model RL-1反向看成被低質量數據汙染的模型,與其如此,不如直接用更好的數據在乾淨的Base模型上調整,這樣效果應該更好。微軟的MSCT思路模型rStar-Math里也反復採用了這一技巧,進行了四輪迭代,每次迭代都產生更好的訓練數據,但策略模型的基座都是剛開始的乾淨Base模型,可見這一手段是很重要的訓練邏輯推理模型的技巧。

Deepseek R1 Zero訓練過程
談完R1我們再來看R1 Zero,對比上面R1 Zero的訓練過程圖和Kimi K1.5的訓練過程圖,可以看出,R1 Zero的RL步驟和R1是完全一樣的,最主要區別是沒有用採集好的推理軌跡COT數據來通過SFT啟動模型。但是,Zero也不是憑空進行RL的,你可以認為是用Pormpt工程的方式替代了SFT階段,當基座模型能力足夠強,寫一個Prompt模版,要求它啟動深度思考模式且輸出滿足我們期望的格式,這個強能力基座肯定可以辦到。類似思路,可以參考OpenAI剛推出O1的時候的複刻模型Thinking Claude( [https://github.com/richards199999/Thinking-Claude](https://github.com/richards199999/Thinking-Claude) ),就是在Claude 3.5基座基礎上,通過寫Prompt模版的方式,來讓Claude看上去像o1那樣產生推理軌跡COT和答案,如果Thinking Claude再加上RL階段去調整模型參數,我們就能獲得R1 Zero。
由R1和K1.5可推導出的更通用的方法
前文有述,我們可以把K1.5看成是R1的一個特例,通過思考兩者的關係,其實在R1的兩個階段基礎上,我們可以進一步推廣,形成更通用的一種多階段訓練類o1模型的思路。請參照上文提到的R1訓練過程圖,那裡R1只進行了一次Phrase 1,而我們完全可以多次重覆R1的Phrase 1階段,在最後一個階段使用R1的Phrase 2,如此這般,就能形成更通用的多階段做法。比如我們設計4個階段,第一階段類似R1的Phrase 1,得到Model RL-1,使用它產生更高質量的推理軌跡COT數據,然後用這些數據對幹淨的Base模型進行SFT,開啟Phrase 2,得到Model RL-2,由Model RL-2產生質量更進一步的推理軌跡COT數據,如此重覆幾次,最後一個階段採用R1的Phrase 2策略,補充標準Post-Training階段訓練數據,防止對通用能力的災難遺忘問題。
而且,在後續的階段里,可以逐步增加難題佔比,採用類似「課程學習」的思想:先從簡單問題學起,逐步增加問題難度。在K1.5和rStar-Math都有提到,而且也都通過實驗證明了逐步增加問題難度的有效性,所以這也是一個重要技巧。R1雖然沒有提,但我猜也應遵循了這個思想,R1 Zero在RL階段隨著訓練往後進行,輸出Token數逐步增加,也可以推出越往後的訓練階段,難題數量越多的趨勢。
由R1和K1.5訓練方法引出的疑問及推論
在製作推理軌跡COT訓練數據時,我之前認為對於複雜問題對應的推理軌跡COT來說,我們希望儘量減少中間步驟的錯誤,最好是得到推理軌跡COT中每個推理步驟都完全正確,且最終答案也正確的訓練數據,這樣的數據才是好的訓練數據,經過這種訓練數據訓練出的邏輯推理模型才能解決好高難度問題。但若根據Deepseek R1和Kimi K1.5的做法反推,我能得到的推論是:推理軌跡COT中間推理步驟是否錯誤這事好像不重要,存在相當多中間步驟錯誤的訓練數據,也一樣能訓練出強大的推理模型。我看完幾篇論文綜合信息推出這個結論後,剛開始覺得有點不可思議,但貌似事實確乎如此。

from: The Lessons of Developing Process Reward Models in Mathematical Reasoning
我剛看完R1相關論文的疑問來自於:R1也好,K1.5也好,在製作SFT數據以及RL階段產生推理軌跡COT數據時,是通過模型生成完整的推理軌跡COT,然後比較模型產生的最終答案和標準答案,根據兩者是否相同篩選一下,去掉模型答案和標準答案不一致的數據,或者這種情況給個低Reward。
但是,很明顯通過這種方法產生的推理軌跡COT中,存在很多中間步驟的錯誤,證據來自阿里關於PRM改進模型的論文(參考:The Lessons of Developing Process Reward Models in Mathematical Reasoning),可以參考上圖,這個圖說的意思是:通過Qwen2.5 Math對問題給出推理軌跡COT以及對應的答案,他們手工檢查了一下,存在大量結果正確但是推理軌跡COT中包含錯誤中間步驟的數據,比如上圖Omni-MATH數據,經檢查發現有43%的數據推理軌跡COT中有錯誤中間步驟但是最終給出答案是正確的。而且很明顯,越是困難的問題集合中,使用模型給出的推理軌跡COT中,包含錯誤中間步驟的比例會越高。
這意味著,R1和K1.5製作訓練數據過程中,儘管經過和標準答案進行對比進行了篩選,但其產生的推理軌跡COT中,仍然有相當比例的數據存在中間步驟錯誤,而且越是困難的題目包含錯誤數據的比例越高(K1.5講到了一些控制這個問題的辦法,比如把選擇題這種類型去掉,因為容易猜中答案但是推理過程是錯的,但是在這裏不適用,比如Omni-MATH是數值類型的答案,非選擇類型,這個問題依然很嚴重)。但明顯R1的做法又是有效的,所以綜合兩者,我得出上面的推論:存在大量題目,由模型給出的推理軌跡COT數據中包含中間步驟錯誤,但是這影響不大,用這種數據仍然能訓練出強大的類o1模型。
如果在此基礎上進一步深入思考,能得出更多更有趣的推論。比如,我們假設一種極端情形:模型給出的推理軌跡COT所有中間推理步驟都是錯的,那麼毫無疑問,用這種訓練數據不太可能訓練出好的類o1模型。結闔第一個推論,就是說推理軌跡中存在中間步驟錯誤也沒事,那麼事實的真相很可能是這樣的:某個推理軌跡COT的中間步驟存在錯誤是OK的,但是錯誤的中間步驟在總推理步驟的佔比不能太高,應該是越低越好。就是說,我們不用介意某個推理軌跡COT中是否包含錯誤中間步驟,但是要考慮錯誤中間步驟的佔比情況。所謂高質量的推理軌跡COT數據,應該是錯誤中間步驟佔比低的數據。比如說,我們有10個問題,模型對於每個問題給出一個包含10個步驟的推理軌跡COT,即使是10個軌跡每個都包含錯誤中間步驟也沒事,但是,如果10*10共100個推理步驟中,有50個中間步驟是錯誤的,那麼相比只有10個中間步驟是錯誤的推理軌跡數據,10個中間步驟錯的就是高質量的推理軌跡數據。
而前面提到多階段的類o1訓練過程,後一階段之所以能進一步提高推理軌跡COT數據的質量,其核心含義應該是:越往後階段的模型Model RL-i,由其產生的推理軌跡COT訓練數據中包含的錯誤中間步驟比例,要比Model RL-i-1模型產生的錯誤數據佔比來得要低。由此體現出訓練數據質量越來越高的含義。當然,這也只是一個推論。
如果在此基礎上再進一步思考,還能得出更有趣的推論。這說明大模型從推理軌跡訓練數據中學到的是片段間的邏輯關係,而不是整體推理鏈條的正確性。就是說學到的是由步驟i可以推導出步驟i+1,這種細粒度的推理片段和關聯,這是大模型邏輯推理學習的基本單元。所以很長的推理軌跡中出現一些錯誤的步驟,只要它總體佔比不高,那麼這並不影響模型對邏輯基本單元間建立聯繫的學習。這也是個推論,我猜很可能是成立的,這也可以解釋目前我們看到的現象,就是最強大模型比如o3,在邏輯推理能力方面已經超過了99%的普通人。這說明就複雜推理這個能力來說,可能我們傳統的理解有點問題,大模型比人類更適合學習複雜推理的過程,對於大模型來說就是把高概率的邏輯片段建立起遷移聯繫,一環套一環玩接力遊戲就行,而人腦其實是不擅長學習長鏈條的推導知識的。
可行的MCST做法
rStar-Math技術方案

rStar-Math架構及效果
rStar-Math已算是眾多複刻類o1模型里把MCST路線走通的典範,而且僅使用了相當有限的機器資源達成的(4×40GB A100 GPUs),所以樹搜索技術方案也不存在說因為太消耗資源一般人做不了的問題。上圖展示了其架構、做法及效果,可以看出即使是1.5B和7B的模型,效果提升都非常大,如果換成更大規模的模型,各種評測指標肯定還能大幅提升,無疑rStar-Math已經驗證了MCST路線是可行的。
具體方案這裏不展開了,建議仔細閱讀下論文。之前確實很多嘗試MCST的方案不算成功,這說明不是技術路線的問題,而是魔鬼在細節,某個細節沒做對就很容易導致整體技術全面失敗。我覺得rStar-Math相比之前很多MCST方案做得好的主要有兩點:第一個是訓練分成了4個階段,採取類似課程學習的思想,越往後迭代增加更多比例的難題,目前看這一點也是複刻類o1模型成功的重要技巧之一;
第二是綜合出一個更好的PRM策略。MCST很難做成功的最大阻礙是PRM不太好做,大家一般會模仿AlphaGo,到了某個推理中間步驟S,然後從S出發rollout出多條之後的推理軌跡,直到產生最終答案,然後看下從S出發的多個後續軌跡中,有多少導向了正確的最終答案,導向越多正確最終答案的則Reward越高。這種做法從思想上來看是非常合理的,但是問題在於:其實從S出發導向最終正確答案的rollout軌跡里,很多都包含中間推理過程的錯誤,導致如此評估出的Reward不準確(這個結論請參考前面提到的阿里改進PRM的工作)。
Reward是指導MCST搜索方向的重要信號,Reward不準自然導致搜出來的推理空間軌跡質量就不夠高。rStar-Math在這裏綜合了三個策略:一個是把推理軌跡改成代碼的形式,這樣可以通過程序驗證篩掉不可靠的路徑,等於用代碼驗證的方式對搜索空間進行了剪枝,幹掉了大量肯定錯誤的中間節點;另外一個提出了Process Preference Model (PPM),這個類似DPO的思路,引入正負例一起評估,評估的對像其實是從問題根結點出發,到S步驟之前所有推理步驟的質量;再一個是傳統的從S出發多次Rollout,這個評價的是從S步驟往後走導向正確答案的概率。三者結合就能篩選出高質量的推理軌跡路徑了,克服了只靠Rollout評估不準的問題。
PRM應該是限制MCST方法的關鍵,但是目前看這個問題基本得到瞭解決,核心思想是不能只靠經典的rollout來評估結果作為PRM,要結合其它因素一起。比如阿里改進PRM的策略除了Rollout,還引入其它大模型作為判斷者(LLM as a dudge),兩者評判一致才算數,且極大增強了PRM判斷的準確性。如果後續做MCST方案,建議可以直接用阿里發佈的新型PRM或者參考rStar-math的思路,相信效果提升會比較明顯。MCST方案的核心是提高PRM的準確性,隨著改進方案的逐步提出,MCST方案的效果也會越來越好。
Deepseek R1和Kimi K1.5採用的方法是MCST方法的特例
在複刻類o1模型的賽道里,怎樣的算法是好的算法呢?我覺得評判標準是:找到高質量推理軌跡COT數據的效率,效率越高的算法越好。比如說前面提到一般我們需要對模型SFT+RL跑多個階段,爭取做到後一階段產生的推理軌跡COT數據質量比前一階段的更好些。假設有兩個方法A和B,若方法A迭代兩輪獲得的推理軌跡COT數據質量相當於方法B迭代4輪獲得的數據質量,我們就可以說方法A是個效率更高的方法,也是更好的方法。
MCST從機制上講應該是效率非常高的算法,它等價於在巨大的可能推理軌跡COT組合空間里,通過PRM的指導和搜索策略盡快找到質量最高的路徑,所以原則上第一輪迭代就能找到高質量的推理軌跡COT數據,肯定比隨機產生的推理軌跡效率要高。而Deepseek R1和Kimi K1.5的做法則是給定某個問題,使用大模型產生一個答案正確的推理軌跡COT,直接使用這個COT,這等價於在樹搜索空間里隨機采樣了一條最終答案正確的推理軌跡路徑,如果PRM可靠,推理軌跡COT的質量肯定不如MCST方法選出的數據質量高,所以很明顯MCST是種效率更高的方法。我覺得,可以這麼看這個問題:Kimi K1.5方法可看作Deepseek R1的特例,而Deepseek R1的做法本質上是MCST做法的特例(隨機選擇路徑VS. 搜索高質量路徑)。阻礙MCST的主要是不準的PRM,但如上所述,這個問題基本得到瞭解決,而且我相信未來會有更好的PRM技術方案出來進一步大幅提升MCST的效果。

既然是特例,若R1和K1.5方法有效,那麼一定能推導出更通用的樹搜索版本。我在這裏推導一下,為後文指稱方便,給推導出的模型隨便起個名字比如叫「MCST++」。
如上圖所示,MCST++本質上是對rStar-math這種有效MCST方法的改進,改進思路是引入R1裡面的RL階段,或者把它看成rStar-math和R1的結合版本也可以。
比如我們可以類似rStar-Math的做法,把訓練過程分為符合課程學習原則,邏輯題目由易到難的4個階段。rStar-Math每輪是通過策略網絡(Policy Model)在樹搜索過程中,針對某個中間節點S,擴展出m個子推理步驟內容擴展樹結構,再結合PRM找到更好的路徑,兩者結合來搜索高質量的推理軌跡。在形成樹結構後,找到一批高質量軌跡數據,用來調整Base模型,來作為下一輪MCST搜索的新的策略網絡,此時策略網絡經過訓練,提出的子推理步驟質量會更高。PRM也會跟著更新,尋找好的節點也越來越準。這樣形成通過自我迭代越來越好的效果。
rStar-math每一輪只通過從MCST樹中找到更高質量的推理軌跡COT數據來SFT base模型,以改進策略網絡的效果,並沒有類似R1的RL過程。很明顯,此時,我們可以把R1的RL過程引入策略網絡,在策略網絡進行SFT後,疊加類似R1 的RL階段,通過強化學習進一步提升策略網絡的能力。在下一輪啟動時,用經過SFT+RL兩個子階段強化過的模型作為新的策略網絡,形成了策略網絡的自我進化(PRM也可以跟著進化,策略類似rStar-Math,此處不展開談了)。
這是從rStar-math角度看的,如果從R1角度來看,參考上面提到的「由R1和K1.5可推導出的更通用的方法」部分,其實改動的部分是把SFT階段使用的推理軌跡COT數據來源,從由大模型隨機生成推理軌跡COT,換成了MSCT樹搜索的方式來獲得SFT階段的訓練數據,RL部分是一樣的。所以,本質上MCST++是融合了R1方法和rStar-Math的基於樹搜索的模式,如果R1的RL階段是有效的,而且如果「MCST樹搜索相比隨機采樣能獲得更高質量的數據」成立,那麼必然就是一種有效的基於MSCT的樹方法。所以這是為何前文說如果R1方法有效,一定可以推導出有效的MCST方法的原因。而且很明顯,這種多階段的方案是一種流程上更通用的方法。
All You Need is High Quality Logic Trajectory Data
目前看,對於打造更好的o1模型來說,最重要的是如何獲得更多高質量的推理軌跡COT數據。這包括如何獲得更多的<問題,答案>數據,尤其是有難度的問題。拿到<問題,答案>數據後,如何獲得質量越來越高的中間推理軌跡COT數據,這裏的質量很可能是根據錯誤中間步驟佔比來衡量的,由此得到高質量的<問題,推理軌跡COT,答案>數據。這裏的推理軌跡COT,可以是人工產生的,可以是大模型自己生成的,也可以是從其它模型蒸餾來得。獲得方法貌似也不重要,重要的是質量是否越來越好,在此前提下,再考慮成本是否足夠低。
從做推理軌跡COT數據的若干種方法來說,貌似大家對蒸餾都有發自種內心的迴避感,都怕自己被人說用的是蒸餾數據,貌似自己用蒸餾來的數據就會被人瞧不起。我覺得這裏有誤區,數據質量好最重要,怎麼得來的其實關係不大。那你說R1是蒸餾嗎?其實本質上也是蒸餾(階段一給階段二蒸餾數據),無非是用自己的模型來蒸餾而已。蒸餾的本質含義是由模型來做數據而不是靠人,體現了數據製作自動化的思想,差別無非用的這個模型來自於自己的、還是開源或者閉源模型而已,這是符合製作高等AI所有環節儘量自動化的發展趨勢的。
低成本快速增強大模型邏輯推理能力的方法
首先,找到大量<問題,答案>數據,包括STEM、代碼、數學、邏輯等方面題目集合;
第二,對問題進行改寫,從問題側來擴充<問題,答案>數據的數量;
第三,引入開源的類o1模型,比如Deepseek發佈的各種R1開源模型,
第四,使用R1模型製作推理軌跡數據,並標註出問題的難易程度:可以通過對問題使用R1模型多次Rollout生成推理步驟軌跡,比如一個問題生成8個推理軌跡,根據最終正確答案是否正確進行過濾,過濾掉最終答案錯誤的例子;形成<問題,推理軌跡COT,答案>數據集合。
第五,(此步驟可選非必需,但可能比較重要)找到一個好的PRM模型,比如阿里開源的PRM模型,對某個推理軌跡COT整體質量進行評估,比如回答某個問題的推理軌跡由10個推理步驟構成,根據每個推理步驟PRM得分的平均分,得出整個推理軌跡的得分,得分低者意味著軌跡中包含錯誤推理步驟比較多,說明整體質量低,把整體質量低的<問題,推理軌跡COT,答案>數據過濾掉,只用剩下的高質量推理軌跡數據。這一步等於提升推理步驟整體正確率,等價於提升訓練數據質量。
第六,使用剩下的高質量正例對基座模型進行SFT,數據使用順序採取課程學習思路,由簡單題目到難題,或者逐步增加難題比例,由此得到最強邏輯推理模型
第七,如果你想讓自己的技術方案看著更有技術含量一些,可以引入部分負例(最終答案錯誤的推理軌跡COT數據),結合正例做個DPO,我感覺是這步驟可選非必需。
這本質上是種數據蒸餾方法,好處是成本極低、實現起來速度快,能很快製作當前最強邏輯推理模型,如果都這麼做,那誰更強取決於三個因素:誰有更多的題目,尤其是難題;類o1模型給出的推理軌跡質量,質量高者勝出;PRM模型的準確性,更準確者勝。
但是這個方法的缺點是缺乏自我進化機制,上面三個因素基本共同決定了能達到的效果天花板,缺乏通過模型不斷迭代增強能力的機制。要想引入自我提升的模式,可參考上文提到的R1、K1.5或者MCST++的思路。