將集體學習引入樹搜索,新方法CoMCTS實現o1-like的推理與反思

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

「What I cannot create, I do not understand.」—Richard Feynman

儘管多模態大語言模型(MLLM)在簡單任務上最近取得了顯著進展,但在複雜推理任務中表現仍然不佳。費曼的格言可能是這種現象的完美隱喻:只有掌握推理過程的每一步,才能真正解決問題。然而,當前的 MLLM 更擅長直接生成簡短的最終答案,缺乏中間推理能力。本篇文章旨在開發一種通過學習創造推理過程中每個中間步驟直至最終答案的 MLLM,以實現問題的深入理解與解決。

最近,NLP 領域的突破,如 OpenAI o1,展示了 LLM 的推理能力並應對複雜語言任務的巨大潛力。這些進展的核心設計靈感源於類似 AlphaGo 的 「樹搜索」 方法:通過使用 MCTS 等樹搜索方法,自引導地構建中間思維樹,探索有效的推理路徑,並利用這些路徑對模型進行訓練,從而實現逐步推理能力的提升。

圖 1. (a)CoMCTS 搜索有效性和效率比較。(b)基於 CoMCTS 數據訓練的 Mulberry 模型展現了卓越的推理性能。

一個直觀的想法是直接將樹搜索方法應用於 MLLM 的有效推理路徑搜索,但這種方法效果並不好,如圖 1 所示。主要原因在於:

(1)搜索有效性:傳統的 MCTS 方法依賴自我引導,而當前的 MLLMs 訓練時沒有明確且定義良好的中間推理步驟,導致搜索陷入單一 MLLM 推理空間的低質量同質節點,降低搜索成功率。

(2)搜索效率:傳統 MCTS 方法每次搜索迭代通常僅擴展和探索一個後續推理節點,每次前進一步,需要大量迭代,使用 MLLM 進行推理進一步增加了計算複雜度。

為解決上述挑戰,本文提出了集體蒙特卡羅樹搜索(Collective Monte Carlo Tree Search, CoMCTS),這是一種新的學習推理方法,通過將集體學習引入 「樹搜索」,實現有效且高效的推理路徑搜索與學習

  • 論文:《Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search》

  • 論文鏈接:https://arxiv.org/abs/2412.18319

  • 代碼鏈接:https://github.com/HJYao00/Mulberry

CoMCTS 搜索的優勢在於:

(1)聯合擴展多個 MLLM 的推理路徑,支持跨模型協同推理,避免單一模型陷入同質化低質量節點。

(2)聯合模擬與錯誤定位機制跳過反復中間步驟生成、集體知識幫助更準確地識別錯誤,提升搜索效率與效果。

此外,CoMCTS 也通過結合正負推理節點構建反思推理數據,使得 MLLM 可在長鏈路推理中進行逐步反思。最終,通過 CoMCTS,本文構建了通過逐步推理數據集 Mulberry-260K,訓練了一系列 Mulberry 模型,在 8 個 benchmark 上取得了明顯的提升。

研究方法

圖 2. CoMCTS 總覽圖

圖 2. CoMCTS 總覽圖

CoMCTS 的推理路徑搜索

CoMCTSw 將集體學習的概念引入到樹搜索中,核心思想是通過多個模型的集體知識協作搜索有效的推理節點,並通過多次迭代最終找到正確的推理路徑。

定義:將一個策略 MLLM 模型定義為 π,CoMCTS 利用一組多模態大語言模型 

,模型 在第 m 步生成狀態為 

,每步由一個或多個句子組成。

,直到最終答案。第 m 步的中間推理狀態定義為 

共同搜索並學習有效的推理路徑。對於輸入 Q = {文本,圖像},每次迭代中,每個模型 π 生成一系列中間推理狀態

CoMCTS 算法從根節點開始,通過一定次數的迭代進行推理路徑搜索,每次迭代包括四個關鍵操作:(a)擴展 Expansion,(b)模擬與錯誤定位 Simulation and Error Position,(c)反向傳播 Backpropagation,以及(d)選擇 Selection,具體說明如下:

(a)擴展。擴展當前葉子推理節點,整合新的候選推理節點。給定當前葉子節點 

(由操作(d)選擇或根節點),CoMCTS 利用一組 MLLM 的集體知識,協同擴展一組多樣且互補的候選推理路徑 

,直到終止節點:

其中 

返回

的所有父節點,而

開始生成的候選推理路徑。

表示由模型 

 表示從根節點到

的當前推理路徑。

(b)模擬與錯誤定位。CoMCTS 利用多個模型的集體知識,共同模擬候選子節點 

(在操作(a)中添加的節點)的候選值,將低分節點視為錯誤推理節點,過濾掉第一個小於閾值 t 的節點及其之後的所有節點:

(c)反向傳播。CoMCTS 從葉子節點向根節點進行自底向上的更新。推理樹中新擴展路徑上的每個節點 s 都會更新其統計信息,包括訪問次數 N 和節點值 V:

其中,Child (s) 表示節點 s 的所有子節點,CountChild 表示用於計算節點 s 在候選集中的子節點數量的計數函數。

(d)選擇節點。CoMCTS 根據上置信界限(UCB)值遍曆更新後的推理樹,選擇 UCB 值最高的候選節點

作為下一個搜索迭代的起始節點。

針對每個問題,重覆迭代上述四個操作,直至達到預定次數或找到正確的推理路徑。CoMCTS 為每個問題構建明確的集體推理樹,幫助 MLLM 學習逐步推理能力。

CoMCTS 中的反思學習

CoMCTS 構建的推理樹包含了正向和負向的推理節點,通過將負向的兄弟節點整合進有效的推理路徑中,以構建包含從負向推理節點過度的反思性推理路徑。具體來說,通過識別 UCB 差值最大的兄弟節點來構建反思路徑,如圖 2 和圖 3 所示。

圖 3. CoMCTS 搜索推理樹示例。圖 3. CoMCTS 搜索推理樹示例。

使用集體蒙特卡羅樹搜索進行訓練

通過 CoMCTS 構建有效推理和反思性推理數據集,並使用集體 SFT 對模型進行訓練,使模型具備逐步推理與反思能力。

實驗數據

推理數據組成:為了構建一個通用的推理數據集,本文從多個領域蒐集了原始多模態輸入問題。將這些原始數據用 CoMCTS 方法搜索推理和反思路徑,最終得到 Mulberry-260K SFT 數據集。

推理數據分佈:CoMCTS 生成的推理步驟大多集中在 6 到 8 步之間,簡單任務在 6 到 7 步,複雜任務在 7 到 10 步。結果表明,CoMCTS 能生成靈活的推理路徑,幫助 MLLM 根據任務複雜性調整推理深度。

圖 4. 推理數據的步驟長度分佈

圖 4. 推理數據的步驟長度分佈

實驗結果

性能比較

(1)與基準模型比較。實驗表明,Mulberry-260K 訓練的 Mulberry-7B 和 Mulberry-11B 相比 Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 分別提高了 + 4.2% 和 + 7.5%,驗證了 CoMCTS 的有效性。此外,Mulberry-260K 訓練的模型也使 Qwen2-VL-2B 和 LLaVA-NeXT-8B 分別提升了 + 5.4% 和 + 11.0%,證明了其泛化能力。

(2)與推理模型比較。使用 LLaVA-NeXT-8B 基準模型時,Mulberry 在 MathVista 上分別比 LLaVA-Reasoner 和 Insight-V 提高了 + 5.7% 和 + 6.5%,在 MMMU 上提高了 + 3.0% 和 + 1.0%。在相同基準 LLaMA-3.2-11B-Vision-Instruct 下,Mulberry 在 MathVista 上比 LLaVA-COT 提高了 + 6.3%。其優勢來自 CoMCTS 的樹搜索和靈活的推理步驟設計。

(3)與 SOTA 模型比較。Mulberry 在基準測試中優於大多數開源 MLLM,並在與閉源模型的比較中展現出競爭力,得益於 CoMCTS 搜索數據的訓練。

表 1. 主要實驗結果比較表 1. 主要實驗結果比較

消融實驗

(1)CoMCTS 的消融研究。表 2 為使用 GPT-4o 作為基線進行的關於 CoMCTS 消融實驗。僅使用 GPT-4o 的 CoMCTS 將成功率提升至 63.8%,驗證了 CoMCTS 設計的有效性。逐步引入更多模型進一步提升成功率,即使較小的 Qwen2-VL-7B 也提高了性能(+2.4%),展現了 CoMCTS 在集體知識上的優勢。使用四個模型時,搜索成功率達到了 80.2%。

表 2. CoMCTS 的消融實驗

表 2. CoMCTS 的消融實驗

(2)有效和反思推理的消融實驗。表 3 顯示,加入反思性數據後,MathVista 上的性能提高了 0.8%,驗證了 CoMCTS 搜索的推理數據與反思性數據的互補性。

表 3. CoMCTS 推理數據和反思數據的消融實驗

表 3. CoMCTS 推理數據和反思數據的消融實驗

討論

(1)與其它樹搜索方法的比較。將 CoMCTS 與其他樹搜索方法比較,表 4 顯示,現有方法對搜索性能提升有限,主要因傳統 MCTS 易陷入單一 MLLM 的低質量節點。CoMCTS 在搜索效果和效率上具有顯著優勢,得益於集體擴展機制,使推理路徑搜索不僅限於單一 MLLM 推理空間,還能跨多個 MLLM 推理空間,避免了陷入單一推理空間的困境。

表 4. CoMCTS 其它樹搜索方法的比較。

(2)定型分析。下圖定性分析比較顯示,LLaVA-NeXT-8B 和 Qwen2-VL-7B 生成的預測相對較短,缺乏深入的思考,導致錯誤的答案。相反,Mulberry,生成了豐富、明確且結構良好的推理步驟,最終得出了正確的答案。

圖 5. 可視化

圖 5. 可視化