科學家提出階段式強化學習策略,讓小模型在多項數學推理測試達SOTA
在人工智能領域,大語言模型的推理能力已取得長足進步。然而,當這一能力擴展到需要同時處理文本和圖像的多模態場景時,研究者們遇到了棘手挑戰——尤其是對於參數規模較小的多模態小語言模型,問題更為突出。
香港理工大學楊紅霞教授團隊提出了一個名為 Infi-MMR 訓練框架,通過創新的三階段訓練策略,成功激活了小語言模型的多模態推理潛能,並在多項數學推理基準測試中達到最強性能(SOTA,State of the Art)水平,甚至超越部分參數量更大的模型。

日前,相關論文以《Infi-MMR:基於課程學習的多模態小語言模型分階段強化學習解鎖多模態推理能力》(Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models)為題發表在預印本網站 arXiv[1]。香港理工大學科研助理柳澤宇和浙江大學碩士生劉宇航是共同第一作者,香港理工大學楊紅霞教授擔任通訊作者。

該團隊致力於將 DeepSeek-R1 在文本領域的基於規則強化學習的成果擴展到多模態領域,同時也致力於解決多模態強化學習中存在的問題。
小語言模型本身參數量少,面臨著以下三個難題:
第一,模態推理數據的質量有待提高。基於規則的強化學習需要可驗證的答案,然而大多數多模態任務側重於標題、圖像描述和視覺問題回答。此外,現有的多模態推理數據集主要處理簡單任務(如計數),很少能同時提供複雜的推理問題和可驗證的答案。
第二,多模態大語言模型基本推理能力的退化。多模態大語言模型整合視覺和文本數據時,往往會削弱其基本推理能力,這種情況在小模型上表現得尤為明顯。此外,跨模態融合的複雜性可能會破壞結構化推理,從而導致推理任務性能的下降。
第三,複雜但不可靠的推理步驟。直接通過多模態數據進行強化學習訓練的多模態大語言模型,往往會生成複雜的推理過程,但是這種推理步驟不僅十分冗長而且通常並不準確。

Infi-MMR 框架的核心在於其獨特的「漸進式」三階段訓練方法。第一個階段為基礎推理激活(Foundational Reasoning Activation),該階段側重於使用文本數據激發多模態模型的推理能力。
據瞭解,這一階段不是直接用多模態數據,而是利用高質量的文本推理數據,通過強化學習來強化模型的基礎推理能力。這種方法為模型的穩健邏輯推理做好了準備,解決了標準多模態大模型的一個關鍵限制——通過多模態數據訓練導致的推理能力退化。
第二階段是跨模態推理適應(Cross-Modal Reasoning Adaptation)。基於第一階段建立的基礎推理能力,本階段採用多模態問答對,並添加說明文字信息,逐步將這些能力轉移到多模態領域。
第三階段是多模態推理增強(Multimodal reasoning Enhancement)。為了更加符合現實世界場景,即缺乏圖像描述的多模態問題,研究團隊在第二階段建立的基礎上,使用多模態問答對進一步訓練模型。通過消除對文本說明的依賴,這個階段迫使模型直接從原始視覺輸入中進行解釋和推理,從而減少語言偏差,促進穩健的多模態推理。

值得關注的是,該團隊創新性地引入了標題增強多模態數據(caption-augmented multimodal data),它能幫助模型把在文字領域的推理能力順利轉移到多模態領域,讓模型在不同模態之間進行更可靠的推理。
最後,他們使用 Infi-MMR 這一框架基於 Qwen2.5-VL-3B 的基礎上訓練出專注於數學推理的 Infi-MMR-3B 模型,並在多個多模態數學 benchmark 上達到了 SOTA。
其中,在涵蓋代數、幾何等多領域的 MathVerse 測試集上取得 43.68% 的準確率,不僅超越同參數規模模型,甚至優於部分 80 億參數的大模型;在考察綜合推理能力的 MathVista 測試中達到 67.2%,較基線提升 3.8%。更引人注目的是,其數學推理能力已逼近專有模型 GPT-4o(MathVerse 39.4%)。
這些成績不僅證明了 Infi-MMR 框架的有效性,也展示了模型在多模態領域推理能力的成功轉移。此外,Infi-MMR-3B 在 MathVista 測試中也取得了 67.2% 的成績,進一步驗證了其在多模態數學推理能力上的優異表現。

表丨不同多模態大語言模型在各類推理相關基準測試中的性能對比。其中,標紅結果代表最佳表現,下劃線標註的則為次優表現(來源:arXiv)
該團隊表示,儘管這一模型專注於數學推理領域,但是這一推理能力也能夠泛化到其他需要推理的領域,例如教育、醫療、自動駕駛等。一個有強推理能力的多模態模型,有望幫助人類解決多種相對複雜的問題。後續,他們將繼續在多模態大模型領域內進行探索,讓小模型也擁有強推理的能力。

1.https://arxiv.org/pdf/2505.23091
運營/排版:何晨龍