UIUC聯手Google發佈Search-R1:大模型學會「邊想邊查」,推理、搜索無縫切換

本文的作者來自伊利諾伊大學香檳分校(UIUC)、馬莎諸塞大學(UMass)和Google。本文的第一作者為 UIUC 博士生金博文,主要研究方向為與大語言模型相關的智能體、推理和強化學習研究。其餘學生作者為 UMass 博士生曾翰偲和 UIUC 博士生嶽真銳。本文的通信作者為 UIUC 教授韓家煒。

DeepSeek-R1 展示了強化學習在提升模型推理能力方面的巨大潛力,尤其是在無需人工標註推理過程的設定下,模型可以學習到如何更合理地組織回答。然而,這類模型缺乏對外部數據源的實時訪問能力,一旦訓練語料中不存在某些關鍵信息,推理過程往往會因知識缺失而失敗。

與此同時,另一個研究方向——搜索增強生成(Retrieval-Augmented Generation, RAG),試圖通過引入外部搜索引擎緩解上述問題。現有 RAG 方法主要分為兩類:

  • 基於 Prompting 的方法直接在提示詞中引導大模型調用搜索引擎。這種方式雖無需額外訓練,但存在明顯局限:大模型本身可能並不具備如何與搜索引擎交互的能力,例如何時觸發搜索、搜索什麼關鍵詞等,往往導致調用行為不穩定或冗餘。

  • 基於監督微調(SFT)的訓練方通過構建高質量的數據集,訓練模型學習合理的搜索調用策略。這類方法具有更強的適應性,但卻面臨可擴展性差的問題:一方面,構建高質量、覆蓋豐富推理路徑的搜索數據非常昂貴;另一方面,由於搜索操作本身不可微分,無法直接納入梯度下降優化流程,阻礙了端到端訓練的有效性。

為此,我們提出了一個新的訓練範式——Search-R1,它基於強化學習,通過環境交互式學習方式訓練大模型自主掌握推理與搜索交替進行的策略,實現真正意義上的「邊推理,邊搜索」的閉環智能體。

  • 論文標題:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

  • 論文地址:https://arxiv.org/abs/2503.09516

  • 代碼地址:https://github.com/PeterGriffinJin/Search-R1

  • huggingface 主頁:https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

方法

搜索增強的強化學習框架

傳統 RL 方法通常讓大模型僅在固定輸入上學習生成答案。而 Search-R1 引入了一個可交互的「搜索引擎模塊」,模型可以在生成過程中隨時發起搜索請求,獲取外部知識,從而提升推理質量。

為了避免訓練時對搜索結果本身產生不必要的「記憶」,我們對搜索引擎返回的文本進行了損失屏蔽(loss masking),確保模型僅學習如何在檢索增強背景下進行合理推理,而非簡單複製外部知識。

多輪搜索調用的生成機制

Search-R1 允許模型在回答前進行多輪推理與搜索交替進行。具體流程如下:

  • 模型首先通過  標籤進行推理;

  • 如果模型判斷當前知識不夠,會觸發 關鍵詞

  • 系統自動調用搜索引擎,將搜索結果以  的形式插入上下文;

  • 模型根據新信息繼續推理,直到輸出 答案為止。

整個過程高度模塊化且可擴展,支持多個搜索引擎與自定義檢索策略。

結構化的訓練模板

我們設計了簡單但有效的訓練模板(instruction),統一所有訓練樣本的格式:

這種訓練模板(instruction)指導大語言模型以結構化的方式與外部搜索引擎進行交互,同時保留策略空間的靈活性,使模型在強化學習過程中能夠自主探索更優的搜索—推理策略。

輕量的獎勵設計

為減少訓練成本與複雜性,我們採用了基於最終回答準確性的獎勵函數,無需構建額外的神經網絡打分模型,提升了訓練效率並降低了策略對獎勵信號偏差的敏感性。

實驗結果

主要性能表現

  • Search-R1 在所有數據集上均取得領先表現,其中 Qwen2.5-7B 模型平均相對提升 41%,3B 模型提升 20%,相較 RAG 和 CoT 等方法具有顯著優勢;

  • 引入搜索引擎的 RL 優於純推理 RL(R1),驗證了搜索在知識稀缺問題中的重要性;

  • 在零樣本和跨任務遷移場景中也具有穩健表現,如在 PopQA、Musique、Bamboogle 等模型未見過的任務中依然保持顯著優勢;

  • 更大的模型對搜索行為更敏感、效果更好,7B 模型相較 3B 展現出更大性能提升。

PPO vs. GRPO

我們對兩種 RL 優化策略進行了系統比較:GRPO 收斂更快,但在訓練後期可能存在不穩定性;PPO 表現更穩定,最終性能略高於 GRPO,成為預設推薦配置;兩者最終訓練 reward 相近,均適用於 Search-R1 的優化目標。

Base 模型 vs. Instruct 模型

實驗顯示:Instruct 模型初始表現更好,訓練收斂更快;但隨著訓練推進,Base 模型最終可達到相近甚至更優的效果;強化學習彌合了兩者在結構化推理任務中的能力差異。

搜索行為與響應結構的動態學習

訓練初期模型輸出較短,搜索行為少;隨著訓練推進,模型逐漸學會更頻繁調用搜索,響應長度增加;表明模型逐步掌握了「推理中搜索」的動態交互式策略。

總結

本文提出了 Search-R1,一種全新的強化學習框架,使大語言模型能夠在生成過程中靈活調用搜索引擎,實現推理與外部檢索的深度融合。相較於傳統的 RAG 或工具使用方案,Search-R1 無需大規模監督數據,而是通過 RL 自主學習查詢與信息利用策略。

我們在七個問答任務上驗證了其顯著的性能提升,並系統分析了不同訓練策略對搜索增強推理的影響。未來,我們期待將該框架擴展到更多工具與信息源的協同調用,探索其在多模態推理任務中的應用潛力。