強化學習讓大模型自動糾錯，數學、編程性能暴漲，DeepMind新作

機器之心報導

機器之心編輯部

無需依賴外部反饋或額外模型，純純的自我糾正。

自我糾正（Self-correction）是大語言模型 (LLM) 非常重要的能力，但人們發現這種能力在現代 LLM 中基本上很少存在。現有的訓練自我糾正的方法要麼需要多個模型，要麼依賴於更強大的模型或其他形式的監督。

我們如何才能讓 LLM 具備自我糾正能力？之前的研究要麼依賴於提示工程，要麼依賴於專門用於自我糾正的微調模型。但前者通常無法有效地進行有意義的內在自我糾正，而後者基於微調的方法需要在推理時運行多個模型，例如需要 oracle「教師」來監督指導自我糾正過程。

在最近提交的一篇論文中，來自 Google DeepMind 的研究者開發了一種無需上述任何要求即可有效進行自我糾正的方法，即通過強化學習進行自我糾正（SCoRe，Self-Correction via Reinforcement Learning)，只需訓練一個模型，該模型既可以對推理問題做出響應，也可以糾正錯誤，儘管沒有收到任何 oracle 反饋。更重要的是，SCoRe 完全通過在自生成數據上進行訓練來教模型具備這種能力，而無需任何 oracle。

論文標題：Training Language Models to Self-Correct via Reinforcement Learning
論文地址：https://arxiv.org/pdf/2409.12917

本文主要貢獻在於提出了一種多輪強化學習方法 ——SCoRe，用於教 LLM 如何糾正自己的錯誤。相對於基礎 Gemini 模型，SCoRe 在 MATH 推理問題的自我糾正方面獲得了 15.6% 的增益，在 HumanEval 編碼問題上獲得了 9.1% 的增益。

SCoRe 原理介紹

為了教 LLM 進行自我糾正，SCoRe 將標準單輪強化學習（公式 2）擴展到 Zhou 等人提出的分層框架下的多輪設置。

不過這樣做面臨諸多挑戰。首先，優化公式 1 解決了分佈偏移問題，但尚不清楚它是否也能滿足要求 [D2]。

這裏的 [D2] 如下圖所示，圖中展示了 SFT 方法失敗的兩個原因。而有效的解決方案必須滿足兩個要求：[D1] 模型應該直接在自生成軌跡上進行訓練，以緩解 SFT 的分佈不匹配（圖 4），[D2] 所採用的自生成軌跡應防止在學習過程中因進行微小編輯而崩潰。

作者開發了一種在線 RL 方法，通過仔細的初始化和獎勵塑造來解決這些挑戰。

其次用於微調的基礎模型初始化在編輯距離上呈現出高度傾斜的分佈（圖 3a），這使得它們容易受到模式崩潰的影響，這是深度強化學習中一個常見的問題。即使基礎模型可以在自我校正過程中產生編輯距離比傾斜度較小的分佈，但仍然需要強化學習訓練過程從訓練數據中學習一種可以推廣到測試提示的自我校正策略。

SCoRe 旨在解決上述關鍵挑戰，其分為兩個階段，這兩個階段都是通過適當初始化模型和控制後續 RL 使模型偏向學習自我糾正。

具體而言，這兩個階段包括：

階段 I：訓練模型初始化以防止崩潰

SCoRe 第一階段的目標是通過提高基礎模型對第二次嘗試響應的覆蓋率來獲得良好的模型初始化，以便後續自我糾正訓練不會出現 STaR/SFT 中觀察到的崩潰現象。

為了達到此目的，該研究不採用 SFT 來初始化 RL 訓練，而是開發了第一階段來產生不易崩潰的單獨初始化。

作者微調基礎模型，以便在第二次嘗試時產生高獎勵修正，同時通過使用 KL 散度將第一次嘗試的響應分佈限制為儘可能接近基礎模型的響應分佈，從而強製模型不改變其第一次嘗試的響應。雖然這看起來不是最優的 —— 但第一次嘗試的響應錯誤較少，可以糾正為更好的第二次嘗試響應。優化的目標可以表示為：

其中 𝛽_2 是一個超參數，旨在僅在第一次嘗試時強製執行嚴格的 KL 懲罰，以避免第一輪響應發生偏移（用藍色項表示）。請注意，作者仍然使用公式 2 中的預設 KL 散度懲罰，但該懲罰的權重要小得多，並且為了簡潔起見，公式 3 中省略了它。事實上，與簡單的多輪 RL 不同，階段 I 在分離兩個響應方面更有效（圖 5b）。