老婆餅里沒有老婆，RLHF里也沒有真正的RL

機器之心報導

編輯：張倩

老婆餅里沒有老婆，夫妻肺片里沒有夫妻，RLHF 里也沒有真正的 RL。在最近的一篇博客中，德克薩斯大學奧史甸分校助理教授 Atlas Wang 分享了這樣一個觀點。

博客鏈接：https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/

他指出，RLHF（基於人類反饋的強化學習）和其他類似的方法並沒有為大型語言模型（LLM）帶來真正的強化學習（RL），因為它們缺乏 RL 的核心特徵：持續的環境交互和長期目標的追求。

RLHF 主要通過單步或幾步優化來調整模型輸出，使其符合人類偏好，而不是在一個動態環境中進行多步驟的策略調整。此外，RLHF 通常是離線或半離線進行的，缺乏實時的環境反饋和策略更新。因此，儘管 RLHF 可以改善模型的對齊性和輸出質量，但它並不能賦予 LLM 真正的目標或意圖，讓它們「想要」贏得遊戲。LLM 仍然主要是一個基於上下文預測下一個 token 的統計系統。

整篇文章討論了幾個有趣的問題：

1. RLHF （及相關方法）與經典 RL 有何不同？

2. 為什麼這些方法實際上無法給出 LLM 真實目標或意圖？

3. 為什麼沒有人大規模地為 LLM 做「真正的 RL」？

4. 現有的最接近給 LLM 一個「目標」的方法是什麼？

5. 沒有「目標驅動」的 LLM 的後果是什麼？

通過瞭解這些細微差別，我們可以清楚地知道 LLM 能做什麼、不能做什麼，以及為什麼。

Google DeepMind 首席科學家 Denny Zhou 轉發該文章時評價說，「對於任何有 RL 知識背景的人來說，（文章中的觀點）是顯而易見的。但對於新人來說，這是一份很好的介紹。」

區分 RLHF 和經典強化學習

什麼是經典強化學習？在經典強化學習設置中，你有：

在環境中採取行動的智能體。
環境會根據智能體的行動改變狀態。
智能體的行動會受到獎勵或懲罰，目的是在多個步驟中實現長期累積獎勵的最大化。

主要特徵：持續或偶發交互。智能體探索多種狀態、做出決策、觀察獎勵，並在一個連續的循環中調整其策略。

RLHF 是一種使用根據人類偏好數據訓練的獎勵模型來完善模型輸出的工作流。常見流程包括：

監督微調（SFT）：首先在高質量數據上訓練或微調基礎語言模型。
獎勵模型訓練：收集成對的輸出結果，詢問人類更喜歡哪一個，然後訓練一個「獎勵模型」，以接近人類的判斷。
策略優化：使用類似強化學習的算法（通常為 PPO，即「近端策略優化」）來調整 LLM 的參數，使其產生獎勵模型所喜歡的輸出結果。

與傳統 RL 不同的是，RLHF 中的「環境」基本上是一個單步文本生成過程和一個靜態獎勵模型 —— 這其中沒有擴展循環或持續變化的狀態。

為什麼 RLHF（及相關方法）不是真正的 RL？

單步或幾步優化。在 RLHF 中，LLM 會基於給定的提示生成文本，然後獎勵模型會提供一個單一的偏好分數。RLHF 中的「強化」步驟更類似於一步式策略梯度優化，以實現人類偏好的輸出，而不是在不斷變化的環境中對狀態和行動進行基於智能體的全面循環。這更像是一種「一勞永逸」的評分，而不是讓一個智能體隨時間推移探索多步行動，並接收環境反饋。
大多離線或半離線。獎勵模型通常在人類標籤數據上進行離線訓練，然後用於更新 LLM 的策略。LLM 在線調整策略時，並沒有實時探索連續的環境循環。
缺乏基於環境的長期（Long-Horizon）目標。經典的 RL 智能體會追蹤多個狀態下的長期回報。相比之下，基於 RLHF 的 LLM 訓練側重於根據人類偏好調整即時文本輸出。LLM 並沒有在一個動態環境中導航多個時間步驟。
表面約束與真正的內部目標。RLHF 可以有效地影響某些輸出的概率 —— 引導模型遠離不受歡迎的文本。但模型內部並沒有形成產生這些輸出的「願望」或「慾望」；它仍然是一個生成下一個 token 的統計系統。

請記住，不管是 RLHF、SFT 還是其他什麼，LLM 都不是為了真正的目標或意圖而訓練的！LLM 的核心是根據給定上下文預測下一個 token。它們的「動機」純粹是最大限度地提高下一個 token 的正確率（由訓練數據和任何後續微調信號確定）。這個過程並不存在主觀上的願望或意圖。我們常說 AlphaZero「想要」在國際象棋中獲勝，但這隻是一種方便的簡單說法。從內部來說，AlphaZero 是在最大化數學獎勵函數 —— 沒有任何感覺上的慾望。同樣，經過 RLHF 調整的 LLM 也在最大化對齊獎勵信號，而沒有內心的渴望狀態。

RLHF vs. IRL 如何？

亞利桑那州立大學計算機科學教授 Subbarao Kambhampati 指出，「RLHF」有點名不副實，因為它將從人類判斷中學習偏好或獎勵模型（在概念上更接近於逆強化學習，即 IRL）與一步或幾步策略優化相結合，而不是經典 RL 中典型的長期迭代交互。

IRL：在經典表述中，智能體通過觀察專家在動態環境中的演示來推斷獎勵函數。相比之下，RLHF 通常收集靜態的成對比較（例如，「你更喜歡這兩個模型輸出中的哪一個？」），並訓練一個獎勵模型來模仿人類的偏好。在不斷演化的環境中，沒有擴展的多步驟專家軌跡。
RL 中的偏好學習：在當前的深度強化學習中，有一些方法可以從軌跡 rollout 的成對比較中學習獎勵函數（例如，「你更喜歡機器人溜馬的哪種步態？」）。然而，這些方法往往存在樣本複雜度高的問題（例如，需要多次詢問人類），因此許多研究論文都採用了在受控任務中模擬人類反應的方法。
為什麼 RLHF 也不是「經典 IRL」：即使 RLHF 在從人類數據中學習偏好模型方面讓人聯想到 IRL，它也不是分析專家行為隨時間變化的經典方案。相反，RLHF 側重於人類對最終或短序列輸出的靜態判斷。因此，RLHF 仍然主要是離線或接近離線的，這進一步限制了它與傳統 IRL 設置的相似性 —— 儘管 Subbarao Kambhampati 也評論說，從成對偏好中學習獎勵函數（已成為（I）RL 文獻的主流）！

CoT、PRM 或多智能體工作流有助於解決這個問題嗎？

基於流程的獎勵模型和思維鏈

基於流程的獎勵模型可能會對中間推理步驟（思維鏈或 CoT）提供反饋，而不是僅根據最終輸出（如問題的最終答案）提供獎勵。這樣做的目的是鼓勵模型以更易於解釋、正確率更高或更符合特定標準的方式解釋或展示其推理過程。

這就是「真正的 RL」嗎？並非如此。

即使你為中間步驟分配了部分獎勵（比如 CoT 解釋），你仍然處於這樣一種環境中：你通常會將整個輸出（包括推理）輸入獎勵模型，獲得獎勵，然後進行一步策略優化。而不是在一個動態環境中，由 LLM「嘗試」部分推理步驟、獲得反饋、進行調整，並在同一 episode 中繼續進行開放式循環。

因此，雖然 CoT / PRM 會給人一種多步驟 RL 的錯覺，因為你會對中間步驟進行獎勵或懲罰，但實際上，它仍然相當於對單一步驟（文本生成和推理）進行離線或近似離線的策略調整，而不是經典 RL 的持續智能體 – 環境循環。

多智能體工作流也不會神奇地創建意圖

你可以在工作流中協調多個 LLM（例如，「系統 A 生成計劃，系統 B 批改計劃，系統 C 完善計劃」），但從內部來看，每個 LLM 仍然是根據下一個 token 的概率生成文本。儘管這樣的多智能體設置可以表現出看起來協調或有目的的湧現行為，但它並沒有賦予任何單個模型內在或秉持的目標。

為什麼我們的多智能體 LLM 工作流常常看起來有意圖？人類會自然而然地將心理狀態投射到行為看似有目的的系統上，這就是所謂的「意圖立場」。但是，每個 LLM 智能體只是對提示做出響應。每個智能體背後的思維鏈並不等同於個人慾望或驅動力；它只是一個多步驟反饋回路中更複雜的 prompt-completion。

因此，多智能體協調可以產生非常有趣的新興任務解決能力，但 LLM 本身仍然不會產生「我想要這個結果」的動機。

為什麼至今還沒有人用「真正的 RL」訓練 LLM？

因為太貴了！大規模模型的經典 RL 需要一個穩定、交互式的環境，外加大量計算來運行重覆的 episode。每個訓練週期的前向傳遞次數對於今天的十億參數 LLM 來說過於昂貴。
缺乏環境定義。文本生成並非天然的「狀態 – 動作轉換」環境。我們可以嘗試將其包裝成類似遊戲的模擬環境，但這樣就必須為多步驟文本交互定義獎勵結構，而這並非易事。
性能已經足夠好了。在許多使用案例中，RLHF 或 DPO（直接偏好優化）已經能產生足夠好的對齊效果。實事求是地說，團隊會堅持使用更簡單的離線方法，而不是建立一個複雜的 RL 管道，以巨大的成本換取微不足道的收益。

最接近給 LLM 一個「目標」的現有方法是什麼？

在我看來，與「給 LLM 一個目標」最接近的方法是使用提示工程或將多個 LLM 提示串聯成一個循環來構建一個元系統或「智能體」。像 Auto-GPT 或 BabyAGI 這樣的工具試圖模擬一個智能體，它能：

接收自然語言目標（如「研究 X，然後製定計劃」）。
反復計劃、推理和提示自己。
評估進展並完善計劃。

然而，所有這些「目標保持」都是在系統層面，在提示或鏈接邏輯中協調進行的，而不是從 LLM 的內部動機狀態出發。LLM 本身仍然是被動地對提示做出反應，缺乏內在的慾望。

多智能體是另一種「窮人的解決方案」。正如在上文所討論的，你可以協調多個 LLM 對彼此的輸出結果進行評論或驗證，從而有效地劃分子任務並組合出部分解決方案。這看起來是有目標的，但同樣，「目標」是由工作流和提示從外部協調的；LLM 不會自發生成或堅持自己的目標。

LLM 沒有「真正目標」的後果

簡化的對齊（在某些方面）。由於 LLM 沒有真正追逐個體目標，它們不太可能「繞過」限制或自主計劃非法行為。對齊通常相當於設置正確的提示約束和微調，將其推向可接受的產出。Anthropic 最近的博客與這一觀點有關
更難委派開放式任務。如果我們希望 AI 能夠自發地發現新問題，積極收集資源，並堅持數月來解決這些問題，我們就需要一個具有持續內驅力的系統 —— 類似於真正的 RL 智能體或高級規劃系統。目前的 LLM 無法以這種方式實現真正的自我啟動。
潛在的創新缺失。在豐富的 RL 環境中進行自由探索，可能會產生驚人的發現（如 AlphaZero 在國際象棋或圍棋中的突破）。如果依賴於只有表面反饋的單步文本生成，我們可能會錯過多步獎勵優化所帶來的全新策略。

不過，這也有積極的一面。例如，我認為沒有持續目標的 LLM 在某些方面更加透明。它本質上是一個由即時反饋信號引導的強大的下一個 token 預測器 —— 沒有多步驟 RL 循環中出現的複雜的隱藏目標。

明確時間跨度、目標、獎勵和行動空間

單步或幾步方法（如 RLHF 或 DPO）與「真正的」RL 的關鍵區別在於時間跨度：

短期優化：RLHF 和 DPO 有效地針對即時（一步）反饋進行優化。即使反饋函數是通過（從人類標記的數據中）學習獲得的，也不存在長期規劃的持續狀態 – 行動循環。
長期優化：在經典 RL 中，智能體會對多個步驟的累積獎勵進行優化，形成類似於「目標」的東西。獎勵模型與行動空間相結合，可驅動在動態環境中塑造多步驟行為的策略。

此外，RL 通常假定有一個定義明確的行動空間（例如，將遊戲棋子向上 / 向下 / 向左 / 向右移動）。而在 LLM 微調中，「動作」的概念是模糊的，通常會被直接參數更新或生成 token 所取代。增強提示，甚至只是從固定詞彙中生成 token，都可以被視為「動作」，而「環境」則是 LLM 的內部狀態。然而，這是對 RL 循環的非標準或某種不尋常的重新解釋。

另一個專家澄清的問題是 RL 中獎勵和目標之間的區別。原則上，RL「獎勵」是指導智能體學習過程的信號，而不總是明確的最終目標。如果獎勵稀少（僅在成功 episode 結束時提供），智能體的實際「目標」可能看起來是「達到成功條件」。然而，在實踐中，好的 RL 設計通常會使用密集的獎勵信號來引導中間狀態，從而幫助智能體更有效地學習。

對於 LLM 而言，「目標」的概念意味著對某些目標的持續、多步驟的追求。由於 RLHF 通常是在單步或幾步過程中進行的，因此該模型從未真正形成長期目標的內部表徵。它只是根據獎勵模型或偏好函數來優化即時文本輸出。

後記

RLHF、DPO、憲法 AI（Constitutional AI）和其他受 RL 啟發的微調方法對於使 LLM 更加一致和有用大有裨益。它們讓我們能夠利用人類的偏好來塑造輸出，減少有毒內容，並引導 LLM 響應的風格。

然而，這些技術並不能為 LLM 提供真正的長期目標、內部動機或經典 RL 意義上的「意圖」。LLM 仍然是一個複雜的下一個 token 預測器，而不是一個自主智能體。

如果未來我們希望 LLM 擁有真正的 RL 怎麼辦？如果有一天，研究人員將 LLM 集成到實際的多步驟 RL 框架中（想想看：一個智能體在模擬或現實世界中導航，不斷閱讀和生成文本，接收反饋，並實時調整策略），那麼我們就可能接近真正的智能體行為。這需要大量的資源、精心的環境設計和強大的安全措施。在此之前，我們所擁有的系統 —— 儘管功能強大 —— 從根本上說仍然是被動的、由離線或半離線反饋信號形成的下一個 token 預測器。

為什麼這一切都很重要？

從業者應該意識到這些局限性，不要高估 LLM 的自主性。
政策製定者和倫理學家應該認識到，LLM 不可能自發地策劃或撒謊來達到隱藏的目的，除非被提示指引去模仿這種行為。
反過來說，如果未來的系統真的結合了具有大規模計算和動態環境的「真正 RL」，我們可能會看到更多類似智能體的突發行為 —— 這就會引發新的調整和安全問題。

未來方向？

更高的樣本複雜度：一個經常出現的限制因素是，基於偏好的學習可能需要大量的人類 token 比較，尤其是當任務變得越來越複雜時。研究人員通常採用模擬人的判斷來進行 RL 實驗，但這也帶來了新的問題，即這些模擬器如何忠實地模擬真實的人類偏好。
擴展到長期任務：許多專家懷疑，短期輸出的成對比較能否直接擴展到更複雜的多步驟任務。使用 LLM 進行真正的多步驟 RL 需要一個環境，在這個環境中，模型可以進行探索、獲得中間獎勵並進行迭代 —— 而這在目前是非常昂貴的，也無法大規模廣泛實施。
銜接符號與次符號方法：對於真正的長期偏好（如需要概念或符號理解的任務），純粹的「原始」配對偏好數據可能並不足夠。可能需要某種形式的結構化、符號化反饋（或「通用語言」），才能有效地將人類的細微目標傳達給人工智能系統。

最後，雖然 RLHF、DPO 和相關方法提供了一種實用的方法，可以在短期環境中使 LLM 與人類偏好保持一致，但它們無法賦予 LLM 真正、持久的目標或意圖。這些方法也只是與經典的 RL 或 IRL 範式略有對應。未來的系統若能在真正的多步驟 RL 循環中使用 LLM，就能解鎖更多自主的、類似智能體的行為，但同時也會引發新的安全和一致性問題。

原文鏈接：https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/

你可能喜歡