科技

翁荔離職OpenAI後第一個動作：萬字長文探討RLHF的漏洞

12月02日 19:42 新浪網 tech-auto-hilite

之前領導OpenAI安全團隊的北大校友翁荔（Lilian Weng），離職後第一個動作來了。

當然是發～博～客。

前腳剛發出來，後腳就被大夥兒齊刷刷碼住，評論區一堆人排隊加待讀清單。

還有不少OpenAI前同事轉發推薦。

這次的博客一如既往萬字乾貨，妥妥一篇研究綜述，翁荔本人直言寫起來不容易。

主題圍繞強化學習中獎勵黑客（Reward Hacking）問題展開，即Agent利用獎勵函數或環境中的漏洞來獲取高獎勵，而並未真正學習到預期行為。

她強調獎勵黑客行為在大模型的RLHF訓練中的潛在影響，並呼籲更多研究關注理解和緩解這一問題。

在我看來，這是現實世界部署更多自主AI模型應用的主要障礙。

嘗試定義Reward Hacking

傳統概念強化學習中，Agent利用獎勵函數中的缺陷或模糊性來獲得高額獎勵，而沒有真正學習或完成預期任務，是一個常見的問題。

她舉的例子包括：

機器人把手放在物體和攝像頭之間，欺騙人類已經抓住物體了；

以跳的更高為目標的Agent在物理模擬器中利用程序bug，完成不符合物理規律的跳躍。

在大模型中，Reward hacking則可能表現為：

摘要生成模型利用ROUGE評估指標的缺陷獲得高分，但生成的摘要難以閱讀。

代碼模型篡改單元測試代碼，甚至直接修改獎勵本身。

翁荔認為Reward hacking的存在有兩大原因：

強化學習環境通常不完美；

準確指定獎勵函數本質上是一項艱巨的挑戰。

語言模型興起的時代，並且RLHF成為對齊訓練事實上的方法，語言模型強化學習中的Reward hacking表現也相當令她擔憂。

過去學術界對這個話題的研究都相當理論，專注於定義或證明Reward hacking的存在，然而關於實際該如何緩解這種現象的研究仍然有限。

她寫這篇博客，也是想呼籲更多研究關注、理解和緩解這一問題。

為了定義Reward Hacking，翁荔首先回顧了近年來學術界提出的相關概念。

包括獎勵腐敗（Reward corruption）、獎勵篡改（Reward tampering）等等。

其中，Reward hacking這個概念，早在2016年由Anthropic創始人Dario Amodei共一論文提出。

當時他和另一位聯創Chris Olah還在Google大腦，且已經與OpenAI聯創John Schulman展開合作。

如今他們仨又在Anthropic彙合了……

言歸正傳，綜合一系列研究，翁荔認為Reward Hacking在較高層次上可分為兩類：

環境或目標設定不當：由於環境設計或獎勵函數存在缺陷，導致Agent學到非預期行為。

獎勵篡改：Agent學會直接干預獎勵機制本身。

同時她也認為設計有效的獎勵塑造機制本質上很睏難。

與其責備設計不當的獎勵函數，不如承認由於任務本身的複雜性、部分可觀察狀態、考慮的多個維度和其他因素，設計一個好的獎勵函數本身就是一項內在挑戰。

另外在分佈外環境中測試強化學習Agent時，還可能出現以下問題：

模型即使有正確的目標也無法有效泛化，這通常發生在算法缺乏足夠的智能或能力時。

模型能夠很好地泛化，但追求的目標與其訓練目標不同。

那麼，為什麼會出現Reward Hacking？根據Amodei等人2016年的分析成因包括：

環境狀態和目標的不完全可觀測性，導致獎勵函數無法完美表徵環境。

系統複雜性使其易受攻擊，尤其是被允許執行改變環境的代碼時。

涉及抽像概念的獎勵難以學習或表述。

RL的目標就是高度優化獎勵函數，這與設計良好的RL目標之間存在內在「衝突」。

此外，觀察到的Agent行為可能與無數個獎勵函數相一致，準確識別其真正優化的獎勵函數在一般情況下是不可能的。

翁荔預計隨著模型和算法的日益複雜，Reward Hacking問題會更加普遍。

更智能的模型更善於發現並利用獎勵函數中的」漏洞」，使Agent獎勵與真實獎勵出現偏差。相比之下，能力較弱的算法可能無法找到這些漏洞。

那麼，大模型時代的Reward Hacking，又有哪些獨特之處？

語言模型中的Reward Hacking

在RLHF訓練中，人們通常關注三種類型的獎勵：

人們真正希望大模型優化的內容，被稱為黃金獎勵（Gold reward）；

人類獎勵（Human reward），實際用來評估大模型，在數據標註任務中來自個體人類，且標註有時間限制，並不能完全準確地反映黃金獎勵‍‍；

代理獎勵（Proxy reward），也就是在人類數據上訓練的獎勵模型所預測的得分，繼承了人類獎勵的所有弱點，加上潛在的建模偏差。

翁荔認為，RLHF通常優化代理獎勵分數，但人們最終關心的是黃金獎勵分數。

例如，模型可能經過優化，學會輸出看似正確且有說服力的回答，但實際上卻是不準確的，這可能會誤導人類評估者更頻繁地批準其錯誤答案。

換句話說，由於RLHF，「正確」與「對人類看似正確」之間出現了分歧。

在一項RLHF研究中，使用了大模型競技場ChatbotArena數據訓練獎勵模型，就出現AI更擅長說服人類它們是正確的情況：

RLHF提高了人類對AI回答的認可度，但不一定就能提高AI的正確率。

RLHF削弱了人類對AI回答的評估能力，評估的錯誤率更高。

RLHF使錯誤的AI回答對於人類更有說服力，表現為評估的假陽性率顯著增加。

此外，隨著大模型越來越多作為評估者對其他模型提供反饋，也可能進一步引入偏差。

翁荔認為這種偏差尤其令人擔心，因為評估模型的輸出被用作獎勵信號的一部分，可能容易被利用。

比如2023年一項實驗中，簡單改變候選答案的順序就能改變結果，GPT-4傾向於給第一個答案高分數，ChatGPT（3.5）更傾向於第二個。

另外，即使不更新參數，大模型僅靠上下文學習能力也可能產生Reward hacking現象，稱為ICRH（In-context Reward Hacking）。

ICRH與傳統Reward Hacking還有兩個顯著不同：

ICRH在自我優化設置中的測試時間通過反饋循環發生，而傳統Reward hking行為在訓練期間發生。

傳統Reward hacking行為出現在Agent專注於一項任務時，而ICRH則是由完成通用任務驅動的。

翁荔認為目前還沒有避免、檢測或預防ICRH的有效方法，僅僅提高提示的準確性不足以消除ICRH，而擴大模型規模可能會加劇ICRH。

在部署前進行測試的最佳實踐是通過更多輪次的反饋、多樣化的反饋以及注入非典型環境觀察來模擬部署時可能發生的情況。

緩解措施

最後翁荔表示儘管有大量文獻討論獎勵黑客現象，但少有工作提出緩解獎勵黑客的措施。

她簡要回顧了三種潛在方法。

一種是改進強化學習算法。

前面提到的Anthropic創始人Dario Amodei2016年共一論文「Concrete Problems in AI Safety」中，指出了一些緩解方向，包括：

對抗性獎勵函數（Adversarial reward functions）、模型預測（Model Lookahead）、對抗性盲化（Adversarial blinding）、謹慎的工程設計（Careful engineering）、獎勵上限（Reward capping）、反例抵抗（Counterexample resistance）、多獎勵組合（Combination of multiple rewards）、獎勵預訓練（Reward pretraining）、變量不敏感性（Variable indifference）、陷阱機制（Trip wires）。

此外，GoogleDeepMind團隊此前提出了「解耦批準」的方法來防止獎勵篡改。