50%優勢,力壓OpenAI和DeepMind,清華DSAC系列算法全面解析
清華大學團隊在強化學習領域取得重大突破,開發出DSAC及DSAC-T系列算法,有效解決強化學習中的過估計問題,提升學習效果穩定性;團隊還提出DACER算法,將擴散模型與在線強化學習結合,進一步刷新性能記錄;RAD優化器為強化學習訓練穩定性提供保障,相關成果將集成入開源軟件GOPS,推動具身智能發展。
在當今的人工智能浪潮中,如何讓機器獲得像人一樣的學習能力,是推動機器智能化水平不斷進化,最終實現具身智能甚至通用人工智能(AGI)的關鍵。
想像一下幼兒的成長過程,在不斷探索與試錯中積累經驗、提升智慧。這正是強化學習的核心思想:通過與環境的互動,不斷調整策略以最大化長期回報。
從上世紀末期以來,強化學習技術快速發展,2016年AlphaGo擊敗圍棋世界冠軍李世石展示出這項技術解決複雜問題的巨大潛力。

然而,將強化學習應用於機器人,在真實世界中產生智能,還面臨許多挑戰,主要是因為真實世界的環境更加複雜多變,現有技術難以應對這種複雜性,導致學習效果不穩定。
清華大學深度強化學習實驗室長期深耕強化學習的基礎理論和應用,於近期連續取得關鍵性技術突破!
研究人員模擬人類對自然世界的真實感知模式,突破傳統強化學習依賴點估計處理連續動作空間的局限,構建動作空間概率模型,在複雜環境中動態調整動作概率分佈,開發出DSAC(Distributional Soft Actor-Critic)及DSAC-T系列算法。在基準測試環境中,該系列算法取得了大幅的性能提升,並以50%以上的優勢領先於OpenAI的PPO和Deepmind的DDPG算法。
在剛剛落幕的機器學習頂會NIPS2024中,團隊進一步將擴散模型與在線強化學習深度融合,發佈了DACER算法。算法把擴散模型的反向過程定義為新策略近似函數,利用其強大表示能力提升性能,再次刷新了強化學習性能的世界記錄。

為保證強化學習訓練效果的穩定性,團隊提出了強化學習專用的神經網絡優化器RAD。該優化器從動力學視角將神經網絡參數優化建模為多粒子相對論系統演化,賦予參數獨立自適應能力,確保訓練長時域穩定與快速收斂。
相較於9個主流神經網絡優化器,RAD優化器在12個測試環境及5種主流強化學習算法中綜合性能均排名第一。特別在圖像類標準測試環境Seaquest任務中,RAD性能達到當前流行的Adam優化器的2.5倍。
上述算法將逐步集成入團隊開源的最優控制問題求解軟件GOPS中。該軟件以強化學習為核心理論,擁有完全自主知識產權,兼容多種機器人和工業仿真環境,能夠有效地處理高維度、非線性、高動態等複雜場景的具身智能控制問題,目前已經應用於自動駕駛、物流機器人、特種作業機械臂、火箭回收等不同領域。
未來隨著GOPS軟件的進一步升級,現實世界的眾多機器將可能擁有像人一樣的智能,屆時將迎來一個全新的具身智能時代。
DSAC和DSAC-T系列算法解讀
從Q-learning算法開始,不少研究者均發現強化學習存在嚴重的過估計問題。由於Q學習算法中不斷的對下⼀時刻的狀態值進⾏max操作,任何引起的Q值誤差的因素如環境中的噪聲、⽹絡的近似誤差都會導致對Q值的偏⾼的估計,即過估計。
⽽在時間差分學習中,這種估計誤差⼜會被進⼀步放⼤,因為後⾯狀態的過估計誤差在更新過程中⼜會進⼀步傳播到前⾯的狀態中。

為瞭解決過估計問題,研究者提出著名的Double DQN算法及諸多以其為基礎的變種,但是此類⽅法只能解決離散動作空間的問題。對於連續控制任務,以Clipped Double Q-learning為基礎的TD3和SAC等算法則⾯臨著低估問題。DSAC⾸次從理論層⾯發現和論證了分佈式回報函數的學習降低Q值過估計的原理,並將分佈式回報學習嵌⼊到Maximum Entropy架構中。

事實上,⼈類⼤腦給出的獎勵並不是⼀個單⼀的信號,⽽是基於某種概率分佈,這也顯示了分佈式回報機制設計的合理性和巨⼤潛⼒。同時,與現有Distributional RL算法(如C51,IQN,D4PG等)不同的是,DSAC可以直接學習⼀個連續型分佈式值函數,這避免了離散分佈學習帶來的⼈⼯設計分割區間需求。

論文鏈接:https://arxiv.org/pdf/2001.02811.pdf
論文代碼:https://github.com/Jingliang-Duan/Distributional-Soft-Actor-Critic
影片鏈接:https://www.bilibili.com/video/BV1fa4y1h7Mo#reply3178996263
Wikipedia簡介:https://en.wikipedia.org/wiki/Distributional_Soft_Actor_Critic
DSAC算法是一種off-policy算法,可以通過學習連續的高斯值分佈來有效提高值估計精度。然而DSAC算法也存在學習不穩定、參數敏感等缺點。
針對該問題,團隊在DSAC算法的基礎上進一步提出了DSAC-T: Distributional Soft Actor-Critic with Three Refinements算法。相較於DSAC,DSAC-T算法主要做了三方面改進:Expected value substituting、Twin value distribution learning與Variance-based critic gradient adjusting。
Expected value substituting:傳統RL算法在策略評估階段利用下一時刻的回報均值(即Q值)構建TD error,而DSAC算法參與critic更新時利用隨機回報Z構建TD error,增加了critic更新梯度隨機性,降低了學習穩定性。為此,DSAC-T利用隨機回報Z和Q值的期望等價性,將值分佈函數均值(即Q值)更新公式中下一時刻的隨機回報替換為其均值,實現了算法性能提升。

Twin value distribution learning:DSAC算法利用值分佈學習極大抑制了過估計偏差,在此基礎上,為進一步減輕值函數過估計偏差,DSAC-T結合douple-Q learning,在已有的值分佈網絡基礎上額外獨立訓練了一個參數化的值分佈網絡。在進行actor和critic的梯度更新時,選擇均值較小的值分佈網絡構建目標。

Variance-based critic gradient adjusting:為防止梯度爆炸,DSAC算法對隨機TD error設置了固定的clipping boundary,該參數對任務reward量級極為敏感,嚴重依賴reward scaling的人工調校。
針對該問題,DSAC-T引入了方差相關的動態clipping boundary,實現了TD error邊界的動態調節。此外,值分佈函數更新梯度與值分佈方差平方項/立方項成反比,導致了其學習過程對方差敏感。為此,DSAC-T引入gradient scaler降低方差變化對梯度的影響,進一步減小了算法對不同任務的參數敏感性。


論文鏈接:https://arxiv.org/abs/2310.05858
論文代碼:https://github.com/Jingliang-Duan/DSAC-v2
DACER算法解讀
在線強化學習(Online Reinforcement Learning, Online RL)作為人工智能領域解決複雜序列決策問題的核心方法之一,其應用範圍持續擴展。擴散模型作為一種生成模型因其強大的擬合多模態分佈能力而廣為人知。它通過逐步添加和移除噪聲來學習原始數據分佈,在圖像和影片生成領域表現出色。
然而,擴散模型直接用於Online RL可能遇到的問題包括:1. 擴散模型的損失函數項本質上是一種模仿學習損失項,但與Offline RL不同,Online RL中並不存在可供模仿的數據;2. 擴散模型的反向過程無法進行解析求熵,這使得其難以與最大熵強化學習框架相結合,從而導致算法收斂性能不佳。
為瞭解決上述的問題,DACER(Diffusion Actor-Critic with Entropy Regulator)建立在去噪擴散概率模型(DDPM)的基礎上。擴散模型的表示能力主要來源於反向擴散過程而非正向,因此將擴散模型的反向過程重新概念化為一種新的策略近似函數,利用其強大的表示能力來提升RL算法的性能。這個新策略函數的優化目標是最大化期望Q值。
在RL中,最大化熵對於策略探索至關重要,但擴散策略的熵難以解析確定。因此,算法選擇在固定間隔處采樣動作,並使用高斯混合模型(GMM)來擬合動作分佈,可計算每個狀態下策略的近似熵。這些熵的平均值之後被用作當前擴散策略熵的近似。最後,算法使用估計的熵來平衡擴散策略在訓練過程中的探索與利用。
1. 擴散策略表徵
將條件擴散模型的反向過程用作參數化策略

采樣過程可以重新表述為:

2. 擴散策略學習
在Online RL中,由於沒有可供模仿的數據集,算法放棄了行為複製項和模仿學習框架。策略學習的目標是最大化由擴散網絡在給定狀態下生成的動作的期望Q值:

此外,算法使用先前提出的分佈式Q學習的方法來緩解值函數的過估計問題。然而,直接使用上述擴散策略學習方法進行訓練時,會因策略動作過於確定性而導致性能不佳。
3. 擴散策略與熵調節器
對於每個狀態,我們使用擴散策略來采樣N個動作,然後使用高斯混合模型(GMM)來擬合策略分佈。可以通過以下方式估計對應於該狀態的動作分佈的熵:

類似於最大化熵的RL,根據估計的熵學習一個參數α:

最終,使用下式在訓練的采樣階段調整擴散策略的熵。熵調節機制是解鎖探索潛能的關鍵。

DACER算法整體流程如下:


論文鏈接:https://arxiv.org/pdf/2405.15177
論文代碼:https://github.com/happy-yan/DACER-Diffusion-with-Online-RL
RAD優化器解讀
價值函數和策略函數是RL算法的關鍵部件,二者交替迭代更新是RL訓練的核心步驟。當前主要以深度神經網絡作為價值函數和策略函數的載體,其訓練過程通常依賴於神經網絡優化器以實現參數更新。
然而,目前主流的神經網絡優化器(如SGD-M、Adam和AdamW等)雖然在緩解局部最優和加速收斂方面有所幫助,但其算法設計和參數選擇均依賴於人工經驗和實用技巧,缺乏對優化動態特性的解釋與分析,難以從理論上保障RL訓練的穩定性。
研究者從動力學視角出發,將神經網絡參數的優化過程建模為多粒子相對論系統狀態的演化過程,通過引入狹義相對論的光速最大原理,抑制了網絡參數的異常更新速率,同時提供了各網絡參數的獨立自適應調節能力,從理論上引入了對RL訓練穩定性和收斂性等動態特性的保障機制。

進而,研究者提出了既具備穩定動力學特性又適用於深度神經網絡非凸隨機優化的RAD優化器。特別的,當速度係數δ設為1且保辛因子ζk固定為小常數ε時,RAD優化器將退化為深度學習中廣泛採用的Adam優化器。這一發現也為從動力學視角探究其他主流自適應梯度優化方法(如AdaGrad、NAdam、AdamW和Lion等)開闢了全新路徑。


論文地址:https://ieeexplore.ieee.org/document/10792938
代碼倉庫:https://github.com/TobiasLv/RAD
GOPS軟件簡介
GOPS(General Optimal control Problem Solver)主要用於複雜工業控制對象的最優控制策略求解。GOPS以強化學習和近似動態規劃為核心理論,具備兼容第三方或自建環境、串行訓練/並行訓練、支持高動態跟蹤和狀態約束處理等功能,能夠有效地處理高維度、非線性、高動態的工業領域被控對象。
開源網站:
https://gops.readthedocs.io/
代碼下載:
https://github.com/Intelligent-Driving-Laboratory/GOPS
本文來自微信公眾號「新智元」,作者:LRST,36氪經授權發佈。