提出機器人自主學習新範式,深大團隊最新頂會論文,刷新6大複雜任務SOTA
ROSKA團隊 投稿
量子位 | 公眾號 QbitAI
讓機器人輕鬆學習複雜技能有新框架了!
深圳大學大數據系統計算技術國家工程實驗室李堅強教授團隊聯合鵬城國家實驗室、北京理工莫斯科大學,提出了獎勵函數與策略協同進化框架ROSKA。
在多個高維度機器人任務上,在僅使用89%訓練樣本的情況下,比現有SOTA方法平均性能提升95.3%。

眾所周知,隨著機器人技術的快速發展,其應用已滲透至日常生活和工業生產場景。
然而在多自由度機器人控制領域,傳統強化學習方法卡奧度依賴人工設計的獎勵函數。這類獎勵函數需在任意狀態轉移過程中提供有效反饋,否則可能導致學習策略性能不足,這對開放環境下的機器人自主學習構成了關鍵挑戰。
而ROSKA框架創新融合大語言模型的推理與代碼生成能力,使機器人在學習過程中能夠根據實時任務目標和策略表現動態調整獎勵函數,實現了獎勵函數與強化學習策略的協同進化,並在一系複雜機器人技能學習任務上取得突破性進展。
實驗結果顯示,ROSKA框架在六類複雜多自由度機器人任務中均刷新了SOTA性能,相較於NVIDIA 2023年度十大進展之一的Eureka方法,ROSKA方法在人類歸一化得分指標上平均性能提升高達95%。
目前該成果被人工智能頂級會議AAAI 2025收錄,深圳大學助理教授黃暢昕作為第一作者,並在大會上做口頭報告(Oral)。
ROSKA框架:獎勵-策略協同進化
在高維機器人控制任務中,獎勵函數的設計不僅需要考慮任務目標,還需要考慮機器人各個關節之間的複雜關係以及環境的動態變化。
傳統方法依賴專家經驗,設計週期長、成本高,難以推廣到複雜任務中。
儘管大語言模型(LLM)為自動生成獎勵函數提供了新思路,但現有方法(如Eureka)仍需從頭訓練策略,導致訓練效率低下和計算資源浪費。
而ROSKA框架通過獎勵-策略協同進化機制,解決了上述問題。
ROSKA框架的核心思想是將獎勵函數的設計與策略的優化過程緊密結合,形成一個動態進化的閉環,從而在減少數據使用量的同時,顯著提升策略的性能。
實驗結果表明,ROSKA框架在多個高維機器人控制任務中表現優異。

獎勵函數-策略協同進化機制
ROSKA框架通過將獎勵函數和策略的進化過程結合起來,使得兩者能夠相互促進、共同優化。
獎勵函數的進化過程可以根據策略的表現動態調整獎勵函數的設計,而策略的進化過程則可以利用歷史最優策略的知識來加速新獎勵函數下的策略優化,這種協同進化的方式不僅能夠提高訓練效率,還能夠提升策略的適應性和可塑性,使得機器人能夠在複雜環境中更快地學習和執行任務。
高效策略融合方法
在策略進化部分,ROSKA框架通過融合歷史最優策略和隨機策略來生成新的策略候選。
策略的進化過程通過結合歷史最優策略的知識和隨機策略的探索能力,確保策略既能夠繼承已有經驗,又具備足夠的可塑性以適應新的獎勵函數。
為了高效找到最優的策略融合比例,ROSKA採用了貝葉斯優化方法,通過評估不同融合比例下的策略表現,快速確定最優的融合方案。
實驗結果
實驗在Isaac Gym仿真環境中進行,選擇了六個具有代表性的機器人任務進行評估,包括 Ant、Humanoid、ShadowHand、AllegroHand、FrankaCabinet 和 ShadowHandUpsideDown。
實驗結果展示了ROSKA框架在多個高維機器人控制任務中的顯著性能提升,這些任務涵蓋了從簡單的運動控制到複雜的物體操作,能夠全面測試ROSKA框架在不同場景下的表現。
各方法在機器人任務中的MTS柱狀圖如下:

為了更直觀地比較不同方法的性能,團隊採用了人類歸一化得分(Human Normalized Score) 作為評價指標。HNS通過將算法的表現與人類設計的獎勵函數表現進行對比,提供了更直觀的性能評估。
如上圖所示,ROSKA在所有任務中的HNS均超過了人類專家基線(紅色線條),表明其性能優於人類設計的獎勵函數。
特別是在ShadowHand和FrankaCabinet任務中,ROSKA方法遠超其他基線方法。
與SOTA方法Eureka相比,ROSKA在HNS指標上的平均改進率達到95.3%,進一步驗證了其在高維機器人控制任務中的優越性。其中在ShadowHand任務中,ROSKA方法相比Eureka提升了 154.6%。在ShadowHandUpsideDown任務中,ROSKA方法相比Eureka提升了184.07%。
這些結果表明,ROSKA通過獎勵-策略協同進化機制,能夠顯著提升策略的性能,尤其是在複雜任務中表現尤為突出。
整體而言,ROSKA框架借助大規模合成數據與智能進化機制訓練而成,採用獎勵函數-策略協同進化機制,通過動態獎勵種群生成與短路徑貝葉斯優化策略實現雙向優化。
實驗驗證框架在多項高維度機器人控制任務中實現顯著突破。相比現有SOTA方法Eureka,在僅使用89%訓練樣本的情況下,在多個高維度機器人任務上實現了平均95.3%的標準化性能提升,驗證了該框架在機器人技能學習任務中的強大適應能力。
更多方法和實驗細節,請參考論文。
項目地址:
https://github.com/NextMyLove/ROSKA
論文:
https://arxiv.org/abs/2412.13492