英偉達機器人跳APT舞驚豔全網,高比C.朗完美複刻,CMU 00後華人共同一作

機器人界「球星」竟被CMU英偉達搞出來了!高比fadeaway shot、C.朗、占士霸氣慶祝動作皆被完美複刻。2030年,我們將會看到一場人形機器人奧運會盛宴。

機器人版高比、占士、C.朗真的來了!

只見「高比」fadeaway shot,在賽場上大殺四方。

「C.朗」和「占士」也紛紛展示了自己的招牌慶祝動作。 

‍以上這些還只是開胃菜,這款人形機器人還會側跳、前跳、前踢、右踢,甚至能夠完成深蹲、腿部拉伸等高難度動作。‍ 

‍ 

‍ 

‍ 

‍ 

‍更驚豔的是,它還會跳APT舞,非常嗨皮。 

比起波士頓動力Altas,如今人形機器人早已進化到人們難以想像的樣子。正如Figure創始人所言,人形機器人iPhone時刻即將到來。 

那麼,能夠成為「機器人界的高比」,究竟是用了什麼魔法? 

來自CMU和英偉達的華人研究團隊重磅提出ASAP,一個「real2sim2real」模型,能讓人形機器人掌握非常流暢且動感的全身控制動作。 

它包含了兩大階段——預訓練和後訓練。 

在第一個階段中,通過重定向的人體數據,在仿真環境中預訓練運動跟蹤策略。 

在第二階段,將這些策略部署到現實世界,並收集真實世界數據,訓練一個delta動作模型,來彌補動力學差異。 

然後,ASAP把這個delta動作模型集成到仿真器中,對預訓練策略進行微調,讓它和現實世界的動力學更匹配。 

英偉達高級研究科學家Jim Fan激動地表示,我們通過RL讓人形機器人成功模仿C.朗、占士和高比! 

這些神經網絡模型,正在英偉達GEAR實驗室的真實硬件平台上運行。 

在網上看到的多數機器人演示影片都是經過加速處理的,而我們特意「放慢動作速度」,讓你能清晰觀賞每個流暢的動作細節。 

我們提出的ASAP模型採用了「真實→仿真→真實」方法,成功實現了人形機器人全身控制所需的超平滑動態運動。 

我們首先在仿真環境對機器人進行預訓練,但面臨眾所周知的仿真與現實差距:人工設計的物理方程難以準確模擬真實世界的動力學特性。 

我們的解決方案簡明有效:將預訓練策略部署到實體機器人採集數據,隨後在仿真環境重播動作記錄。雖然重播過程必然產生偏差,但這些誤差恰恰成為修正物理差異的關鍵數據源。通過額外神經網絡學習差異參數,本質上是對傳統物理引擎進行「動態校準」,使機器人能依託GPU的並行計算能力,在仿真環境中獲得近乎真實的大規模訓練體驗。 

未來屬於混合仿真時代:既繼承經典仿真引擎數十年錘煉的精準優勢,又融合現代神經網絡捕捉複雜現實世界的超凡能力,實現兩者的協同進化。 

一直以來,sim2real是實現空間與具身智能的主要路徑之一,被廣泛應用在機器人仿真評估當中。 

而real2sim2real直接打破了繁瑣的動作微調的難題,彌合sim2real的差距,讓機器人能夠模仿各種類人的動作。 

Jim Fan對此暢想道,2030年的人形機器人奧運會一定會是一場盛宴! 

有網民期待地表示,真想看看它們打拳擊的表現。 

01 ASAP,機器人奧運會不遠了

由於仿真環境和現實世界的動力學差異,人形機器人想實現敏捷又協調的全身運動仍是巨大的挑戰。

現有方法,如系統識別(SysID)和域隨機化(DR)通常要花大量時間調整參數,或者生成的策略過於保守,動作不夠敏捷。

本文提出了ASAP(Aligning Simulation and Real Physics)是一個兩階段框架,旨在解決動力學不匹配問題,實現敏捷的人形機器人全身動作。

ASAP實現了許多以前很難做到的高難度動作,展現出delta動作學習在縮小仿真與現實動力學差距方面的潛力。

ASAP為「sim-to-real」提供了一個很有前景的方案,為開發更靈活、更敏捷的人形機器人指明了方向。

ASAP具體步驟如下:

運動跟蹤預訓練與真實軌跡收集:先從真人影片中提取動作並重定向到機器人上,預訓練多個運動跟蹤策略,生成真實世界的運動軌跡。

Delta動作模型訓練:基於真實世界軌跡數據,訓練Delta動作模型,縮小仿真狀態與真實世界狀態之間的差異。

策略微調:Delta動作模型訓練完成後,將其集成到仿真器中,使仿真器能匹配真實世界的物理特性,隨後對之前預訓練的運動跟蹤策略進行微調。

真實世界部署:最後,直接在真實環境中部署微調後的策略,此時就不再需要Delta動作模型了 。

02 兩階段:預訓練+後訓練

ASAP包含兩個階段:預訓練階段和後訓練階段。 

在預訓練階段,研究團隊將真人運動影片作為數據來源,在仿真環境中訓練動作跟蹤策略。 

先將這些運動數據重定向到人形機器人上,然後訓練一個基於相位條件的運動跟蹤策略,讓機器人模仿重定向後的動作。然而,如果將這一策略部署到真實硬件上,由於動力學差異,機器人的性能會下降。 

為解決這一問題,在後訓練階段需要收集真實世界的運行數據,包括本體感知狀態,以及由動作捕捉系統記錄的位置信息。隨後,在仿真環境中重播這些數據,動力學差異就會以跟蹤誤差的形式表現出來。 

接著,訓練一個delta動作模型,通過縮小真實世界和仿真狀態的差異,學習如何補償這些偏差。這個模型實際上是動力學誤差的修正項。 

最後,研究者借助delta動作模型對預訓練的策略進行微調,使其能夠更好地適應真實世界的物理環境,從而實現更穩定、敏捷的運動控制。 

總的來說,這項研究的貢獻如下: 

提出ASAP框架:運用強化學習和真實世界的數據來訓練delta動作模型,有效縮小了仿真與現實之間的差距。

成功在真實環境部署全身控制策略,實現了不少以前人形機器人難以做到的動作。

仿真和現實環境中的大量實驗表明,ASAP能夠有效減少動力學不匹配問題,讓機器人做出高度敏捷的動作,同時顯著降低運動跟蹤誤差。

為了促進不同仿真器之間的平滑遷移,研究者開發並開源了一個多仿真器訓練與評估代碼庫,以加快後續研究。 

03 評估

評估中,研究人員針對三種策略遷移進行了廣泛的實驗研究:IsaacGym到IsaacSim、IsaacGym到Genesis,以及 IsaacGym到真實世界的Unitree G1人形機器人。

接下來,他們一共回答了三個問題。

Q1:ASAP能否優於其他基線方法,以補償動力學失配問題?

表III中的定量結果表明,ASAP在所有重放動作長度上都持續優於OpenLoop基線,實現了更低的Eg-mpjpe和Empjpe值,這表明與測試環境軌跡的對齊程度更好。

雖然SysID有助於解決短期動力學差距,但由於累積誤差的增加,它在長期場景中表現不佳。

DeltaDynamics在長期場景中相比SysID和OpenLoop有所改進,但存在過擬合問題,這從下圖5中隨時間放大的級聯誤差可以看出。

然而,ASAP通過學習有效彌合動力學差距的殘差策略,展示出了優越的泛化能力。

同時,作者在Genesis模擬器中也觀察到了類似的趨勢,ASAP相對於基線在所有指標上都取得了顯著改進。

這些結果強調了學習增量動作模型,在減少物理差距和改善開環重放(open-loop replay)性能方面的有效性。

Q2:ASAP能否在策略微調方面,優於SysID和Delta Dynamics?

為瞭解決問題2,研究人員評估了不同方法在微調強化學習策略,以提高測試環境性能方面的有效性。

如表IV所示,ASAP在兩個模擬器(IsaacSim和Genesis)的所有難度級別(簡單、中等和困難)中都持續優於Vanilla、SysID和DeltaDynamics等基線方法。

對於簡單級別,ASAP在IsaacSim(Eg-mpjpe=106和Empjpe=44.3)和Genesis(Eg-mpjpe=125和Empjpe=73.5)中都達到了最低的Eg-mpjpe和Empjpe,同時具有最小的加速度(Eacc)和速度(Evel)誤差。

在更具挑戰性的任務中,如困難級別,最新方法的表現依舊出色,顯著降低了運動跟蹤誤差。

例如,在Genesis中,它實現了Eg-mpjpe=129和Empjpe=77.0,大幅優於SysID和DeltaDynamics。

此外,ASAP在兩個模擬器中始終保持100%的成功率,而DeltaDynamics在更困難的環境中的成功率較低。

為了進一步說明ASAP的優勢,研究人員在圖7中提供了逐步可視化比較,對比了ASAP與未經微調直接部署的強化學習策略。為了進一步說明ASAP的優勢,研究人員在圖7中提供了逐步可視化比較,對比了ASAP與未經微調直接部署的強化學習策略。

這些可視化結果表明,ASAP成功適應了新的動力學環境並保持穩定的跟蹤性能,而基線方法則隨時間累積誤差,導致跟蹤能力下降。

這些結果突顯了,新方法在解決仿真到現實差距方面的魯棒性和適應性,同時防止過擬合和利用。

研究結果驗證了ASAP是一個有效的範式,可以提高閉環性能並確保在複雜的現實場景中可靠部署。

Q3:ASAP是否適用於sim2real遷移?

針對第三個問題,研究人員在真實的Unitree G1機器人上驗證了ASAP的有效性。

由於傳感器輸入噪聲、機器人建模不準確和執行器差異等因素,仿真到現實的差距比模擬器之間的差異更為顯著。

為了評估ASAP在解決這些差距方面的有效性,他們在兩個代表性的運動跟蹤任務(踢腿和「Silencer」)中比較了ASAP與Vanilla基線的閉環性能,這些任務中存在明顯的仿真到現實差距。

為了展示所學習的增量動作模型對分佈外運動的泛化能力,作者還對勒布朗·占士「Silencer」動作進行了策略微調,如圖1和圖8所示。

結果表明,ASAP在分佈內和分佈外的人形機器人運動跟蹤任務中都優於基線方法,在所有關鍵指標(Eg-mpjpe、Empjpe、Eacc和Evel)上都實現了顯著的跟蹤誤差減少。

這些發現突顯了ASAP在改進敏捷人形機器人運動跟蹤的仿真到現實遷移方面的有效性。

再接下來,研究人員就三個核心問題來全面分析ASAP。

首先是,如何最好地訓練ASAP的增量動作模型?

具體來說,他們研究了數據集大小、訓練時域和動作範數權重的影響,評估它們對開環和閉環性能的影響,如下圖10所示,給出了所有因素下的實驗結果。

其次,如何最好地使用ASAP的增量動作模型?

如下圖11所示,強化學習微調在部署過程中實現了最低的跟蹤誤差,優於免訓練方法。

兩種無強化學習的方法都具有短視性,並且存在分佈外問題,這限制了它們在現實世界中的適用性。

Q6:ASAP為什麼有效以及如何發揮作用?

研究人員驗證了ASAP優於基於隨機動作噪聲的微調,並可視化了Delta動作模型在各個關節上的平均輸出幅度。 

調整噪聲強度參數,能降低全局跟蹤誤差(MPJPE)。 

圖13可視化了在IsaacSim訓練得到的Delta動作模型的平均輸出,結果揭示了不同關節的動力學誤差並不均勻。踝關節和膝關節的誤差最顯著。 

04 作者介紹

Tairan He(何泰然)

共同一作Tairan He是卡內基梅隆大學機器人研究所的二年級博士生,由Guanya Shi(石冠亞)和Changliu Liu(劉暢流)。同時,也是NVIDIA GEAR小組的成員,該小組由Jim Fan和Yuke Zhu領導。 

此前,他在上海交通大學獲得計算機科學學士學位,導師是Weinan Zhang(張偉楠)。並曾在微軟亞洲研究院工作過一段時間。 

他的研究目標是打造能改善每個人生活質量的機器人;重點是如何為機器人構建數據飛輪,使其獲得媲美人類的運動能力和語義理解能力,以及如何讓機器人既能安全可靠,又能靈活適應各種環境,具備通用性和敏捷性來完成各類實用任務;採用的是隨計算能力和數據規模擴展的機器學習方法。 

Jiawei Gao(高嘉偉)

共同一作Jiawei Gao目前就讀於CMU。他曾獲得了清華學士學位,曾與Gao Huang教授、Jiangmiao Pang博士、Guanya Shi教授合作,參與了強化學習算法及其在機器人領域應用的相關項目。 

他一直在思考人類智能的起源,以及如何構建能夠像人類一樣學習和推理的機器。為此,他希望致力於研究通用決策算法,使機器能夠在複雜的物理世界中進行交互、學習和適應。 

除了研究興趣外,Jiawei Gao也熱衷於歷史、哲學和社會學。個人學習鋼琴已有十年,是西方古典音樂的忠實愛好者,貝多芬和馬勒是我最喜歡的作曲家。同時,他也喜歡旅行和攝影。 

Wenli Xiao

共同一作Wenli Xiao是卡內基梅隆大學機器人研究所(MSR)的碩士生,由Guanya Shi教授和John Dolan教授指導。 

他目前在NVIDIA GEAR實驗室擔任研究實習生,與Jim Fan博士和Yuke Zhu教授一起研究人形機器人基礎模型。 

此前,他在香港中文大學(深圳)獲得電子信息工程專業學士學位。 

Yuanhang Zhang(張遠航)

共同一作Yuanhang Zhang目前是CMU機器人研究所(CMU RI)的碩士生,目前在LeCAR Lab研究,導師是Guanya Shi教授。 

此前,他曾在上海交通大學獲得了工學學士學位,期間Hesheng Wang教授Danping Zou教授指導。 

本科期間,他擔任SJTU VEX 機器人球會的編程組負責人,並參與了無人車(UV)和無人機(UAV)相關的各類競賽。 

他的研究興趣包括機器人學、機器學習和最優控制。目前,他本人的研究方向是人形機器人和空中操控。 

參考資料: 

https://x.com/DrJimFan/status/1886824152272920642 

https://agile.human2humanoid.com/

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。