宇樹機器人成賽博高比!英偉達CMU新研究,投籃模仿籃球巨星,代碼論文全開源
明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
你以為的宇樹機器人(H1):

實際上的宇樹機器人(G1):輕鬆來一個帥氣的高比投籃。

或者是像朗拿度那樣華麗旋轉跳躍。

英偉達卡內基梅隆大學一起,給宇樹機器人「一雪前恥」了(doge)。
只通過一個訓練框架,機器人就能成為「學人精」,完成各種高難度敏捷動作。
從這樣(下左圖)變成這樣(下右圖)。

要知道,由於仿真環境和真實物理世界之間的動力學系統存在偏差,讓機器人敏捷、協調地完成各種類人動作仍舊是一個巨大挑戰。
ASAP方法解決的正是這個問題,論文和代碼通通開源。
有人感慨,看來機器人時代距我們只有幾步之遙。

主創之一Jim Fan也表示:期待2030年「人形」奧運會吧。

顯著提高機器人靈活性和全身協調性
簡單總結論文核心提出了ASAP(Aligning Simulation and Real Physics,對齊模擬與真實物理)。

這個框架主要分為兩個階段。
第一階段,使用經過調整的人類運動數據在模擬環境中預訓練運動跟蹤策略。
第二階段,將這些策略應用到真實世界,並收集真實數據來訓練一個「殘差」動作模型,用來彌補模型與真實世界物理動態之間的差距。
然後ASAP將預訓練的策略與差異動作模型結合,並在模擬器中進行微調,以便更好地與真實世界物理動態對接。

具體步驟分為四步:
1、運動跟蹤預訓練與真實軌跡收集:通過將人類影片中的運動數據轉換為類人機器人動作,我們在模擬環境中預訓練多個運動跟蹤策略,並生成真實世界的運動軌跡。

2、差異動作模型訓練:基於真實世界的運動數據,我們訓練一個「差異動作模型」,通過最小化模擬狀態(s_t)和真實世界狀態(s^r_t)之間的差距來進行優化。

3、策略微調:我們固定差異動作模型,並將其集成到模擬器中,以調整模擬和真實物理之間的匹配,然後微調之前訓練好的運動跟蹤策略。
4、真實世界部署:最後,我們將微調過的策略直接應用到現實世界中,不再需要差異動作模型。
研究人員在三個遷移場景中評估了ASAP的效果——
從IsaacGym到IsaacSim、從IsaacGym到Genesis,以及從IsaacGym到真實世界。
使用的機器人是宇樹G1人形機器人。

如上是從IsaacGym到IsaacSim,G1踢足球的四種不同動作。值得一提的是,ASAP在多個動作中訓練,不會過擬合特定示例。

從IsaacGym到IsaacSim,從IsaacSim到真實世界,ASAP微調前後G1運動跟蹤表現如上。
在特定動作(占士消音步)上,可以看到使用ASAP後,機器人的穩定性更好了。

由此可以看到,G1能夠完成橫款大跳等有難度的運動動作,在姿態上也和人類更為貼近。

四位華人共同一作
最後來看下研究團隊陣容。

18位作者中絕大多數都是華人面孔。
共同一作有四位,分別是何泰然、高嘉偉、Wenli Xiao和Yuanhang Zhang。
其中何泰然本科畢業於上海交通大學,現在是英偉達GEAR的一員,之前還在MSRA實習過。
高嘉偉本科畢業於清華大學,現在還在申請博士。
Wenli Xiao也是英偉達GEAR的一員。Yuanhang Zhang本科畢業於上海交通大學,現在在CMU讀研。
One More Thing
雖然動作表現更擬人了,但是宇樹機器人還是沒逃過跳舞的命運……
請欣賞宇樹版APT。
(統治人類後又多了一段要刪除的黑歷史)

項目地址:
https://agile.human2humanoid.com/