數據匱乏仍是通用具身智能面前的高牆嗎?

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. 數據匱乏問題仍是通用具身智能面前的高牆嗎?

具身智能離獲得泛化能力缺什麼/多少數據?數據和硬件的「雞生蛋還是蛋生雞問題」是什麼?史丹福團隊如何在數據「昂貴」和「難用」間找到平衡?中國公司的機器人已經能泛化了?…

2. 24 年上半年中美科技巨頭 AI 應用盤點,超級應用未來落在誰家?

24 年過半,AI 大模型應用捲到什麼程度了?新增了多少 AI 應用?訪問量如何?中美科技巨頭重點發佈的AI應用大盤點;科技巨頭們的 AI 佈局有哪些差異?AI 巨頭們的下一枚棋子會落在哪?…

3. Anthropic CEO 訪談解讀:AI 模型的訓練成本將持續上漲

AI 模型的訓練成本會越來越高?Anthropic CEO 在接受播客訪談時講了哪些重點?為什麼 Anthropic 格外關注模型的可解釋性?如何平衡性能與成本?Anthropic 採取了哪些策略?在全球視野下,Anthropic 對於 AI 倫理與治理有哪些賽前分析性思考?…

…本期完整版通訊含 3 項專題解讀 + 29 項本週 AI & Robotics 賽道要事速遞,其中技術方面 11 項,國內方面 10 項,國外方面 8 項。

本期通訊總計 27871 字,可免費試讀至 12% 

 消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元) 

要事解讀① 數據匱乏仍是通用具身智能面前的高牆嗎?

事件:具身智能所引起的關注與日俱增,大語言模型的突破讓具身智能研究看到了希望,但訓練具身智能大模型所需要的「數據 」在哪的問題卻從始至終阻擋在前。近期。MIT 博士生陳博遠、上海交大教授盧策吾、北大 CGCS 助理教授王鶴博士均在不同場合分享了自己對數據問題的看法,而數據匱乏問題的高牆似乎不再看不到頭。

2024 年過半了,具身智能的數據匱乏還是沒解決嗎?

1、MIT 博士生陳博遠近期於知乎發佈隨筆文章,記錄了他對自 2023 年起的具身智能的機遇與挑戰的看法。文章中,他就當前以大模型做具身智能的思路展開為「大模型與大數據 」,並針對「大數據」的問題展開了闡述。[1]

① 陳博遠指出,當我們討論缺數據,真正缺乏的是包含動作模態的數據。

② 他認為,只要有足夠多的高質量機器人數據,機器人大模型實現接近通用的泛化性將是必然。但如何獲取充足的機器人動作數據是不容樂觀的問題。

③ 他以自身在 DeepMind 實習期的論文舉例,發現最好的多模態大模型都常常左右不分,以往機器人大模型實現的正確方向控制可能只是在有限的動作數據上過擬合而已。

③ 他指出,當前工業界和學術界在解決機器人數據匱乏問題的努力可以概括為「靈巧性(dexterity) 」與「泛化性(generalization)」兩個維度。

④ 靈巧性反映在單一場景和任務較為固定情況下機器人可完成任務的難度;泛化性則研究機器人在新場景下執行新任務的能力;讓靈巧性和泛化性兼具是具身智能研究的終極目標。

2、對於靈巧性,陳博遠指出當前最流行的方向是模仿學習中的行為複製,它依靠人工採集關節動作數據,再用監督學習的方法訓練機器人,這些方法中的大多數需要給每個數據採集員配一台昂貴的機器人。

① 此類工作的問題是人工採集動作數據的效率低,成本高,因此 demo 中模型泛化能力有限。

② 如果要投入大量金錢用模仿學習的思路採集機器人大模型的數據,其成本高昂無法想像。(類比 Llama3 的指令微調用了一千萬條人工標註的數據,機器人數據採集更貴,且預訓練需要的數據是指令微調的千萬倍。

3、上海交大的盧策吾教授在 6 月初的一場訪談中強調了具身大模型當前關鍵問題是「數據魔咒」,並主張設計好模型框架,圍繞構建包含物理客觀事實和人類抽像概念理解的「世界模型」和穩健的執行技能兩點來壓縮數據訓練空間,從而緩解對數據量的需求。(詳見機器之心影片號:6 月 2 日「智者訪談」)

① 盧策吾教授認為(機器人動作)數據採集以後會變成一個單獨的學科,而具身智能的數據也存在許多研究方向。

② 由於具身智能具備更多「思想性」,對數據的要求也不同。做數據收集器(盧教授稱之為「數據母機 」)涉及軟硬件。選用什麼樣的框架,配合怎樣的數據格式,如何對齊不同來源的數據均是需要關注的問題。

4、銀河通用機器人創始人、北大 CGCS 助理教授王鶴博士在 7 月 4 日 WAIC 的主題論壇上指出,目前面向通用機器人的具身多模態大模型的局限在於數據來源有限、很難高頻輸出動作。(詳見機器之心影片號:7 月 4 日 2024 WAIC 人形機器人與具身智能發展論壇重播)。

數據「昂貴」和「難用」間要如何取捨? 硬件與數據間「雞生蛋還是蛋生雞的問題」要如何解決?

陳博遠在隨筆中將探索具身智能大模型所需數據的工作分為「靈巧性」和「泛化性」兩個維度,並指出在靈巧性方面,當前最流行的方向大多需要配備昂貴的機器人。而 Diffusion Policy 的論文作者一作遲宬也在近期的訪談中介紹了這類方法所面臨的「兩極分化」的問題。[2]

1、遲宬在訪談中指出,當前在使用人類遙控機器人(human in the loop data collection)的數據收集路線上存在兩種極端做法。

2、一種方法是使用現成的人類影片(如 Youtube 影片)作為數據源的極端。這類數據不涉及機器人硬件,且理論上大量存在,但問題在於從影片訓練的控制策略難以準確映射到現實機器人中。

① 現有研究環境中的機器人與人類物理形態非常不同,即便能夠從影片中提取人類動作,目前也沒有特別好的辦法將其映射到機器人身上。

② 從影片中提取人類動作本身也是很難的問題。當下的方法可以提取出看似合理的動作,但真正的精確操控往往需要達到毫米級別,而如何獲取如此精度的機器人動作仍是未解決的問題。

3、另一種方法是採用與最終機器人完全相同的機器人進行數據收集的極端。這種模式的優勢在於收集的數據不存在物理形態差異,確保數據收集和測試時的輸入輸出一致性,但會導致「雞生蛋還是蛋生雞的問題」。

① 「雞生蛋還是蛋生雞的問題」指當沒有好的數據集時難以造出好的機器人在實際環境中部署;而部署在實際環境的機器人就難以獲得優質數據。

4、遲宬所提到的「雞生蛋還是蛋生雞的問題」已經存在多年,包括他本人在內的研究者也在不斷探索新的解決方案。

① 遲宬曾在 2023 年底的一場訪談中分享了通過折中的方式解決上述極端情況的方法,而後在 2024 年 2 月發佈論文,提出了讓人手持低成本平行夾爪操作,從而採集數據的 UMI 方法。

② UCSD 的程旭欣博士則探索了另一種做法。他在 2024 年 7 月提出了基於 VR頭顯的 Open-Television遙操作系統,可支持不同 VR 硬件平台來映射接入任意一種機器人,通過隔空操作來採集數據。

③ 清華叉院的高陽博士團隊提出了 ATM 模型,繞開了以往影片預測方法對訓練數據的依賴,採用預測影片幀內任意點的未來軌跡為機器人提供演示,進而學習更穩健的視覺運動策略。(詳情請見 Week 27 期會員通訊)

採集數據全用機器人 or 全不用機器人,UMI 如何找到平衡?[3]

《Universal Manipulation Interface:In-The-Wild Robot Teaching Without In-The-Wild Robots》於 2024 年 2 月 15 日上傳 Arxiv,最新版更新於 3 月,現已被 RSS 2024 收錄。該論文的共同一作遲宬和遲宬和許臻佳均在哥倫比亞大學獲得博士學位,他們曾在桑治舒然組進行機器人操縱和感知相關的研究。

1、該工作提出了 UMI 通用操控接口,它是一種便攜、直觀、低成本的數據收集和策略學習框架。

2、UMI 的演示接口設計包括手腕安裝的相機、魚眼鏡頭、側鏡和 IMU 感知跟蹤,以及連續夾持器控制和基於運動學的數據過濾。

① UMI 採用手持 3D 打印平行夾持器,配有軟指和 GoPro 相機,用於捕捉動作和視覺信息。

② UMI 使用 155 度魚眼鏡頭增加視野範圍,提供足夠的視覺上下文,同時保持中心解像度。

③ UMI 通過側鏡創造隱式立體視覺,無須額外成本即可提供深度信息,同時利用 GoPro 內置 IMU 記錄數據,結合視覺跟蹤和慣性姿態約束,實現快速運動的精確跟蹤。

④接口最後會基於運動學的數據過濾,選擇適合不同機器人實施的有效軌跡。

3、研究者基於收集的數據訓練,採用 Diffusion Policy 訓練了一個視覺運動策略,該策略能夠處理一系列同步觀察(RGB 圖像、末端執行器姿態和夾持器寬度)並輸出一系列動作(末端執行器姿態和夾持器寬度)。

4、基於 UMI 訓練的模型在測試中表現優越,且具備一定泛化能力。

① 在四個真實世界的機器人任務(單臂、雙臂、動態和長視野的操控技能)中,模型均達到了 100%的成功率。

② 當在 Franka Emika FR2 機器人上部署相同的策略檢查點時,成功率為 90%。

③ 模型在野外數據集上訓練的模型在新環境和未見過的物體上分別達到了 70%和 75%的成功率,綜合成功率為 71.7%。

5、遲宬和許臻佳表示,UMI 的工作是希望能在「完全不使用機器人」和「使用完全一致的機器人」之間找到合適的平衡點。

6、UMI 的核心是一個物理 API,在包含與機器人足夠相似的物理形態的基礎上,不會限制於具體的機器人形態,且成本更低。其優勢具體可表現在三方面:

① 優勢之一在可移植性(Portability)。機器人需要運輸的問題會導致獲取多樣化環境數據成本高昂,UMI 的手持設備便於攜帶,可以快速在新環境中開始數據收集,簡化了獲取真實世界數據的過程。

② 優勢之二在物理形態的相似性。學術界常用的研究機器人通常具有特定的物理形態,UMI 的設計在這種考慮下,記錄的是夾爪的六維空間運動軌跡,而非具體的關節角度。這使 UMI 對機器人形態具備低關聯性,適用任何具有六個自由度的機器人。

③ 優勢之三在數據收集的直觀性。利用人類對夾子操作的直觀理解,UMI 可以更快地收集數據,且能更有效利用人類經驗。諸如在投擲方塊和轉動杯子的任務中,UMI 收集數據的速度是遙控操作機器人方式的 3 倍。

遙操作不新鮮,為什麼 Open-Television 用 VR 遙操采的數據更好用?[4]

2024 年 7 月的論文《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》提出了基於 VR 的沉浸式遙操作系統,解決了以往方法需要操作者靠近機器人和視角空間差異等問題。該論文的共同一作之一程旭欣是 UCSD 博士生,由王小龍教授指導。他也是 2023 年人形機器人全身控制的(Expressive Whole-Body Control for Humanoid Robots)和四足狗跑酷(Extreme Parkour with Legged Robots)的作者。

1、該工作提出的 Open-TeleVision 允許操作者以第一人稱的視角感知機器人環境,並通過動作映射實現對機器人的精確操控。其特點在於沉浸式 3D 視覺、活動頸部、高幀率、低延遲和高效能的遠程操作。

① 傳統遙操作需要構建與實際執行任務的機器人類似的硬件系統,成本較高。Open-television 通過適配不同的 VR 硬件平台和機器人,減少了硬件成本。

② 傳統方法中,操作人員看到的信息比機器人多,可能導致訓練策略時的信息差異。Open-television 通過仿生的攝像頭配置和活動頸部設計,提供了更自然的視覺體驗。