解鎖具身 Scaling Law 需要先搞掂異構數據嗎?

機器之心PRO · 會員通訊 Week 41

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. 解鎖具身 Scaling Law 需要先搞掂異構數據嗎?

具身智能數據問題主要是異構問題?處理異構數據是解鎖 Scaling Law 的必要不充分條件?哪些方法有希望解決異構數據問題?具身智能了數據還有哪些挑戰?…

2. OpenAI 已破解多數據中心分佈式訓練?美科技巨頭比拚 AI 基礎設施能力

為什麼美科技巨頭們都在自建 AI 數據中心?為什麼多數據中心訓練及液冷技術的突破成為新趨勢?各家科技巨頭的 AI 基礎設施佈局情況如何?誰更強?微軟和 OpenAI 已經實現多數據中心分佈式訓練了??…

3. Alexandr Wang:數據是新一代 AI 的發展核心

如何理解 Wang 提出的 AI 發展三大支柱?Wang 認為,語言模型開發進入第三階段的標誌是什麼?如何獲取用於語言模型訓練的高質量數據?Scale AI 下一步業務方向是什麼?…

…本期完整版通訊含 3 項專題解讀 + 29 項本週 AI & Robotics 賽道要事速遞,其中技術方面 12 項,國內方面 6 項,國外方面 11 項。

本期通訊總計 26710 字,可免費試讀至 9% 

 消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元) 

要事解讀① LLM 之後,AI 的下個關鍵詞會是 LWM 嗎?

引言:數據匱乏是具身智能研究長期面臨的問題之一。在機器人數據種類和模態繁多的環境下,許多工作開始關注具身大模型對異構數據集和任務的處理能力,以求得到更通用的模型,乃至解鎖具身智能領域的 Scaling Law。

異構的形態和任務是具身智能數據問題的大瓶頸?

清華叉院助理教授、博導趙行曾在訪談中指出,在嘗試使用 AI 技術開發機器人時,我們面臨的最大挑戰是缺乏一個在泛化性和通用性上表現出色的高性能模型[17] 。業內許多工作嘗試改進/調整模型架構、學習策略和數據類型等方式探求這種 Foundation Model。近期的部分工作顯示出機器人數據的異構特質似乎是一個重要問題。

1、具身智能的目標是使機器人能夠通過感知-運動回路(perception-action loop),使用物理實體來感知和建模環境,根據任務目標和實體能力進行規劃和決策,最後使用實體的運動能力來完成任務。

2、構建通用且泛化的具身智能體十分困難,伴隨大模型技術的發展,大模型驅動的具身智能近期業界的研究重點,其主要分為兩條路徑:一是端到端訓練一套具身大模型;二是基於現有的 LLM 或 VLM 的訓練具身份層模型。[7]

① 在 Scaling Law 的鼓勵下,許多研究者相信,只要有足夠多的高質量機器人數據,機器人大模型實現接近通用的泛化性將是必然。但如何獲取充足的機器人數據的問題仍未得到妥善解決。

② 具身份層模型通過不同的模型來執行感知、決策、控制,實現難度相對較低,但難點在於不同步驟間的融合和一致性難以處理。

3、為了構建具身智能體在決策、導航、控制等任務中的策略,往往需要為每個機器人、任務和環境收集特定數據,而這些學到的策略往往無法超越這些特定設置。

①  MIT 博士生陳博遠此前在一篇文章中將業界解決機器人數據匱乏問題的努力概括為「靈巧性(dexterity) 」與「泛化性(generalization)」兩個維度。前者反映單一場景和任務較為固定情況下機器人可完成任務的難度;後者則研究機器人在新場景下執行新任務的能力。[8]

3、針對機器人數據匱乏的問題,許多工作嘗試利用人類影片、動捕、遙操、仿真等方式來訓練機器人策略,也有部分工作開源了大規模的機器人數據集,但這些這些數據的異質性帶來了新的挑戰。

① 導致機器人數據異質性的原因之一在於本體差異。不同的機器人是不同硬件上的物理實現,包括自由度、末端執行器、運動控製器和工作空間配置,這些差異都是為了特定應用的需求而構建。

②  另一種常見異質性於視覺層面。機器人通常配備有不同的相機傳感器,安裝在不同的位置(如手腕和/或第三人稱視角),並且由於環境和任務的不同,每個機器人的視覺外觀差異巨大。

4、在現有的機器人數據集和任務存在異構特質的情況下,具身智能領域當前的一大問題在於,如何利用異構的機器人數據進行預訓練,以建立更具泛化能力的機器人基礎模型。

必要不充分條件?用好異構數據對解鎖具身智能的 scaling law 幫助大嗎?

Scaling Law 是當下 LLM 突破和發展的重要經驗性發現,但大模型驅動的具身智能尚未實現它的「ChatGPT 時刻」。許多研究者曾分享過對具身智能的 Scaling Law 的思考和見解。綜合來看,如果能解決機器人數據的異構特質的局限,具身智能研究將得以利用更廣泛的數據集來訓練模型,成為推動具身智能 Scaling Law 發掘的必要不充分條件。

1、具身智能在實體中融合了視覺、語言、決策等多方面的技術來提升智能體的通用和泛化性,目前 LLM/VLM 所使用的數據尚不能滿足具身智能研究所需的物理世界規律,這也導致了 LLM 的 Scaling Law 無法直接複製至具身智能。

2、穹徹智能聯創、上海交通大學教授盧策吾在 WAIC2024 的演講中指出,即便邏輯成立,將 LLM 的 Scaling Law 複製到具身智能仍存在數據獲取難度層級不同的瓶頸。他提出的「兩級火箭大模型」理論和低成本數據獲取強調了對不同形態的數據的使用,以及具身大模型的兩級設計,進而讓模型獲得一種 Scaling Law by Skill。[9]

① 「兩級火箭大模型」指穹徹智能開發的實體世界大模型和機器人行為大模型,前者讓機器人訓練掌握常識性的、低維的操作無力表徵,後者充分耦合操作無力啊嘗試表徵和實體的高進度力反饋能力,兩者端到端聯合訓練可以大幅減少數據量需求。

② 訓練兩種大模型需要低成本、規模化的數據獲取方案,這裏涉及物體操作結構數據、多力位混合的操作數據等類型,以及遙操、仿真和其他組合式的數據方案。

③ 盧策吾表示,其團隊由此開發的穹徹具身大腦 Noematrix Brain 所涵蓋的原子技能庫 AnySkill 可以通過推進機器人基礎技能的穩健性和通用性至 99.X%,進而產生能力躍遷,實現 Scaling Law by skill。

2、清華叉院助理教授和具身智能實驗室負責人許華哲同樣在一場談話中強調處理好異構數據將有希望解鎖機器人的 Foundatin Model。[10]

① 他指出,機器人的 Foundation Model 是值得探索的道路,但機器人數據的異構特質使得將這些數據融合到一個模型中非常困難。一旦這個問題得到解決,機器人的 Foundation Model 就不遠了。

3、相較於處理好採集到的異構的機器人數據的工作,北大 EPIC Lab 負責人、銀河通用創始人王鶴在 WAIC2024 分享中分享了他對具身智能的 Scaling Law 的看法,即銀河通用團隊所選擇的仿真數據路線,繞開了異構數據的難點。

① 根據介紹,王鶴及團隊利用合成數據克服了物理不一樣、控制不一樣和視覺感知不一樣等問題,解鎖了「想要什麼就有什麼,想要多少就有多少」。進而實現完全靠合成數據,通過視覺閉環反饋,實現泛化操作的大遷移。

② 王鶴分享了他觀察到的具身智能的 Scaling Law,「當用 10 億數據的時候,在仿真環境里進行測試,能夠得到 86%的成功率;但如果只用 10 萬數據的話,只有 58%的成功率」。其團隊由此訓練的端到端大模型可以做到比Google RT2 更高精度的機器人操作。

哪些方法可以解決具身智能研究中極為異構的數據集和任務

加州大學伯克利分校電氣工程與計算機科學系助理教授 Sergey Levine 在 2024 年發佈的工作中嘗試了許多角度來解決具身智能數據匱乏問題,同時有不少工作探索了 Cross-Embodiment,嘗試用單一的策略或模型來控制不同的機器人。MIT CSAIL 的博士生王理睿一直致力於研究能夠隨著異類數據進行擴展的「艦隊學習」(fleet learning)。他導師是 Russ Tedrake 教授,並與何凱明教授有密切合作。他近期的四項工作則從不同的角度去處理機器人數據的異構特質。