揭秘人形機器人訓練營:24小時端茶、煎蛋、拖地……
機器人巡邏、扭秧歌、煎蛋、進廠打工……今年春晚之後,人形機器人從科幻片場走入現實,一夜成為「賽博頂流」。宇樹Unitree因太火爆遭斷貨下架,多家機器人公司宣佈加速出貨,業界宣佈「2025年有望成為機器人量產元年」。

上海浦東的智元數據集采廠,機器人正在跟人類「學做家務」

與此同時,全國多地出台新政支持具身智能機器人的產業發展。在上海浦東,全國首個「人形機器人訓練場」啟用,通過收集、整理機器人的動作捕捉數據,給機器人造出更好的「超級大腦」。

姚卯青本科畢業於清華大學,博士畢業於美國南加州大學,曾經是Google和Oracle高級工程師,現在為智元合夥人、具身業務部總裁
國內的人形機器人「進化」到哪一步了?機器人成為家庭標配,還有多遠?等機器人養老,現實嗎?
3月初,一條採訪了前Google高級工程師、智元機器人合夥人姚卯青,姚卯青預測:「人形機器人走進家庭,還需5年左右時間,價格最終大概能降到10萬元以內。」
同時,更多的安全和倫理問題也在未來等著我們……
進化中的人形機器人:光會哄人可不行,得能端茶倒水

兩年前,活力女孩「Dexie」空降新加坡的一家養老院,宣佈要成為老年人的新型養老搭子。
Dexie是一個人形機器人,顏值在線,有柔軟觸感的矽膠皮膚,還會把嘴巴嘟成圓圓的「O」字。每天早晨,它都會坐著帶領老人們做健身操,一邊唱歌,一邊拍手。
但其他時間里,Dexie更像一個「高位截癱」的大號娃娃,只能靠身下的「輪椅」緩緩移動,既無法直立行走,也不能在行動上給予老人幫助。

主打陪伴,一直是過去10年來人形機器人的招牌賣點。2015年,日本軟銀推出主打「類人機器人Pepper,Pepper身高1米2,有靈動的大眼睛、帶獨立關節的5指,腳部是一個能夠平穩移動的輪盤,可以識別人類的情緒、和人類對話,擅長眨眼賣萌。問世之初,Pepper曾在一分鐘內被搶購一空,很多公司、銀行、餐廳都請它當人氣迎賓。
但在2020年夏天,Pepper宣佈停產。上市一段時間後,Pepper的弱點暴露——可愛但不中用。雖然Pepper擁有看似靈活的手指,但實際的抓握能力很弱,甚至很難平穩地端送一杯水,除了四處移動,跟大家甜言蜜語,很難指望它承擔什麼其他重任。
這是人形機器人曾經不被看好的原因:一個只會給足情緒價值的「社交達人」。

另一方面,人形機器人的研發極度燒錢,不確定性很高、回報週期漫長,初代的人形機器人公司大多都陷入了財政危機,其中就包括於2013年推出過「雙足機器人天花板」Atlas的美國公司波士頓動力。
直到2022年底,ChatGPT的橫空出世讓AI技術發生了質的飛躍,這才給沉寂許久的人形機器人行業重新點燃了希望。
嵌入大語言模型後,機器人有了更強的自然語言與推理能力,不再只是按部就班地執行指令,而是能夠理解人類意圖,像人一樣思考和決策。

很快,國內的人形機器人企業開始密集生長。智元機器人、銀河通用等新興創業公司成立,小米、蔚來、小鵬等車企紛紛入局,宇樹科技也在這一階段從「機械狗」轉向了「機器人」的研發。
由於整個行業仍在初期探索階段,所以各家公司的技術路線五花八門。有的企業是「造身派」,關注機器人本體,包括電機、傳感器、控製器、減速機等硬件;有的公司是「造腦派」,把更多的精力投入在AI模型、軟件算法上。

機器人長出雙腿雙手,有了「人樣」還遠遠不夠。作為一種通用形態,一個合格的人形機器人必須能夠勝任各種環境里的各種任務。既不能只是會跳舞的耍寶戲精,也不能只是高情商的對話音箱。
機器人要去完成一件任務,需要的是交互操作的能力,姚卯青告訴一條:「要有對環境的理解和預測,對(空間)幾何的一些理解規劃。」
想像這樣一個場景:小朋友在客廳玩耍打鬧,人形機器人需要把煮好的雞蛋和米粥端到餐桌上,避免把湯汁灑在到處走動的小朋友身上,還要把淩亂的餐桌整理出放菜的空間,最後為孩子們盛粥、剝雞蛋。

這套動作背後,需要機器人能夠感知環境,能預判熊孩子的跑動軌跡;也需要做任務規劃,端菜時同步餐桌整理;還需要恰當好處的力度控制,剝開雞蛋殼卻不會把雞蛋捏碎。
於是,「具身智能」的概念隨即被提出——人形機器人要用身體感知世界、認識世界、與環境互動。
要獲得這種能力,對機器人的AI能力和硬件基礎都提出了極高的要求。機器人不僅需要發達的「神經」(觸覺傳感器),也需要一個能調整重心的腳踝(動態平衡算法),以及能從摔跤中總結經驗的數字大腦(強化學習的能力)。
而這也意味著,我們期待人形機器人用數年時間追趕人類用上百萬年進化出的複雜智能。
國內最大的機器人「培訓學校」:跟人類學做家務

在上海浦東,一個3000平米的機器人「訓練基地」里,一百多台人形機器人日日夜夜地接受超高強度的集訓。
這些機器人像懵懂的人類幼仔一樣,通過觸摸、試錯感知物理世界:在臥室區疊褲子、燙衣服,在廚房炒菜、榨果汁、刷盤子,在客廳插花、拖地板、整理雜亂的桌面……每個機器人身邊都配備了一名「導師」——頭戴VR設備的數據採集員,他們用手柄遠程示範動作,給機器人示範動作,抓、握、提、拉、倒,一個小動作要不厭其煩地重覆200遍左右。

這是智元的數據採集超級工廠,也是全球唯二規模化的機器人數據採集中心。整個工廠分為5大類場景:家居、餐廳、工業、商超和辦公,總共有100位採集員分日班和夜班教學,此外,還有30多位數據審核員和10位數據運營管理人員,確保數據的有效性。
一天下來,工廠能夠生產3萬到5萬條真機數據——即通過機器人實操採集到的環境感知、動作軌跡、力學反饋等包含多維度信息的數據。
有時候,機器人也會「開小差」,水壺沒拿穩、炒菜調料撒多了、花瓶打翻了……數采員就會耐性地給它們糾錯。

這些機器人訓練成果如何?姚卯青介紹:「現在仍處在比較早期的階段,一個機器人在它見過的桌面上倒水,有90%左右的成功率。」對於它沒見過的場景和物品,機器人可能就會措手不及。另外,這些動作主要還是一些單點的能力,還不太能串起來多種動作。
為了讓機器人擁有在不同場景里「舉一反三」的泛化能力,採集員要不斷地調試環境,比如改變光線和光源位置,倒水時更換不同造型的水杯,調整物體擺放的位置等等。
數據採集,是構建機器人「AI能力」(「腦力」)的基礎工程。通過收集視覺、觸覺、關節運動軌跡等多維度物理交互數據,然後再給多模態大模型提供認知養料,最終才能被部署到機器人本體,完成從數字認知到物理執行的閉環進化。

但數據匱乏,是具身智能機器人發展道路上的最大瓶頸。
姚卯青坦言:「機器人的數據太少了,很難跟大語言模型的數量級去相提並論。」究其原因,是因為大語言模型的訓練依賴的是互聯網上的海量文本,而具身智能機器人依賴的是真實世界的物理交互數據。比如機器人每學倒一次水,都需要採集員記錄手臂軌跡、握力變化、水溫觸感等多維度信息。

這也意味著真機數據的集采成本高昂。英偉達研究中心的工作人員曾對媒體透露,光讓特斯拉的人形機器人「擎天柱」把電池放進盒子這一個動作,就需要40人的團隊進行數據集采;如果讓擎天柱具備真正的「下廠工作」的能力,需要數百萬小時的數據訓練,花費至少上億美元。
為瞭解決這個困境,全球有多家人形機器人公司開源了自己的數據集,其中就包括國內的智元、傅利葉等公司,希望能夠推動行業內的技術共享。

除了「1V1的人類教學」,還有一種性價比更高的培訓方式也在同步進行——通過給機器人「投喂」大量的人類教學影片和圖文,幫助它們理解人類的動作操作。
今年3月,智元機器人發佈了全國首個「通用具身基座大模型」,通過分析人類家務影片,比如觀看短影片網站上的烹飪教程,就可以讓機器人在還未進行實操(零樣本)的情況下,也能推理出一些做飯的簡單常識,比如「水燒開會冒泡」「土豆需要削皮」等等。
人形機器人養老?「現在還停留在概念階段」

機器人進家的最大難點在於什麼?
市面上,一些人形機器人的「下半身」發育已經相對成熟,可以跑跳、爬坡、紮馬步,音樂響起,還能來段廣場舞、做後空翻。但這些任務,更像是逢年過節拉家裡的小朋友展示才藝,離真正的日常應用還有十萬八千里。
「上半身」,才是進家幹活的關鍵。姚卯青拆解了上半身操作的兩個難點:對動作的精度要求很高、和物體有複雜的交互。「像做飯、倒水、端茶、開門,有千百種的操作種類,而且上半身的軌跡會非常複雜。而下半身,和物體沒有複雜交互,無外乎就是邁步子這樣一種形態。」

很多動作,對人類輕而易舉,但對機器人來說卻難如登天。「比如插USB這個小動作,它對動作的精度要求非常高,二是沒法只依賴視覺的輸入就去判斷是否成功」,姚卯青解釋,人在插USB、充電器的時候,經常要反復嘗試,機器人同樣,「它還需要很多力矩的反饋來去實現這種閉環控制。」
再比如簡單的揉麵糰、切菜,也對機器人手部的靈活和柔韌性提出了極高的要求。手是人體關節最集中、感覺最集中的區域之一,也是人形機器人最難模擬的部位。「很多機器人只有一個兩指的夾爪,只能像一雙筷子一樣去夾取東西。」

目前有一些機器人已經擁有了靈巧手,但它的自由度跟人的手還是相差甚遠。「人的手應該有20多個自由度,現在市面上量產的機械手很多隻有6、7個。」
成本也是大問題,在手上每增加一個自由度,就要加多加塞一套電機、編碼器和傳動裝置,一雙「像人的手」往往價格不菲,可高達10萬元一隻。此外,靈巧手很重,「現在一隻手可能要一公斤多,怎麼才能把它做到小型化、輕量化,這個也比較難。」
近一年來,社交媒體上陸續出現了「養老人形機器人」的風聲,但姚卯青認為,這些產品大多都還停留在概念階段。

人形機器人養老,最大的弱點就是「體力不支」,即機器人的載重能力不達標。當下,人形機器人的手臂負重通常在5公斤左右,根本無法像人類護工一樣給老人提供基礎的翻身、看護服務,更別說安全準確地拖動一位100多斤的成年人。
「某些專用形態的機器人,可以做到比較大的力矩,因為可以犧牲掉很多構型,包括成本,還有體積上的限制。」
比如,2024年,美國史丹福大學聯合Google推出的「保姆機器人」Mobile ALOHA,能做飯、洗衣、擦玻璃、澆花,但外形上,和「人」沾不上半點關係,更像是兩隻能夠移動的機械臂。但即使如此,它的成本也要高達3.2萬美元。
人形機器人已經「組團”進廠,但進家還需至少5年

最近,多家機器人公司開始了量產試水階段。去年下半年,傅利葉的雙足人形機器人GR-1交付超過100台;今年1月,智元下線了1000台人形機器人。此外,國內的30多家企業已經宣佈將於今年進行商業化量產,主要針對B端。
但距離年產幾十萬台的量產規模,還要3到5年。姚卯青預測:「進入家庭,需要5年,最終大概能降到10萬元以內。」
此外,一台人形機器人的成本依舊高昂。特斯拉擎天柱,僅材料費就高達4.13萬美元一台(約合人民幣29.9萬);優必選的Walker系列在2021年至2023年的銷售均價為598萬元;宇樹「會扭秧歌」的Unitree G1雖然價格一度低達9.9萬元,但有不少買家在網上「抽水」,「更像是一個動作絲滑的大號玩具。」
除了成本,還有供應鏈問題。能夠生產高精度、高性能零部件的廠商數量依然有限,「現在量產過程中的難點(之一)是供應鏈不是很成熟,所以還很難做到大規模下的高良率、一致性等等。」

在進入家庭之前,工業場景是人形機器人的應用第一站。
2024年,全球多家公司的人形機器人率先開始「進廠擰螺絲」。這些機器人從最簡單的搬運、分揀任務開始練習,在不同場景里試錯,一步步累積經驗,然後再「上手」更複雜、更精密的操作任務。
由OpenAI投資的、來自矽谷的Figure 02已經可以每天工作20小時,成為機器人屆的「卷王」;來自深圳的優必選Walker S1 批量進入5G智慧工廠,能夠和其他的機器人搭子團隊合作;樂聚機器人的「夸父」也紮入江浙滬的多家工廠里,進行驗證測試。
不過,流水線更像是機器人的「新手村」,家庭空間才是「地獄難度」的考核。工業環境下,機器人的工作高度重覆,場景相對單一固定。但家庭環境里,「人」是最大的不確定因素,機器人撞上車間的貨物沒有大礙,但是不小心傷到人就會後果慘重。

這對機器人的安全性提出了極高的要求。
「現在普遍來講,全尺寸1米7的人形機器人整機能做到這種50公斤左右,算是一個比較不錯的水平。但一個100多斤的機器人摔倒了,其實很難一個人去把它扶起來,而且很可能把地板砸一個洞。」姚卯青告訴我們。
機械臂的力度堪比泰臣,也是行業普遍的擔憂。2022年,在莫斯科的一場國際象棋比賽上,一名7歲的男孩因為搶先一步出棋,被機器人對手夾住了手指,造成指骨骨折。機械臂自重大、速度快,殺傷力不可低估。

因此,給機器人「減重」(輕量化)是未來機器人量產的必經之路,更輕的自重也可以提升機器人的動作準確性。
另一個「安全紅燈」來自於電池。目前人形機器人主流使用的鋰電池,耗電量很大,續航時間短,大多隻能持續2小時左右。春晚的舞台上,機器人表演結束後,還是需要被舞者扶著脖子下台,跳完舞累趴下的情況也常有發生。
當人與人形機器人共居的那天接近,更多的倫理問題也會湧現——機器人究竟是家庭一員還是只是一個工具?如何保證機器人的數據安全,避免泄露住戶隱私?安全責任應該如何界定?
也許就像汽車普及前需要交通法一樣,在迎接「人形機器人進家」之前,我們還需要新的文明規則和倫理框架。未來,仍有漫漫長路。
本文來自微信公眾號「一條」(ID:yitiaotv),編輯:韓嘉琪,責編:陳子文,36氪經授權發佈。