具身智能構型之爭:人形、靈巧手、雙足,誰是最終 C 位?

條條大路通羅馬,誰都可能成為贏家。

作者 | 賴文昕

編輯 | 陳彩嫻

上個月初,上海世界人工智能大會(WAIC 2024)展出人形機器人「十八金剛」引爆會場。一個月後,世界機器人大會(WRC 2024)又即將在北京拉開帷幕。

再回到 5 月,在國際頂級機器人學術會議(ICRA 2024)的機器人方陣中,參與的雙足人形機器人大多都來自中國企業。

2024 年似乎已成為「中國具身智能元年」——在大模型技術的加持下,一個足夠 sexy 的故事正在被敘述:長出「大腦」的人形機器人與科幻電影中通用機器人之間的差距正在縮短。

故事的書寫者們,已在具身智能領域內掀起一場諸神之戰。

首先下場的是一批因大模型爆發而誕生於高校的智能派選手。

高校教授們(特別是計算機視覺學者)紛紛邁入產業界開始創業,創立了如清華的星動紀元、星海圖,北大的銀河通用機器人,上海交通大學的穹徹智能、智元機器人等等具身智能公司。

除了來自高校實驗室外,還有的玩家則是脫胎於大廠,比如核心團隊來自騰訊 Robotics X 的星塵智能以及出自小鵬鵬行的眾擎機器人與九光智能。

此外,作為以本體、硬件見長的傳統派,優必選、宇樹、傅利葉智能、樂聚機器人等老牌機器人廠商也加入了戰局,開卷具身智能。

在這場沒有硝煙的戰爭中,具身智能玩家們共同面臨著一系列核心問題:人形是具身智能的終點嗎?靈巧手和雙足,哪個更重要?端到端和分層決策孰優孰劣?大腦和小腦誰的優先級更高?數據飛輪如何啟動?選擇哪些場景落地?

顯然,技術的突破與多樣性帶來了豐富的視角,卻也意味著具身智能領域目前還是一個沒有人絕對領先的比賽。玩家們各自為營,嘗試著不同的路徑和方法,在這場百家爭鳴的較量中,勝者尚不可知。

讓我們先來看看最外顯、直觀的第一道關卡——構型之爭。

1

操作 vs. 移動

在眾多與具身智能一起狂飆的子賽道中,人形機器人絕對是最火熱的那一個。

據不完全統計,2024 年上半年,國內人形機器人領域投融資活躍,共發生 13 起融資事件,累計吸金逾 20 億元人民幣。成立僅一年的銀河通用機器人,在 6 月甚至獲得超 7 億人民幣天使輪融資,估值達到數十億人民幣,被稱為「年度最大天使輪」。

一時間,似乎連資本也達成了共識——人形機器人就是實現具身智能的終極形態。

那麼,人形機器人,真的是可實現且必要的嗎?

簡單來說,人形機器人領域可劃分為三大類別:輪式機器人,以輪式驅動為核心,配備協作機器人手臂和靈巧手,突出觸覺傳感與手部操作能力,同時具備高效移動性;足式機器人,專注於腿部運動性能,手臂主要承擔平衡功能;全能型機器人,集成雙足、雙臂、雙手及多種感知系統,搭載 AI 技術,旨在開放式環境中執行多樣化任務,展現了高度的適應性和功能性。

不難發現,人形機器人這一構型可被具體拆解為核心是操作能力(manipulation)的「上半身」與重點在移動能力(locomotion)的「下半身」。

因全能型機器人的探索難度高、落地速度慢,大部分具身智能企業的創業路徑其實可以基於輪式和足式做出區分。

將研發精力傾注在雙臂操作能力上的上半身代表們基本很少選擇雙足,而是會搭配輪式底盤或輪足以滿足基礎的移動功能,如星塵智能 S1(輪式底盤+人形上身)、銀河通用 Galbot G1(左手吸盤、右手夾爪+輪式底盤的摺疊升降設計)、星海圖 R1(輪式雙臂仿人形機器人)等等。

銀河通用 Galbot G1銀河通用 Galbot G1

更重視移動能力的下半身玩家們則會優先解決雙足的問題,減少甚至省略對上半身手部的投入,以實現機器人的跑步、跳躍等高難度動作。比如,宇樹的全尺寸雙足人形機器人 H1(雙手為兩球體)、逐際動力的人形機器人CL-1(雙手為兩圓柱)和雙足機器人 P1(無上半身/機械臂)等等。

宇樹 H1宇樹 H1

「國內在機器人腿部和足部的研究曾經是一個焦點,部分是因為受到了波士頓動力等公司的影響。他們的機器人雖然在展示度上很高,但實際應用中,僅僅能跑能走是不夠的。相比之下,上肢的操作技能更為關鍵,尤其是在學習和執行操作任務的時候。」在中科大與比亞迪聯合培養的 AI 機器人方向博士後張岩如此說道。

5月,ICRA 2024 的現場也瞥見了一場從移動轉向操作、通向具身智能的範式轉變。

「參會時能看到現在大家都在研究操作,這已成為機器人研究者每天做得最多的一件事。」清華具身智能實驗室主任、星海圖聯創許華哲說,「讓機器人做後空翻等很多很酷的動作,當然在技術上意義重大,但是沒有解決我們的需求,而操作是解決需求的,因為我們每天都在用手幹各種各樣的事。」

ICRA 2024抓取與操作比賽ICRA 2024抓取與操作比賽

沒錯,大模型湧現的智能讓大家看到了通用機器人誕生與落地的曙光,其中最明顯的表現主要聚焦於對操作能力的重視。

以工業場景為例,目前較大的癥結點在於,讓智能化水平適配生產力的要求。畢竟,在效率和精確度優先的工廠中,在限定時間到達確定位置完成給定的任務優先級更高,對智能水平反而沒有要求。

「其實中間存在需求的差異,能組裝車輛的機器人無法開門,因為目前越智能的東西不確定性越高,特別是深度學習、神經網絡,難以保證輸出精度。」艾歐智能創始人陳相羽分享道。

「但核心還是在於操作的智能化程度不夠,以自然界類比,能使用手幹活的都是智能化水平非常高的哺乳動物,但基本上所有動物都會跑,移動是個基本技能。」

2

靈巧手的「指」數之爭

當上肢逐漸成為具身智能的焦點,再細分一下,決定上半身操作能力的,其實是對末端執行器的選擇。

儘管同樣認為操作能力比移動能力重要,輪式玩家們仍採取了不同的方案。

有的企業直接推出五指靈巧手,如戴盟機器人的 Sparky 1 配備基於光學觸覺傳感器的五指靈巧手;有的企業則先從二指夾爪、三指手出發,如星塵智能 S1 的雙機械臂搭配二指夾爪,銀河通用 G1 採用右夾爪和左吸盤組合,以及 UniX AI 家庭場景機器人 Wanda 的三指手 。

沒錯,在拐入「上半身」這個路口後,是否應該鑽研五指靈巧手,成為了擺在輪式玩家面前的第二個分岔路。

類比 L4 級自動駕駛,戴盟機器人決定從一開始就致力於將手部做到極致,再根據需求降維開發不同的產品,即當產品不需要高級技能時降低成本,減少自由度。於是,他們推出集成了視觸覺傳感器的五指靈巧手。

戴盟首席科學家王煜教授讀博時師從卡內基梅隆大學(CMU)時任機器人研究所所長 Matthew Thomas Mason 研發機器人手部,他解釋戴盟重視五指靈巧手的原因:「這其實和波士頓動力的理念是相似的,他們是將腿部做到極致,賦予了機器人強大的能力我們認為,只有通過這種方式,才能充分發揮機器人的潛力,並根據市場需求定義產品,同時控制好價格。」

有的企業則決定在使用技術難度更低、魯棒性更高的夾爪方案之餘,同步推進五指靈巧手的研發,比如創始人兼 CEO 為 00 後耶魯博士的 Uni X AI。

目前,UniX AI推出的人形機器人 Wanda 採取三指夾爪方案,可以適配夾起雞蛋、豆腐等需要精細力控的場景。

在 CEO 楊豐瑜看來,他們之所以會開展五指靈巧手的研發,是因為五指靈巧手具有更高的靈活性與功能性,能夠滿足在更加複雜場景中的使用需求,是未來末端執行器的技術發展趨勢。

五指靈巧手能夠完美複製人手功能,從而更像人手一樣對自然界中各式各樣的物體進行穩定、精準抓取。

多「指」同步研發的 UniX AI 意在為不同的場景和任務給予適配的末端執行器方案。

「我們自研的電動夾爪與和自研的五指靈巧手所定義的場景不同。電動夾爪技術難度低、魯棒性高,能夠滿足客戶在常規場景中使用;而五指靈巧手作為高性能、高靈活性末端執行器,可供客戶在特殊及複雜場景中使用,同時對提高機器人的柔性和易用性有著極為重要的作用。」

有趣的是,並非所有上半身玩家都讚同對五指靈巧手的投入。

一位專注雙臂服務機器人的業者認為,學術過分關注靈巧手的研究是機器人領域的一個誤區,二指夾爪已能完成大多數任務。

「達芬奇手術機器人是純粹的自動化機械,沒有靈巧手也能做精細操作、給葡萄皮縫針,說明是視覺策略領先,末端執行器足夠簡單。人的規劃能力極強,不是因為手的存在讓人類能完成複雜任務,複雜任務本質上跟末端執行器沒關係。」

3

輪式 vs. 足式

講完上半身的末端執行器,讓我們回到最初的那個分岔路口,看看通向下半身移動能力的那個方向。

簡單來說,人形機器人下半身的移動能力,主要在雙足和非雙足(輪式或輪足式)做出區分。

從 1973 年早稻田大學開發的世界上第一款人形機器人 WABOT-1,到 2000 年首次亮相的本田 ASIMO 機器人,再到波士頓動力 2016 年推出的 Atlas 機器人,人形機器人最受矚目的進展便集中在了雙足之上,即逐漸從只能「緩慢步行」的初級階段進化到能「跑酷」的高動態運動發展階段,開始具有極強的平衡性和越障能力,能夠完成高難度動作。

波士頓動力 Atlas波士頓動力 Atlas

來到具身智能時代,大模型技術的爆發使得非雙足玩家們聲量漸起。不少從業者認為,在當前技術條件下,雙足機器人在實用性、穩定性和商業價值方面不如輪式底盤,且開發成本高、週期長。他們更傾向於將資源和精力投入到機器人的上半身智能和操作能力上,以實現更快的技術突破和商業應用。

「在需求落地不明朗的時代下,具身智能機器人的核心競爭力在於操作能力而非行走能力,上半身的智能決策能力比下半身的移動性能更為關鍵。結合人形機器人和 AI 大模型,專注於上半身的開發,是更符合資源和能力的策略。」方舟源啟(原方舟無限)的創始人張鑫亮強調,「單純模仿如特斯拉等行業巨頭的做法不可行,應專注於擅長領域的關鍵技術開發。」

決定「先不懟人形」的星海圖也分享了類似的觀點,許華哲提出,「雙足的算法研究有其價值,但從商業落地和效益產生的角度來看,應優先考慮技術的實際應用。在室內環境中,除了台階外,雙足行走的優勢並不明顯,因此不必過分投入在腿部算法的開發上。」

雙足玩家們則選擇了另一個路徑,將移動能力視為人形機器人的基礎。

今年 3 月,逐際動力雙足機器人 P1 在深圳郊野的塘朗山公園進行了零樣本、無保護、全開放環境的實地測試,在野外環境中實現了徒步功能。

「在 P1 之前,市場上還沒有機器人具有這麼強的行走能力。而且它最大的特點是能提供在兩足結構下,六自由度的簡單接口和一個開發平台,讓足式機器人的研究人員能進行二次開發。」逐際動力 COO 張力介紹道。

緊接著,逐際動力還發佈了全尺寸人形機器人 CL-1,實現了從實時地形感知、步態規劃到全身控制的全棧閉環,能夠動態完成連續大負載搬運、上樓梯、下斜坡、室內外行走和往返跑步等複雜場景。

儘管雙方側重點不同,但需要強調的是,無論是操作能力與移動能力,還是靈巧手與雙足,它們都並非互斥的關係,只是通往具身智能這同一個終點的兩條路徑。

比如說,有的足式玩家也一樣具有攻克靈巧手的野心。

宇樹人形機器人的手部從 H1 的圓疙瘩變成了 G1 的三指靈巧手,可以舞棍、開可樂、砸核桃;智元此前發佈的雙足人形 demo 遠征 A1 配備了靈巧手 Skillhand。

星動紀元劃分了小星和小星 Max 兩款人形機器人。前者設計小巧,注重通用移動能力,適合戶外物流和巡檢任務,具有簡化的手部功能和較低成本;後者則搭載靈巧手,旨在代替成人執行更精細的操作,適用於工廠和家庭環境。緊接著,他們還發佈了集成了 12 個主動自由度和觸覺傳感技術的靈巧手 Xhand,能拿雞蛋還能擼貓。

而就在上個月底,眾擎機器人發佈雙足機器人 SA01,在產品短片的最後幾秒,顯示出眾擎也有進軍上半身、靈巧手的計劃。

眾擎的創始人趙同陽是小鵬鵬行前總裁,創業後他曾參觀過汽車工廠研究具身智能的落地場景,他發現,人對外唯一能產生價值的部位就是手,因為胳膊和腿代表移動能力,手才能進行精細化操作。

「機器人能真正進入工廠,不在於腿和機械臂的能力,而在於手的能力。機械臂的能力在很多年前就已突破,腿的能力在這幾年各家都有進展。一條腿或胳膊能放 6 個左右的自由度,但在手那麼小的空間,全自由度要放 15-20 多個,半自由度也有 6 個左右。手越精密,成本就越高,越容易壞,難點是在於兼顧靈活度和強度。」

4

人形機器人

如此看來,在具身智能時代,至少在商業落地層面,雙足人形機器人並非那個最高效的選擇。畢竟,能完成實際任務,已成為了現在對通用機器人的首要期待。

有商業服務機器人的從業者提出了顧慮,認為人形機器人很難進入 To C 的商業領域。

「正如機器人倫理學里的恐怖穀效應,不少人對人形還是有恐懼的,我們做的服務機器人越誇張越不像人,反而越受商家歡迎。」

還有從業者認為,具身智能的終局不會是單一形態的人形機器人。

具體而言,具身智能的構型需要通過任務場景加以區分,如果某個機器人的形態能滿足場景所需的物理完備性,就沒有必要再增加其他形態,否則反而會提高成本。

例如,在工廠等許多室內場景下,完成如觀察和提醒的任務,輪式機器人已足夠應對;而在需要適應複雜地形的巡檢任務中,則可能需要雙腿或四足機器人。

「形態不是最重要的,關鍵在於機器人是否配備了足夠智能的大腦和小腦,以適應不同形態的需求。」雅可比機器人的創始人邱迪聰想像道,「未來更可能會有各種形態的機器人,甚至是像小貓小狗的,人形只是其中之一。」

追求「一腦多形」的星海圖也主張在智能機器人設計中摒棄對全人形的盲目追求,應以場景為中心的產品開發策略,加速機器人技術的商業化進程,通過在現實世界中收集數據,來提升機器人智能水平,形成正向的飛輪效應。

支持多形態路線的,還有將「大腦」視為具身智能核心並以此為主打產品的玩家們。

比如,穹徹智能發佈的具身大腦 Noematrix Brain 能使實體機器人對無限自由度物體做出操作,如無需預建模即可摺疊雜亂衣物,以及執行不規則曲面任務,如刮鬍子和削黃瓜皮。在穹徹的計劃中,Noematrix Brain 將與各種類型的機器人本體、甚至工業設備都能有機結合。

同樣專注於開發「通用具身大腦」的還有有鹿機器人,他們也旨在為各類專業機器和人形機器人形態提供通用大腦。

最開始有鹿甚至打算僅以軟件形式進行銷售,但考慮到軟件的無形性,很難在前期讓客戶切實感受到智能性,轉而採取軟硬件結合的形式,推出通用具身大腦 Master 2000。「這不僅限適用於工業、清潔、物流等領域,如叉車和鏟車等,也適用於人形機器人,即插即用。」有鹿機器人介紹道,「具身智能並不局限在人形上。」

不過,儘管與其他構型相比,人形機器人的落地速度稍顯落後,卻依舊受到市場青睞。

據高工機器人產業研究所(GGII)分析,中國在人形機器人領域的年增長率預計將超過全球平均速度。2024 年中國的人形機器人市場規模將達到 21.58 億元人民幣,而到了 2030 年,這一數字有望飆升至近 380 億元人民幣。在 2024 至 2030 年間,該領域的復合年增長率(CAGR,每年平均增長率)預計會超過 61%,而銷量將從約 0.40 萬台激增至 27.12 萬台。

人形機器人賽道為什麼能加速「起飛」呢?

雷峰網從多位行業從業者與 VC 處獲得的共識是:他們認為,人形是機器人領域形態發展的最終目標;如果用自動駕駛的等級類比,即擁有高智能水平的人形機器人是 L4。

從商業化的角度來看,具身智能與自動駕駛的發展路徑也或有高度擬合。以 L2、L4 區分,若人形機器人是最終目標,那麼一部分業者也認為,具身智能時代的人形機器人可以分為 2 種路徑:

一種是 L2 級別的沿途下蛋,逐步孵化出衍生的商業化產品,並且機器人的軀體形態也逐漸從輪式、足式、雙臂、到全身等等;而另一種則是 L4 級的打法,企業從一開始就只做人形機器人,直接求解最難的問題。通過大規模融資來穿越技術的發展週期。

自動駕駛的商業化有三類機會:首先是車本身,即 L4 自動駕駛技術的機會;其次是應用場景,即 L2 級別自動駕駛的機遇;最後是傳感器、毫米波、智能座艙等供應鏈技術。

對具身智能來說,相似地,機器人從局部到全身整體的蛻變過程,也會帶來三類機遇:

首先是機器人本體的開發,企業若有條件在初期就推出人形,自然能搶奪市場先機,讓後來者很難分一杯羹;

其次是場景機會,目前機器人的應用場景相對較少,但這也為行業提供了探索和發展的空間;

接著是上下遊的機遇,上遊包括智算中心的建設、算力芯片和端側模型等賦能機器人的關鍵技術;下遊則涉及到各種傳感器、關節模組,它們相當於機器人的感官系統,包括視覺、觸覺和運動感知等等。

很顯然,在具身智能中,「上難度」的人形機器人代表著需要穿越週期的 L4,甚至是 L5。

在一個月前,英偉達 CEO 黃仁勳在 Computex 2024 中提出,與其他類型的機器人相比,與人類體型相似的人形機器人擁有大量的數據來訓練,這也是人形機器人會比其他類型的機器人更受歡迎的原因。

「大家一直在討論人形,以前問人形是不是機器人的終極形態,現在問是不是具身智能的終極形態。」艾歐智能創始人陳相羽說道,「這個世界由人創造,很多東西是為人設計的,所以會說人形是最好的形態。」

眾擎機器人 CEO 趙同陽認為,相對於其它機器人,人形作為終端,主要有三大優勢。一方面,人形具有到達全場景、全地形的適應能力,而且採用統一的標準化方案還有利於降低成本;另一方面,以具身智能為核心,雙臂加雙手操作能力能帶來巨大的生產力價值;最後,人形還符合人的審美,具有通用人工智能加持下善解人意的情緒價值。

「就像上帝、女媧造人,都是照著自己的形狀去設計,做出和自己一樣的東西。」

5

結語

具身智能時代的機器人,最終會擁有什麼樣的形態——這個問題的背後,歸根結底是人類創造者對機器人的想像力。

而無論是怎樣的想像,可預見的未來機器人或許都有類似的含義:一個在視覺、學習、決策等多維度擁有更高智能水平的機器人。一個新的物種,正在硬件與智能的交互中誕生。

為了在技術與商業落地上快人一步,具身智能玩家們在構型上對操作能力和移動能力各自做出取捨。整體而言,上肢的操作能力因最能顯現智能水平而被寄予厚望,逐漸成為行業焦點。人形機器人的必要性依舊備受討論,熱度不減,作為未來的象徵懸在終點線的另一側。

然而,在這場具身智能的諸神之戰中,構型作為「身體」,只是最外顯的的路徑抉擇差異。接下來,玩家們還需要面臨最核心的關卡:實現智能,攻克軟件與硬件的耦合。

為了攻克這一關卡,具身智能領域的不同團隊也有差異化思考,例如:技術路線上,是選擇端到端或者分層決策的「大小腦」?基於模型,還是基於學習更好?模仿學習與強化學習,哪一派更勝一籌?

關關難能否關關過,且看下回分解。