雲棲大會4位CEO激辯:人形機器人,何時來敲門?

「通用機器人一定要做成人形,而且是有兩條腿的人形。」

在圓桌討論的一開始,逐際動力創始人張巍就火藥味十足地定義了他眼中的人形機器人理想形態。自稱「先看腿」的張巍認為:人形機器人不是傳統機械臂公司的延續,它的本質就是要長出兩條腿來。通用的移動能力其實是不太需要雙臂的,只要弄成一個單臂就可以了。

不過有趣的是,逐際動力最新的人形機器人——CL-1採用的卻是雙臂設計。

而北大-銀河通用具身智能聯合實驗室主任王鶴則持有不同觀點,王鶴認為:相比雙足形態,將兩條腿併成一條的輪式能以最便宜的價格穩定落地。這是因為平地上,輪子是夠用的。而在零售商超和工廠場景的諸多動作都需要用到雙臂。

在9月19日,雲棲大會主題為《人形機器人的「圖靈時刻」》的圓桌對話現場,星動紀元創始人陳建宇、北大-銀河通用具身智能聯合實驗室主任王鶴、宇樹科技創始人王興興、逐際動力創始人張巍以及至頂科技CEO高飛,共同探討了人形機器人當下最受關注的幾個問題。

與路線高度統一的大模型行業不同,這些人形機器人公司的路線各不相同,他們旗幟鮮明地表明不同觀點,也讓我充分感受到人形機器人行業最有趣的地方:永遠不缺乏顛覆傳統的「暴論」和鮮活的非共識。

比如,在一眾人形機器人和大模型公司都在探索商業化路徑時,張巍反而認為:

要避免過早做商業化。

張巍舉了ChatGPT2.0的例子——在ChatGPT初期做一個超級應用,要打一堆補丁增加了部署和售後的很多成本,最終商業邏輯還是挺難跑通。關鍵點還是要看技術的開關何時打開。

而在衡量人形機器人技術水平的話題上,大家的想法終於收斂到了一個關鍵節點:

泛化。

「把一個機器人拉到它以前沒有見到的場景,只要簡單演示一下怎麼操作,它就可以很自然地做好了。」宇樹科技創始人王興興認為這種泛化的性質非常有價值。

那麼如何測試機器人有沒有達到一個真正的泛化性?

「在演示的過程中,你就給它搗亂,走的時候突然去踹一腳,突然給它下面擺很多不平的東西。它做操作抓取的時候,突然把這個東西給拿開。再看它還能不能很穩定的、很智能的去適應完成。」星動紀元創始人陳建宇給出了方法論。

這種測試方法,讓我想到了宇樹出圈的「王興興暴力測試機器人」場景。

和許多機器人公司相同,2022年表現驚豔的大語言模型,讓曾經遲疑的王興興看到了人形機器人的更多可能,於是很快發佈了兩款人形機器人。

這次大模型浪潮,也給具身智能帶來了新的機遇——「行業開始思考,怎麼樣去做機器人的Scaling  Law。」陳建宇這樣總結大模型帶來的啟發。

受到大模型技術的影響,機器人領域的發展經歷了從「規則驅動」到「算法驅動」再到「數據驅動」的跳變。

王興興表示,通用機器人尤其通用人形機器人算是目前大模型最好的落地載體。

在巨量的資金人才投入和技術的快速迭代下,大家對於未來仍然較為樂觀。

王鶴預測,從明年開始將會是商用的元年,銀河通用5年的目標則是在零售和工廠場景中達到1萬台。銀河通用向虎嗅展示了他們在展館現場佈置的零售場景,前來體驗的觀眾排出了10米的長隊,觀眾在iPad端下單後,銀河通用的GALBOT的通用機器人從貨架上拿到對應物品遞給觀眾。而這項技術已經達到了產業化的邊界。

                                        銀河智能展台排起了十米長隊  圖源:銀河智能                                                   銀河智能展台排起了十米長隊  圖源:銀河智能           

王興興認為,三年內相對通用性的人形機器人大概率會出現。5年後,可能會發生天翻地覆的變化。

在圓桌討論的最後環節,大家對一個問題卻一反常態地達成了共識,或許這能解釋這些人早早潛入人形機器人行業的原因。

——當被問道「人形機器人的圖靈時刻是否會到來」時,所有嘉賓都堅定地相信,這一時刻終會來臨。

以下為對話實錄,由虎嗅整理編輯:(在不改變原意的情況下,有刪減調整)

主持人:AI已經讓我們的信息有點真假難辨了,但目前AI還是基於文本,它不是物理世界的,所以我們需要討論一下人形機器人這樣的物理智能載體,它在大模型帶動下會發生什麼樣的變化,或者某一天我們也會迎來它的圖靈時刻?令我們難分真假,敲門的不知道是機器還是人,這一天是否會到來?我們圍繞這個話題請4位嘉賓交流。

我們第一輪問題討論的是初心,因為大家都是創業者,創業者初心是很重要的,你們初心就是產業的創新。第一個問題想問王興興,我知道宇樹已經創立很多年了,曾經一度你還反對過做人形機器人。但前兩年宇樹很快把人形機器人做出來了,所以我想問的是:什麼使你改變了態度,還是一開始你隱藏了意圖?

 王興興:對,三四年前有投資人問我,做不做人形機器人,我堅決反對做人形機器人。

原因也比較簡單,2009、2010年我大一時,就做過小的人形機器人。我發現,當前人類技術其實沒有辦法駕馭這麼複雜的機器人系統。一個機器人系統複雜到一定程度以後,就變成非人力可維護,做一些簡單事情可以,想要複雜或者泛用性,人類的技術沒辦法駕馭,所以就沒有做人形機器人。

但後來大家也知道,最近一波差不多從2016年開始,新的AI技術誕生了,並且2018年、2019年,在機器人AI上已經看到一些苗頭。在2022年時,大語言模型發展非常驚豔,我們就在2023年初開始正式做人形機器人。大家可以看到,雖然我們做人形機器人起步相對比較晚的,但到現在差不多一年半多時間,我們已經發佈過兩款人形機器人,而且目前取得的效果也非常驚豔。所以,在某種程度上,無論是硬件還是軟件的發展節奏,都超過我自己的預計。

主持人:第二個問題我想問一下張巍,我看到我們的定位寫的是我們是一個通用機器人公司,通用機器人一定要做成人形嗎?因為這個很有爭議,你怎麼看?

張巍:我覺得一定要做成人形,而且是有兩條腿的人形機器人。可能這個見仁見智,每個人觀點不一樣。

我簡單說一下我對通用機器人的理解,我首先覺得,機器人和AI,它的使命是不同的,AI是代替人來思考決策的,機器人本質上要代替人來運動的,所以它必須能動。大家看到的各式各樣的機器人非常多,它們本質上就在做兩件事情,一件事情就是要移動,另外一件事情就是操作。所謂的通用機器人,就是在這兩個能力上都能達到跟人一樣的環境適應能力和任務的泛化性。

值得一提的是,通用的移動能力其實是不太需要雙臂的,只要弄成一個單臂就可以了。但是通用的操作能力反而是需要雙腿的,不然你可能都沒法到人能夠到的地方去幹活。我覺得這一代AGI的發展,相比上一代最大的區別,是從專用到通用的一個變化。可是在大模型出來之前,我感覺通用這個詞是個貶義詞,感覺一說什麼通用就證明它是沒什麼用。

但是大模型出來以後,大家發現像以前我們這種在專業領域里搜數據、做專項任務的訓練方式是有很大局限性的,反而我們要忽略一下專項的能力,要先構建一個通用的基礎模型的能力,然後再在上面長出專用的能力,這才是系統化解決泛化性的一個關鍵。我覺得軟件算法的通用性靠大模型技術;機器人跟物理世界交互的這個通用性,靠人形機器人。這也是我們公司關注的賽道。

主持人:但是您剛才說的是有腿的,我不是挑事,我看到王鶴老師的官網上有機器人沒有腿的。我想問一下王鶴您對人形機器人怎麼理解,有什麼形態算人形?

王鶴:我們公司叫銀河通用,所以從建立的第一天,我們的目標就是要達成通用機器人。但是通用機器人有一個過程,它要先做到單一場景、多任務、可移動,然後再做到多場景、多任務,最後做到全場景,幾乎是全任務。在這個過程中,不同階段的形態,也有它最適合、最經濟、最穩定的載體。所以通用機器人這個萬億市場剛剛開局的時候,我們選擇了先從幾個場景裡頭的多任務做起:比如說在零售商超場景去上貨、下貨,在工廠里去抱箱子。

在這些場合,我們發現平地上,輪子是夠用的。並不能說我們沒有腿,我們是把兩隻腿並在了一起,這樣它能夠手碰到地,撿地面的東西。那為什麼要雙手呢?因為我們發現,抱箱子需要兩隻手,在超市裡頭一隻手拿籃子、一隻手拿貨,也是需要兩隻手。

所以,我們的形態目前是360度輪,雙腿併成一條腿,站直1.73米,最高可以夠到2.4米,蹲下來可以摸地,能以最便宜的價格、最穩定的機器人技術率先實現可以落地的場景。

主持人:我聽明白了,王鶴老師說也要有腿,但是對腿的定義不一樣。我問一下陳建宇,我們的定位當中也一個詞叫「具身智能和人形機器人」,大家討論的時候總是把兩個詞放到一塊兒,你怎麼看?

陳建宇:我覺得這是大家比較容易混淆的概念,雖然這兩個詞非常的相近,但是它們的側重點還是不太相同的。對於具身智能來說,我們主要的是關注智能性所謂軟的這個層面。但它對形態其實是要求不高的,可以是人形的、四足的、輪式的、機械臂的,甚至就是一個桌子、椅子,只要它能動,都可以給它賦予具身智能,它是在這一層面更廣泛的概念。

當然,人形機器人顧名思義,形態一定是人形的。當然它不僅僅是要研究人形機器人所對應的具身智能怎麼去做?同時我們也需要去研究它的本體怎麼去做?這裡面有很多的挑戰性,包括我們講人形機器人還會討論它的核心零部件、它的產業鏈、它的工程量產。

星動紀元同時非常重視具身智能和人形機器人這兩個層面,其實也是代表我們非常重視軟件和硬件的協同一體的發展。因為對我們人類來說,我們人腦和身體本身就是不可分割的,本身就是從小到大我們同時去發育起來的,所以我們也是秉承這個觀點,我們認為機器人的軟件和硬件也需要協同發展。

主持人:不只是腿的變化,其他的物件,能動的桌子、椅子也是一種具身智能。接下來我問第二輪問題,人形機器人現在很熱,很多人關心,有這種表演等等,大家都去看。但是不同的人看人形機器人他的角度不一樣。請各位聊聊,人形機器人怎麼看門道,它的技術含量到底體現在哪兒?如果我們去一個展會看到人形機器人你到底看哪個位置,會說這個東西有技術含量很大?

陳建宇:如果我們非常粗略的把人形機器人技術分成三大塊,就是大腦、小腦和本體。相對來說,這裡面最關鍵的,我個人認為是小腦的層面,因為它是最基礎的一個部分。如果只有一個本體和一個大腦,缺了小腦的話,只能成為會思考的一堆爛鐵。所以,它是承接大腦的你的思考、你的規劃,並調用我們這個硬件本體,真正能幫助我們到這個世界裡面幹活的。

而同時我個人認為,相比於其他幾個部分,現在人形機器人的小腦部分,反而是最薄弱的,同時也是技術的不確定性最高的,最沒有收斂的。雖然本體核心硬件的做法也非常難,但是我們可以借鑒很多產業,包括工業機器人、電動車的產業。受益於大語言模型,大腦的技術相對來說還挺強大的。但是對於小腦來說,我們發現大部分的機器人現在還是用的十幾年前、甚至幾十年前的工業機器人或者掃地機這一類的技術來去做。所以,這是局限的一個關鍵。

我們希望人形機器人的小腦,使它的雙腿能夠像人一樣的又穩又快又靈活,能夠幫助我們到達任何地方,我們希望它的雙手能夠幫助我們上的廳堂、下的廚房、進得工廠,什麼都能夠去幹,做非常靈巧的事情,這是我們希望的,但是現在其實沒達到。

回答剛才的問題,怎麼去鑒別?我們會看到各種各樣的一些demo存在。我覺得鑒別的點是,不管是行走還是操作有沒有達到一個真正的泛化性?比如說在演示的過程中,你就給它搗亂,走的時候突然去踹一腳,突然給它下面擺很多不平的東西。然後它做操作抓取的時候,突然把這個東西給拿開,或者給它搗一些亂。你看它還能不能很穩定的、很智能的去適應、去完成。

主持人:我擔心您說完之後,大家把線頭拉上了。王鶴老師,您怎麼看?

王鶴:銀河通用目前最關心的是機器人上半身的「手眼腦」協調,這裏有大腦、有小腦、有對本體的控制。首先是我們的泛化抓取技術,這項技術可以明了地展示何謂具身智能。泛化的意思是不管給我透明的、高光的、吸光的,各種材質,任意擺放的物體,機器人都能抓。此外,像抱箱子、拿藥盒,是完全靠視覺引導的泛化,貨架、地面等等都沒有任何二維碼或者標記,跟我們人類一樣,都是看圖去理解。談到跟大腦耦合,那就是我們說一句話,機器人直接零代碼部署。第一次見過這個任務,機器人就能夠操作,包括我們現在最前沿的技術,端到端的大模型。(屏幕上展示的)是我們在用宇樹的四足機器人去訓練和測試導航能力,我們說一句話,在完全沒見過的環境中,機器人就能夠沿著我們的命令不見圖的、只用影片作為輸入按照指令行走。

所以,我認為人形機器人的技術重要性可以從這兩個地方總結:一是它的泛化性到底有多強,是不是通向未來真正的通用;二是它能不能跟人之間能夠用自然語言來溝通,然後實現零代碼的部署。

主持人:不止能幹活,還能交流,興興怎麼看,你主要看哪個位置?

王興興:對人形機器人,大家還是希望有一個AI模型,無論是運動、操作都能做。當下,基本上大家分開的會多一些。比如說對於全身運動的話,我個人希望到明年,機器人能做非常複雜的全身運動表演之類的事情。當然,我們現在也做了一部分,但目前大部分動作還是單個做訓練的,不是全連在一起,而且每次訓練還是挺花時間和花人力的。如果能有一套全面的,比如說能做全身運動,只要給它看個影片,或者做一個簡單的演示,它完全能學會一個動作,這樣對於表演這個事情,就會有天翻地覆的變化。

另外,希望有更好的操作能力。比如操作一些簡單桌面的整理,或者做一些複雜的生產裝備,或者相對來說設計更複雜的推理事情,操作能力有更強的提升,或者真正解決生活中手臂操作相關的事情,都是非常有價值的。目前這兩部分,大家都已經取得了一定的進步,但離真正比較泛用性的還有一些距離。舉個例子,你把一個機器人拉到它以前沒有見到的場景,你只要簡單演示一下怎麼操作,它就可以很自然地,或者自我強化地做好了,我覺得這是非常有價值的。

主持人:如果你看到一個機器人,第一眼看哪個,眼光落到哪裡?

王興興:都可以看一下,個人的審美不太一樣!

主持人:張巍覺得呢?

張巍:看機器人門道,和幾位嘉賓一樣,就看兩個關鍵詞:泛化、通用,這是本次變革最關鍵的兩個詞。具體看哪兒,看腦還是手,我提供一個角度,咱們先看腿。因為人形機器人之所以是一個新的物種,它不是一個傳統機械臂公司的延續,它的本質就是要長出兩條腿來,我覺得腿是機器人有通用能力的基礎。看腿看什麼呢?主要看兩點:一個是腿有沒有完成本職的工作,地形的泛化能力;二是看它能否支撐雙臂完成全身協同通用的操作,這也是腿存在的重要價值。

我們的影片大家看到這個小的雙足機器人,它是沒有腳掌的,相當於人踩著高蹺,其實是很難平衡的,是我們用來測試AI算法能力的。大家可以看到機器人地形上適應能力和泛化能力基本達到了類人的能力,我個人踩著高蹺在山裡,你推我一把,我估計也會摔倒,這方面算是一個比較重要的進展。

另外,它在一定負載4公斤前提下全身協同的操作,這樣的展示,尤其有負載的情況下相對比較少的。主要是雙腿既要保持自身的平衡,同時要四肢協同發力來完成這樣大負載的操作。過程中還要動態通過腿,全身協調來調整重心,有一定的挑戰性。但這樣全身協同的操作任務,我覺得是區分人形機器人和固定雙臂機器人最重要的區別,也是我們比較關注的技術點。

主持人:我總結一下,幾位看法有一定一致性。

一,它不能認生,它去別的地方就認生,「社恐」這個事就不行,它必須是E型人格。

二,雙手和雙腳,四肢的作用很重要,移動和操作的控制是非常重要的兩個觀察切入點。

 接下來,我們已經討論完技術的點,大家肯定很關心幹活問題,因為之前兩輪討論時也提及到了,機器人到底什麼時候能幹活?幹活指的是進工廠,或者在商業場景,我們進家門了。我想請幾位專家聊一聊,從你們眼中看,人形機器人幹活的時間線是怎樣的?馬斯克很樂觀,馬斯克說大概2-3代以後100萬台出貨量,可能很多人會購買,你們有沒有一個時間點?因為這是一個公眾場合,我希望大家說的具體一點,無論對和錯,以後我們做媒體都有稿子寫了。

陳建宇:我覺得這個應用,包括落地也需要準確的定義,如果不是特別嚴苛的定義,不管是工業還是商用,甚至是家用,可能在一兩年時間就能初步簡單工作。根據羅渣斯創新擴散的模型,任何產業都有早期的使用者,他願意去嘗試、試錯,在產品還沒有特別完善的時候。我相信這兩年你們會看到各個行業會有早期的試用者。

如果真的大規模應用的話,進入家庭,它一定相對來說需要比較長的時間。因為對家庭來說,它是一個沒有邊界的泛化要求。從大規模應用發展一定是工業這種場景會更先進一些,因為它是有邊界的,可以人為製定一些規則,包括一些標準場景是怎麼樣的,你可以人為去控制它。在最終的機器人ChatGPT,或者它的「圖靈時刻」還沒有到來之前,我們能逐步應用起來。

同時第二個難點,對工業場景的話,你可以把它和人隔開,並且它做的事情相對比較固定一些,小腦取得一定進展之後,它就可以用起來了。在工廠里幹活不需要工人必須會做數學題,他能幹這道工序就可以了,但對人來說,它的要求就會高很多,同時也會引來安全性的問題。

王鶴:今天在雲棲大會的現場,我們銀河通用的機器人也展示了在零售場景的億應用,我剛剛看到同事給我們發來的圖片,有10米的長隊,觀眾在我們ipad端下單,銀河通用的GALBOT的通用機器人就給大家從貨架上拿你想要的東西遞給觀眾。像這樣的零售場景,主要是抓取和放置的東西,現在的技術已經達到了產業化的邊界。我們預測,從明年開始將會是商用的元年。5年,我們的目標是在零售和車廠的抱箱子達到1萬台;10年,我認為安全性可以達到家庭標準;15年,我預計可能會產生千萬乃至大千萬級別的市場。

王興興:我個人其實還是相對比較樂觀的,我覺得到明年,在一些公益場景,或者在固定場景做一些有商業價值的落地應用,像銀河通用這邊,基本上問題不大。我個人還是相對樂觀,我覺得3年左右,至少全球範圍內大概率會出現通用型的機器人AI。因為跟過去10年不一樣,現在整個機器人AI的人才、資金都是幾百倍甚至上千倍的巨量投入,所以整個時間進展會比較快。5年左右,可能會發生天翻地覆的變化。

張巍:我覺得幾位嘉賓都預測得非常好,我就不預測準確的時間點,我談談落地過程中的一些思考,我補充一下。

首先這個賽道,我認為用時間衡量它是比較難的一件事情,我管這個賽道的產業發展叫「事件驅動」,它更關鍵看AI技術的關鍵開關什麼時候能找到,而不是用具體時間衡量它。

我也是相對樂觀,只不過我們要避免過早做商業化。比如在大模型ChatGPT2.0、3.0的時候你要做一個超級應用,肯定要打一堆補丁。因為上一代人工智能和機器人落地過程中也遇到了很多挑戰,大家都調侃「人工智能等於智能不夠靠人工」,所以增加了部署和售後的很多成本,最終商業邏輯還是挺難跑通。所以我覺得不用太用時間衡量,關鍵是看技術的開關。

主持人:說到這兒,我再補充最後一輪問題,就是關於大模型和機器人之間的關係。大模型這個技術和背後的體系對於人形機器人的發展起到了什麼樣的影響?

張巍:非常大。因為我覺得機器人這一波的發展不是它自我革命,就是Agent發展所帶來的,所以發展是靠大模型技術和大模型技術背後的技術。

我說一個背後的思考,不說具體的應用。我覺得這幾年由於受到大模型技術的啟發,機器人領域的發展也經歷了從「規則驅動」到「算法驅動」再到「數據驅動」的跳變。以前可能看你有什麼算法,然後根據算法的需求來收數據、來解決問題。現在的思維變了,我們首先要看你有什麼數據、你有多少量的數據,然後你獲取新數據的方式和成本是怎麼樣的,這些數據的quality分佈是什麼樣的,這就直接決定了你採用什麼樣的算法做訓練,甚至也決定了你的訓練。所以我們公司有一個口號叫「軟件定義硬件,但數據定義軟件」,這是我們的思路。

王興興:我一直感覺通用機器人尤其通用人形機器人算是目前大模型最好的落地載體,它其實可以解決大模型目前落地場景的問題,所以我覺得兩個是非常好的組合關係。

王鶴:我覺得現在的通用機器人,我們雖然有一些技能,但幾乎都是分立的一些小模型。所以大模型賦能這些技能有幾步:第一步是大模型可以作為一個Agent來調用這些API進行長程的任務規劃,第二步是大模型可以作為一個Monitor,它看小模型執行過程中有沒有出任何錯誤,及時去終止或者調用別的技能來挽救這些錯誤,比如藥盒掉到地上了,它立馬說「你得給它撿起來」;第三步則是最有想像力的端到端,Vision、Language、Action,把動作作為大模型輸出的模態,像自動駕駛一樣,我們實現一個把通用感知、通用規劃或通用執行融為一體的大模型。

陳建宇:我認為大模型帶給我們最重要的啟發,就是告訴我們Scaling  Law的存在。大家都說通用機器人,必須要有它所匹配的通用智能,所以大模型啟發我們去思考,包括引導我們去思考怎麼樣去做機器人的Scaling  Law。同時,它也帶給我們一些語言模型領域的技術,比如說Transformer的架構,比如說Predict  next Token的算法技術,包括你怎麼Scaling這樣的數據和這樣的算力。當然這些也還是不夠的,畢竟我們的機器人需要在物理世界去交互、去做事情,去理解整個物理世界。所以在算法,模型、數據層面,都有很多不同需要我們探索。

主持人:剛剛您談到算力和數據,我想追問一個問題。現在合成的、網絡的、仿真數據的比例是什麼情況?算力的匹配是怎樣的,是雲端還是本地的?

陳建宇:現在應該還沒有數據的比例,其實還沒有達到一個完全收斂的狀態、固定一定是多少的比例。比如以我們來說,我們是根據機器人的特性。比如我們的運動、控制、行走的數據,我們幾乎是純粹的仿真裡面的數據。但是我們對操作來說,我們目前又幾乎是純粹的真實世界獲取的數據,這是根據它的仿真難度、數據獲取的難度,以及你的算法所匹配的程度來定的,未來可能會有一些改變。

主持人:算力在雲端還是本地,這個分配是什麼樣的?

陳建宇:我認為這個跟大模型不一樣,大模型的算力可以完全在雲端,但是對於機器人來說,你必須要有本地的算力。因為它對延時或者斷網零容忍,會對物理世界造成嚴重的影響。所以說大體一分的話,如果你分大腦和小腦,簡單一分,小腦在本地,大腦在雲端。

主持人:是雲端協同的設計。我們最後還有1分鐘時間,大家覺得人形機器人能變成真假難分嗎?

陳建宇:能。

王鶴:一定能。

王興興:能。

張巍:一定和必須能。

Tips:我是虎嗅科技醫療組的王欣,關注AI及創投領域,行業人士交流可加微信:13206438539,請註明身份。