王堅對話波士頓動力創始人雷伯特：機器人進家庭是最後一步，至少還需10年｜2024 T-EDGE

12月6日-7日，2024 T-EDGE創新大會暨鈦媒體財經年會在北京市大興區舉辦，以「ALL-in on Globalization ，ALL-in on AI」為主題，彙聚全球科技和商業領導者，共同探討人工智能對全球各行業的巨大影響，以及企業全球化增長新格局新趨勢。作為鈦媒體集團每年年終舉辦的科技和財經領域的頂級盛會，T-EDGE一直代表了鈦媒體在科技與經濟賽前分析性，以及推動國際創新交流上的高質量追求。

12月7日T-EDGE 全球AI論壇：All-in On AI會議上，人工智能研究所執行董事、波士頓動力機器人創始人馬克·雷伯特（Marc Raibert），中國工程院院士、之江實驗室主任、阿里雲創始人王堅，圍繞機器人領域的發展與 AI 賦能機器人應用等話題展開深度對話。

這是在國內中美AI與機器人領域頂尖創新者的首次探討交流，在當前變局環境下極為難得。

今年75歲的雷伯特，是Boston Dynamics（波士頓動力機器人）創始人。在此之前，他曾任麻省理工學院計算機科學和電子工程系教授，以及卡內基·梅隆大學計算機科學和機器人學副教授。在卡內基·梅隆大學，雷伯特創立了一間研究動力機器人科學根據的實驗室，並研發出第一款能自己平衡的跳躍機器人。

雷伯特在圓桌對話中表示，AI 與機器人已經是一個交叉性學科體系，AI 技術對於機器人領域的發展起到重要推動作用。如今，人形機器人概念風靡全球，全球有超過50家人形機器人企業，中國不僅佔比很高，而且還有大量的機器人領域優秀人才。但是，如果考慮機器人的商業化，未來2-5年，人形機器人會依然在做貨物的搬運，進入家庭實現商業化還是非常困難。

在美國有一種說法：「如果它看起來像鴨子，走路像鴨子，叫聲像鴨子，那它就是鴨子。」可在機器人領域不適用。我們可以讓人形機器人走路像人類，跳舞像人類，看起來像人類，但它的執行機構、控制方式、感知系統、甚至道德和野心都與人類不一樣。人形外形不等於人形內在，人們需要更清晰地思考自己的目標。所以，我們必須考慮機器人未來能發展成什麼，機器人的發展就像是登珠峰一樣（難）。」雷伯特預測，未來十年，全球可以會產生一個實用但非全功能的機器人，幫助人類做更多任務。

而有著心理學研究背景的王堅則對機器人有著不同角度的思考，他表示：「我見過一些用戶，他們買一個類人的機器人放在客廳，就是為了和它對話，而不需要它真的像人類一樣幹活，這讓我真正受到了觸動。當我們希望一個機器人看著像人的時候，我們的潛意識實際上是希望和它交流的。這樣AI就成了關鍵，這已經超出傳統機器人技術的範疇，更像是產品設計問題：如何設計一個人們喜歡與之互動的機器人產品。因此，我對當下的技術倍感興奮，因為機器人和AI的技術已經足夠好，可以做出真正好的產品，但挑戰是如何設計這樣的產品。」

王堅也認為，未來5-10年，我們家庭中會出現類似機器人的產品，就像電視、洗衣機一樣，會有新的陪伴式 AI 機器人硬件產品進入家庭。

以下是波士頓動力創始人Marc Raibert、王堅院士在鈦媒體2024T-EDGE上的特別對話編譯和整理：

特別對話嘉賓：

馬克·雷伯特（Marc Raibert）：人工智能研究所執行董事、波士頓動力機器人創始人；
王堅：中國工程院院士、之江實驗室主任、阿里雲創始人；
主持人Craig Smith：美國知名媒體人、鈦媒體駐美國特約作者、Eye-on.AI創始人

Craig Smith：能夠見到在AI領域享譽全球的王堅真是太令人激動了，今天還能見到我一直以來就想見的Marc，也很高興見到你。

我們今天要討論的話題是我長期以來都很關注並常感困擾的一個問題，即公眾對機器人與AI（人工智能）的混淆。它們是截然不同的學科領域，儘管兩者確實存在重疊，並且這種重疊還在不斷增加。但每當我看到一篇關於AI的報導卻配上機器人的圖片時，我都會有些不舒服。這正是我想先談談的一個點：區分機器人與AI。Marc，你在波士頓動力（Boston Dynamics）一直在做機器人相關的工作，也許你可以解釋一下現有機器人中到底有多少是AI驅動的，又有多少是傳統控制理論（人工設計的控制方法）的產物？

然後還有一個延伸問題是：傳統控制理論式的工程設計，現在能在多大程度上被大型語言模型（LLM）所完成？換句話說，那些實際編程的工作能否由這些新型的生成模型來承擔？

Marc Raibert：我非常同意您所說的，機器人並不等同於AI。最近我一直想用更寬泛的思路去定義什麼是機器人、什麼是AI，但很多人會混為一談。不過回到你的問題：你在波士頓動力看到的許多機器人行為，很大程度上是所謂的傳統控制方法的結果。這些傳統控制方法是來自研究機器工作原理、機構運轉、視覺系統工作方式的專家們設計和開發的。現在的控制變得越來越複雜，如果你是做機器人技術的人，你可能知道MPC（模型預測控制）在這些演示中起了很大作用。但強化學習（Reinforcement Learning）也已近在眼前，我認為強化學習與傳統技術專家相結合，將在機器人能力上取得重大突破。

不過我也認為人們對「學習驅動」的方法存在過度樂觀的傾向，這種樂觀目前還沒有完全被證明是合理的。許多人相信，也許是因為語言模型的成功，認為不久之後機器人控制就能全部依靠自我學習，甚至是端到端的全自學。但我覺得結論還未定。在我的研究所，我們確實有一些人致力於這種極端的端到端數據驅動方法，同時也有一些人繼續研究理論和傳統方法。我堅信未來最好的解決方案會來自不同技術方法的交叉融合。

另一點是，這一切還要看時間尺度。在未來的某個時間點，也許學習型方法會全面佔優。但如果你想在當下，或者未來幾年，甚至5到7年內，在產品中做出有用的東西，傳統方法依然會發揮巨大作用。我甚至不太喜歡用「傳統」這個詞來稱呼這些方法，因為與過去兩年的新趨勢相比，它們才算「傳統」。

Craig Smith：像Atlas這樣的機器人在做跳躍或翻觔斗等動作時，這些程序設計如今有多少是能用LLM類型的代碼生成器完成的呢？不一定非要是LLM，也可以是其它生成式或基礎模型。

Marc Raibert：我想越來越多的編程會借助這些模型來完成。我展示過的Spot和一些人形機器人仿真工作也都在朝這個方向推進。我相信在某些動作上，我們能用這些方法達到傳統MPC或控制方法無法實現的效果。但我仍然認為，這是一種混合。當中那些有控制理論背景並實際搭建過硬件的人才仍是推動這一領域前進的重要因素。

我對純學習領域的一點抱怨是：他們對行為標準的要求非常寬鬆，並非在做高性能又困難的任務，而是更關注「機器人在所給任務上的改善」而非「高水平完成有用的任務」。

Craig Smith：我想問問王堅，目前中國在這個領域處於何種位置？中國要麼是領先，要麼是緊緊追隨，很難分辨。就像網絡影片里，有些令人驚歎的機器，他們在杭州也有類似公司。請談談中國在這個領域的總體情況吧。

王堅：是的，就像Marc在展示中提到的，他列出的一家公司宇樹科技就在杭州。我認為這不僅是中國，在美國以及全世界範圍內，人們都在探索這一激動人心的話題。Marc在他的研究中提及了兩個重要概念。你提到兩種類型的智能，這給了我們一些有啟發性的思考方向，讓我們重新思考我們所處的位置和如何行動。

我認為挑戰不僅僅存在於中國，而是普遍的。這就像你問機器人和AI的關係。對我來說，這就像20、30年前心理學中的一個基本問題，即「心智與身體」的問題。對當下的機器人和AI而言，也是一種「心智與身體」的關係問題。健康的心智必須依託於健康的軀體，沒有身體就沒有健康的心智。這是我們一直在追求的目標。

如今，我們討論的是如何讓「心智」與「身體」作為同一個系統協同運作，就像人類一樣。不過我會在機器人或AI前面加上一個定語，我想強調人類智能與機器智能是有區別的，人類的身體與機器的身體也是不同的，儘管架構看似相似，但本質可能有根本區別。這是我相信的。正因為如此，在中國我們擁有足夠的資源去探索不同的路徑，這非常令人振奮。

Marc Raibert：我想補充一點：除了它們的差異之外，這些差異還意味著我們有改進AI的機會，比如用更少的數據實現更好的性能。「一次性學習」（one-shot learning）是許多人在努力的目標。現在這些語言模型已經很強大了，但並非終點。我相信未來還會有許多新方法出現，也許有些來自對人類的研究，也許有些來自全新的創意。

王堅：沒錯，以中文來理解「人工智能」這個詞，聽起來和英文的Artificial Intelligence並不完全一樣，更像是「模擬人類智能」的意思。雖然機器和人類不同，但當機器在某些方面表現優於人類時，並不能簡單說它「打敗」了人類，這與人類智力與機器智力的對比是不同層面的。今天的技術進步已經使我們超越了1950年代時將AI直接與人類做一對一比較的階段。我們現在應該思考如何將技術提升到新層次，而不是僅僅比較誰更強。

Craig Smith： Marc，你最初是以一條腿跳躍的「彈簧高蹺」式機器人開始的，這並不像我見過的任何動物。你後來又發展出類動物或人形的機器人。有一個讓我印象深刻的是你們在倉居里用吸盤抓取盒子的機器人。展望未來，你認為進入經濟領域的機器人會更傾向於人形？還是類似動物形態？或是完全不同，比如一個有吸盤手臂的機械裝置（自然界中並沒有類似的生物）？

Marc Raibert：這是一個非常好的問題，尤其是現在全世界至少有50家以上的公司在做類似人形機器人的項目，可能還不止50家。在中國，我在北京的世界機器人大會上看到27家公司展出人形機器人。北美也有六七家，我相信不斷有新公司出現。歐洲也是如此。

我認為這要看你的時間預期。如果你想在未來2到5年內就想讓機器人盈利，完成一個高性能的特定任務，那麼你不應該追求通用形態的機器人，而要針對性設計能出色完成特定任務的機器人。比如我們那個只用來搬運紙箱的機器人，它只能搬紙箱，卻做得很好。有些人想，既然人類什麼都能做，那麼做個人形機器人也就能什麼都做。也許將來有一天會實現，但還需要很長的路要走。

還有一句話，在美國有一種說法：「如果它看起來像鴨子，走路像鴨子，叫聲像鴨子，那它就是鴨子。」可在機器人領域不適用。我們可以讓人形機器人走路像人類，跳舞像人類，看起來像人類，但它的執行機構、控制方式、感知系統、甚至道德和野心都與人類不一樣。人形外形不等於人形內在，人們需要更清晰地思考自己的目標。

我個人喜歡人形機器人，因為那是像攀登珠穆朗瑪峰一樣的挑戰，但我並不是為了明年就賺錢才去做它們的。

Craig Smith：在中國，很多人形機器人公司都在出現。你覺得這背後有某種雄心嗎？比如在日本，我知道他們因為老齡化社會而投入大量資源於機器人，希望有朝一日能出現一支人形機器人隊伍幫助護理老人。中國也面對老齡化問題，這會不會成為中國的關注點？

王堅：是的，這在中國也是一個話題。人們討論機器人幫忙照顧老人，但我認為這並不是唯一的焦點。放在更大圖景里看，即便在今天的生成式AI出現之前，人形機器人就已是個大熱點，中國有很多公司在做。在問中國有多少公司在做機器人時，很難統計，因為非常多。

我見過一些用戶，他們買一個類人的機器人放在客廳，就是為了和它對話，而不需要它真的像人類一樣幹活，這讓我真正受到了觸動。當我們希望一個機器人看著像人的時候，我們的潛意識實際上是希望和它交流的。這樣AI就成了關鍵，這已經超出傳統機器人技術的範疇，更像是產品設計問題：如何設計一個人們喜歡與之互動的機器人產品。因此，我對當下的技術倍感興奮，因為機器人和AI的技術已經足夠好，可以做出真正好的產品，但挑戰是如何設計這樣的產品。

Craig Smith：對，我也覺得在家中擺放一個可以交談的人形機器人很有價值。以色列有家公司在做一個「桌面頭部」機器人，雖然不像人頭，但專門用來和老人聊天陪伴。

Marc Raibert：還有很多公司在做所謂的寵物機器人、陪伴機器人，這些不一定像人。有的人甚至想做可以理解真實寵物意思的AI，不管怎樣，人們普遍覺得需要陪伴。寵物是一種陪伴方式，也許機器人也是一種。不過說到商業化，我認為家庭是最困難的地方，因為安全問題、家庭環境的非結構化、多樣化、成本要求都很苛刻，在工廠和倉庫裡實現投入產出比要容易得多。

Craig Smith：對，在家中讓一個人形機器人坐在沙發上，萬一它站起來可能存在安全風險。我想到Sony的Aibo機器狗，當年停產時還引發了日本用戶的極度悲傷，人們像失去家人一樣。

Marc Raibert：那是個文化現象。我當年與索尼合作Aibo時，在東京做過一個面對Aibo愛好者的演講。台下很多人戴著Aibo吊墜，有人甚至舉辦過Aibo婚禮。Aibo是一種文化現象。

Craig Smith：也許在未來的市場里，會出現一條分界線：一種是人形或陪伴型機器人用於家庭，另一種則是工業或軍用機器人適合在複雜環境中工作。說到學習能力的問題：我們昨晚談過在機器人中融入強化學習。目前在研究將強化學習用於現有機器人訓練。你認為要多久才能讓機器人像生成式模型那樣，從環境中自主學習並表現出超出設計者預期的行為？

Marc Raibert：我知道豐田也在嘗試通過行為複製等方法，讓人類先遠程操作收集數據，再讓機器人用這些數據自行完成任務。許多人在追求這一方向。與語言模型從網絡抓取文本數據不同，機器人需要對觸覺、真實視覺進行數據收集，這種數據很難像文字那樣輕易獲得。現在已有一些公司專門為此採集這類數據。

我認為有一個連續光譜：從完全由人類設計到完全由機器人自學。從過去直到現在，我們一直有人類在回路中——由工程師通過機器人收集的數據來改進設計，真正的端到端全自學可能是最難的階段。我認為在很長一段時間內，人類對機器的結構性設計依舊重要。也許終有一日某些問題能實現端到端自學，但那是比較久遠的事情。

王堅：談到機器人和人的互動，我們剛才提到了陪伴機器狗，大家特別喜歡這個陪伴機器狗，因為它能夠陪伴，其實這涉及人機交互，人們會撫摸它，與它互動。這些觸覺數據和交互數據對機器學習也很重要。今天很多人都想要完全自主的機器人，但我不確定這種想法是否過於狹窄，是否限制了我們對其他方法的探索。就像今天的LLM很成功，但這並不意味著只有LLM一種基礎模型方法，還有很多路線可以探索。

Craig Smith：我們日常使用的汽車本質上也是一種機器人，自主駕駛系統相當於在這個機器人里裝上「大腦」。在無人駕駛方面，中國的部署速度也很快，這讓我覺得中國願意承擔更多風險。

王堅：是的，中國很大，但不僅僅是一個大市場，更是一個能驗證和磨練技術的場所。大市場意味著你有機會將技術投入實際使用，驗證成熟度與可行性，而不只是銷售。當技術尚未成熟時，中國廣闊的環境提供了快速迭代和驗證的機會。因此中國的確提供了一個測試技術成熟度的舞台。

Marc Raibert：當然，中國的機器人發展，我確實看到市場上有非常多有智慧的人，他們是非常認可這個領域的。對於任何一個公司來講，如果想要成功，就需要有人才庫，需要有這樣的一些人才，這肯定是一個非常令人敬佩的人才儲備。

王堅：是的，我完全同意Marc的看法。當有大量年青人對這項技術充滿熱情，就能推動技術不斷前進。有了這種熱愛與激情，未來就有希望。

Marc Raibert：我有時都覺得自己有點走運，我能從事自己熱愛的工作，每天上班都不是負擔，還有人付我薪金。我認為對於任何一位能從事自己熱愛領域的人來說，這都是再好不過的境況。

Craig Smith：回到將AI「大腦」與機器人「身體」結合的問題：無論是通過控制理論還是極端的神經網絡方案，這種融合進展如何？現在有多少機器人具有AI大腦來輔助控制並允許與人類的交互？

Marc Raibert：我認為隨著對硬件和軟件雙方的深入理解，以及團隊之間的緊密合作，進展會更快。在早期模擬中，如果模擬開發者有硬件經驗，模擬的效果和對軟件的幫助就更大。如果只懂軟件而不瞭解硬件，成效就差點。我有些擔心美國矽谷的軟件派認為只要軟件足夠智能，隨便什麼硬件都行。我並不認同。即使現在軟件能推動硬件發展，但終有一天硬件會再次成為瓶頸，到時鍾擺又會回到硬件這邊。

Craig Smith：我注意到美國AI機器人實驗室里使用的機器人手臂大多是簡單的夾爪結構，這是相當粗糙的硬件。在中國情況如何？中國的AI機器人研究是不是也大多用這種簡單硬件，還是有人嘗試更複雜的人形或其他先進硬件？

王堅：我相信即便沒有特定硬件，我們也能利用AI做很多事情，畢竟有足夠的算力就行。但如果有了好的硬件配合AI，就可能實現更驚豔的突破。許多中國公司都在嘗試，因為他們相信在硬件、軟件與AI能力的結合上有巨大的潛力。深圳就是一座硬件之都，可以快速低成本地製造出各種原型，這對探索各種形態的機器人非常有利。還有許多城市里大量的工程師同時嘗試不同方向，這種規模化工程與研究會加速技術積累與進步。

Marc Raibert：回到剛才提到的自動駕駛汽車，我想舉這樣一個例子，在舊金山有一個事故，其中有人死亡了。這個事故當中，有自動駕駛汽車，但其實我覺得是人類駕駛的汽車，是人錯誤駕駛汽車的責任，但因為這個事故里有自動駕駛汽車的參與，所以引起了很大的討論。其實我覺得，自動汽車會比人類駕駛的汽車更為安全，就像機器人一樣，我們會把機器人送去工廠，但可能會出現人受傷的情況，一旦出現了事故，人們可能就會不再使用機器人了。

王堅：即便使用了機器人，其實工人的安全反而能夠得到更好的保障，不管是在舊金山、中國或者是歐洲。我覺得不同的文化差異，可能會帶來不同的想法。我想到幾天前，我也討論過這個問題，就像最開始人們會說X光對身體是有害的，但是後來人們會意識到X光其實是能夠給人類帶來幫助的，現在又到了這麼一個階段，我們認為AI機器人有很大的力量，但我們還不知道它能夠做什麼。

就像你從家開車到機場，你在路上發生事故的可能性要比你坐飛機出事故的可能性要高得多。很多技術發展的歷史，其實都會有這麼一個階段，很多人因為害怕AI，所以他們希望AI受到更嚴格的監管。

Marc Raibert：我很讚同，我也覺得AI會解決很多問題，它解決問題的能力，要比它所帶來問題的能力要強得多。我自己並不害怕AI，但我知道很多人都會很擔心，很害怕AI，我不知道這是教育的問題，還是傳播的問題。

王堅：今年9月，我在紐約聯合國的辦公樓開了個會。在這個會上，聯合國發佈了一個文件，在講治理AI，我們參會的這些人都拿到了這份文件。在這個文件發佈之後，我們參會的二十幾個人自己組織又開了一個閉門會，我們覺得AI當然有安全問題，但我們認為安全並不是AI的全部，我們把這個認識叫做曼哈頓宣言，就是為了表達我們代表科學界有了一個共識。AI的能力不但包括機遇還有安全，這就是我們所談到的內容，我們必須把機遇和安全問題放在一起來討論，我們也需要這樣的平衡。

Craig Smith：快到對話結束的環節了，我想問一個觀眾總愛問的問題（專家們也許不喜歡）：你們對人形機器人進入家庭有用武之地的時間表有什麼預測？

Marc Raibert：我覺得家用場景可能是最後的場景，而且我覺得會是有限的使用場景，就像剛才你談到的一些任務，我不知道。

Craig Smith：可能永遠都不會？

Marc Raibert：我不是說永遠都不會，但是會需要很長時間。

王堅：我可能更樂觀一些，我覺得5-10年我們會在家裡出現類似機器人這樣子的東西，就像電視、洗衣機，我想會有新的這樣的硬件進入到我們的家庭，我覺得是5-10年一定會出現。

Marc Raibert：我同意10年後肯定會有某種有用的機器人家電出現，但它可能不會是全能的人形機器人。

Craig Smith：10年後如果我還在，我們再見面，到時候看有沒有實現！屆時身邊可能有個機器人給我們端茶倒水。

（本文正選鈦媒體App，編輯 | 劉湘明）