90後清華博導的「造人」計劃

出品 | 虎嗅科技組

作者 | 王欣

編輯 | 苗正卿

頭圖 |《鐵甲奇俠3》

虎嗅註:本文為虎嗅 《AI星火》系列 第19篇稿件,《AI星火》系列聚焦AI細分行業的頭部公司,通過記錄AI創業者的故事,折射出他們對AI產業的共識與非共識。今天的主人公是一位92年的清華博導,他一邊學著怎麼開公司,一邊造出了全球跑得最快的機器人。

10月14日,在位於清華科技園的星動紀元會議室,虎嗅與創始人陳建宇進行了一對一交流,他很謙虛地告訴虎嗅:在與資本打交道上,還要多學習。

自此兩天后,就傳來了星動紀元Pre-A輪融資3億元的消息,投資方包括阿里巴巴、聯想創投、清流資本、元璟資本等。

陳建宇的另一重身份,是清華大學交叉信息研究院的助理教授和博士生導師。在做出令自己滿意的產品後,這位低調的年輕科學家,決定首次出來對話。

陳建宇真正為之自豪的,是他們的第六代人形機器人STAR 1實現了室外真實場景下3.6m/s的最快速度。「即便是特斯拉的擎天柱機器人跑得也沒我們快。」陳建宇說。

據悉,星動紀元採用了端到端的AI路徑,在這一模式下機器人通過強化學習的AI方法,會模仿人跑步的形態,跑步時雙手也會微微擺動保持平衡。

2022年,陳建宇就打造了小型人形機器人的原型機,那時他就跟姚期智院士多次交流,怎麼去做人形機器人。並在ChatGPT發佈不久,做出了全球最早的大語言模型結合人形機器人的工作。

能夠在早期捕捉到大模型帶來的技術變革,與陳建宇的經歷高度相關:與行業一些從計算機視覺轉向機器人領域的路徑不同,陳建宇是典型的具身智能原教旨主義者——從清華大學本科、加州大學伯克利分校讀博、到畢業後在清華大學交叉信息研究院任職助理教授,他一直在做機器人的學術研究。

雖然這個賽道也有著不少野路子玩家,但陳建宇認為,沒有強大的學術背景,很多前沿的事情可能都想不到,或者只能看到較為成熟的方法。

他現在比較看好的路線是「打通端到端」。不能分開做感知網絡和決策網絡。「這樣相當於多個小模型堆在一塊,無法像大模型那樣scale。」雖然具身智能玩家都在下注端到端,但「真正能做端到端的不多,包括一些知名創業者做的方案很多都是直接用GPT的。」

相對於大腦(語言圖像處理能力)或本體,陳建宇認為「小腦」(物理交互)是目前具身智能發展的限制條件,後續的工作「會把大腦和小腦統一」,這就像人類的思維和動作本身是一體化的。陳建宇的做法是從最核心的小腦部分做scale up。先把物理層面的交互能力做得很強,隨後邏輯思考等抽像能力也會逐步增強。這是陳建宇從day one就計劃好的路徑,也是與其他公司路線上最大的不同。

關於人形機器人的形態,行業內不同公司各有自己的堅持,有種聲音是「沒有腿的輪式機器人不能算人形機器人」,也有堅持輪式形態的公司認為「現階段雙腿不是最優解」。

在星動紀元的實驗室里,虎嗅看到了陳建宇在這個問題上的解法——將人形機器人模塊化,這樣既可以接入雙腿,也可以接入輪式。陳建宇將這些不同的模塊形容為工具箱,「工具箱足夠多的時候,可以快速拿出不同的工具,來匹配更多的商業場景」。

目前很多人形機器人公司都在尋找商業化場景,但陳建宇認為「不要沒有找到PMF的時候,為了量產而量產。如果還沒有找到用戶,就先生產一堆機器人,可能生產出來又是一堆廢銅爛鐵。」

以下是虎嗅與陳建宇的對話,部分內容經過了優化和調整:

01

從象牙塔到商業世界

虎嗅:創辦星動紀元之前你一直都在清華做學術研究。可能相對來說學校環境更像象牙塔,當時為什麼要做這樣的一個轉變呢?

陳建宇:一開始確實是在實驗室里以課題的形式做的。22年我在清華大學交叉信息研究院做人形機器人研究,但同時也在思考發揮機器人的更大價值——能生產產品的商業化價值。

不僅是在實驗室做幾個酷炫的demo,而是能做出強大影響力的產品,讓很多人用起來,這個事情我會覺得非常激動。

另外,學校資源有限,特別是工程方面。做機器人硬件需要一個非常龐大的工程團隊。綜合考慮之下我決定開始做這個公司。

虎嗅:跟在學校的不同是什麼?

陳建宇:某種程度上,學校更自由一些,只需要做一個新的東西,設計一個簡化的實驗,然後跑通了,就能發論文。

公司的限制會更多,需要真正創造社會價值。會有客戶提出的客觀指標,如果用發論文的方法來做產品的商業化,是不行的。

但在商業層面也會更豐富,因為能聚集更多資源更大團隊去做,所以這個事情的scope(範圍)可以更大一些。

虎嗅:這個過程中,遇到了哪些挑戰?

陳建宇:挑戰非常多,從融資、組建團隊、管理到製定技術和商業化目標。還得想清楚未來這一行可能會怎麼發展,行業裡面哪些是朋友,哪些是競對,怎麼去處理。這些情況在學校是不會面臨的。

虎嗅:目前為止做過的最大膽的決定是什麼?

陳建宇:之前的都不算特別大膽,現階段我們的研發資金投入不算太多,即使有些路線需要糾偏成本也不高。但在商業化之後會可能會面臨生死決策時刻,可能有造一萬台機器人的計劃要拍板,算下來可能一下就要花幾個億。

所以我沒有急於在這些方面沒ready的情況下,就馬上大力鋪開,否則試錯成本風險非常高。

虎嗅:現在存在一種刻板印象,好像草根出身的動手能力特別強,學霸類型的動手能力弱一點。你怎麼看這個問題?

陳建宇:要看是什麼動手問題,工程出身的去畫機械結構肯定更熟練。如果是動手寫AI代碼,我在博士階段發的十多篇論文,全程代碼都是自己寫的。

而且我認為到了這個層面,相對動手能力,能有vision帶著下面的人把東西快速做出來更重要。

02

當我談跑步時我談些什麼

虎嗅:現在星動STAR1的跑步速度達到什麼水平了?

陳建宇:全球範圍來看,這是跑得最快的機器人。STAR1實現了室外真實場景下能跑到3.6m/s,這相當於人類跑步配速438。

但這還沒有完全發揮出硬件的極限, 為了保持穩定性我們的算法實現了60%的功力。理論最高能達到6米每秒,超過馬拉松冠軍。

虎嗅:為什麼要做去提升機器人跑步的能力?

陳建宇:跑步是機器人核心的共性的能力,我們瞄向一個更大的目標是功能通用,我們希望它是一個通用人形機器人。未來在各種複雜環境下都能夠去執行各種不同的任務。

虎嗅:但也有聲音認為在工廠等平坦地形場景,輪式就可以滿足要求。

陳建宇:所以我們做的是模塊化,有一個機器人工具箱,這樣機器人下肢既可以接入雙腿,也可以接入輪式,工具箱足夠多的時候,可以快速拿出不同的工具,來匹配更多的商業場景。

虎嗅:你們會重點關注腿部嗎?

我們不會完全偏重腿部、靈巧手或者輪式的某一種,只是在具體產品上可能會有形態的不同,比如我們有的產品是雙足,有的是輪式。

虎嗅:我發現跑步時STAR1雙手也會微微擺動保持平衡。

陳建宇:這是機器人強化學習的結果,一方面會模仿人跑步的形態,另一方面機器人會根據自身的質量和風格自主學習出適合的幅度。人為給的東西比較少一點。

虎嗅:從day one你們用的就是AI的方法嗎?

陳建宇:當然最開始第一步讓他走起來,我們也有用模型控制的方法。但是其實從最初的時候,我就比較堅信一定是用AI把它走通。

虎嗅:你怎麼看特斯拉的擎天柱在「We,Robot」發佈會上展示的互動效果?

陳建宇:在操作層面還是比較領先。另外機器人能夠在現場實時互動,基本沒出差錯,說明硬件的可靠性挺不錯的。

但這是通過員工遠程控制搖操作實現的。因為它的語言互動實時性,是連GPT-4o也達不到的程度,即使是特斯拉也做不出一個比GPT還強的大模型。

虎嗅:現在大語言模型Scaling曲線已經趨於平緩了,具身智能Scaling曲線目前處於哪個階段?

陳建宇:非常初期,介於Transformer到GPT1.0之間。

虎嗅:在大語言模領域,國內公司的技術路線基本上都是摸著OpenAI過河,在具身智能領域也是這樣模仿國外先進路線嗎?

陳建宇:相對比較少。雖然Google在具身大腦領域比較領先,但他們也沒探到GPT1.0那一步,所以缺乏可以直接複用的方法,還是需要從第一性原理去想該怎麼做。

要有自己的想法和思路,如果直接抄,可能就抄錯了。

虎嗅:國內外差距是怎麼樣的?

陳建宇:大家都還在探索,也許特斯拉在某方面會領先一些,但他們也還沒有看到那個最終答案。

這個領域目前並沒有如OpenAI般不可超越的存在。他們是可以超越的。

03

思而不學則殆

虎嗅:現在大模型在具身智能領域的應用,跟你最初去探索的時候相比有什麼區別?

陳建宇:之前很多人想的是,把大模型接到機器人上,用大模型思考能力,它就變聰明了。但小腦(物理本體交互)依然還是不智能的,不能算整套數據驅動,沒法通過scale變強。

虎嗅:所以你認為不智能的小腦是目前具身智能發展的限制條件?

陳建宇:對,從通用的這個角度來看,大腦(語言圖像處理能力)更接近人的通用智能,但是小腦(物理交互)這部分還不夠。

小腦也需要用類似大模型的方法,來增強通用性。小腦是跟本體物理交互的層面,所以說需要彌合這個gap。如果小腦能力不提升,始終還是停留在語言模型的範疇。

虎嗅:但現在研究小腦的公司團隊不是很多。

陳建宇:原因可能是,第一,小腦研究還是需要比較高的學術能力。第二,有些純AI出身的團隊,可能更重視大腦的研究,而怎麼跟物理交互,是做機器人團隊在琢磨和研究的問題。

虎嗅:在小腦上的研究是我們跟其他公司路線上最大的不同嗎?

陳建宇:對,我認為是最核心的地方。而且後面的話我們會把大腦和小腦要統一。就像人類的思維和動作也是天然統一的,邏輯思考和行為本身就是一體化的。

虎嗅:怎麼去做大小腦統一的?

陳建宇:我們會一步一步做,因為直接把整個事情全做完,難度非常高。我們先從最核心的小腦部分做scale up。先把物理層面的交互能力做得很強,然後邏輯思考等抽像能力也會逐步增強。

就像一個機器人沒法做動作,思考再多也只是一堆廢銅爛鐵。

虎嗅:從什麼時候開始決定要走這條路線?

陳建宇:從本科的步態規劃控制,到讀博時研究無人駕駛的行為決策規劃,其實我一直都在研究小腦及其到大腦的延伸。

虎嗅:還有哪些你現在比較看好的技術路線方向?

陳建宇:大的方面來說,要打通端到端。不能做個感知網絡,再做個決策網絡,再加上很多動作網絡。這樣相當於多的小模型堆在一塊,不能像大模型那樣scale。

虎嗅:現在大家都在做端到端?

陳建宇:其實能做端到端的不多,李飛飛做的很多工作都是直接調用GPT的。

04

具身之腦的覺醒  

虎嗅:2023年的時候你做出了世界上第一篇大語言模型結合人形機器人的學術工作,為什麼當時會想到用大模型去做這件事?

陳建宇:這可能跟我的經歷有關。

目前具身智能玩家中主要有兩個流派,一部分是計算機背景——大部分偏視覺。在機器人和AI開始交叉彙聚的時候,這部分人開始關注機器人的問題。但此前的的AI和機器人,是兩個領域。

我是從正統機器人「坑」里出來的,我所在的學科領域是專門研究機器人的。在清華大學本科時,我就開始研究機器人的機械設計。在美國加州大學伯克利分校讀博時,研究過機器人的底層控制。我的視角一直專注機器人問題,以及現有的各學科領域怎麼跟它融合。

所以我會對這個更敏銳一些。在2022年的時候,ChatGPT還沒發佈,我就想做機器人的通用智能。

虎嗅:2022年時大模型還沒有顯現出價值,當時用的是什麼方法?

陳建宇:對,當時沒有大模型這樣比較強大的工具,所以我當時用的是之前的強化學習方法。

Transformer它最大的意義是他能scale,達到通用。當時是有看到Transformer,但還沒有scale只是小模型。在當時看起來沒有任何improvement的效果。

虎嗅:為什麼那時候開始提具身智能的概念?

陳建宇:之前也有一些詞,我們一般叫Robert learning(機器人學習),但這個詞我感覺不夠酷。我還是想凸顯智能,所以比較喜歡選用具身這個詞。

虎嗅:當時就篤定大模型在具身智能上是能work的嗎?

陳建宇:是的,當時看到它在語言這個領域已經證實了能work,至少目前來看它是唯一可能幫助我們達到通用的路徑,而且是非常有希望的。

虎嗅:通過大模型來達到具身智能的通用,是業界的共識嗎?

陳建宇:是這樣的,沒有其他任何方法達到了這樣通用智能的水平。或者說我們也沒有別的選擇。

現在已經在語言領域證明了,近期也拓展到多模態領域。所以其實現在信心會增強。

機器人是更全的模態,不光有語言數據、行為動作,還有觸感、聲音、進入物理世界的交互。這是一個全新不同的方式。

虎嗅:具身智能最終形態是人形嗎?

陳建宇:一定有人形,但是也會有別的形態,比如在某些場景一個機械臂就做完了。

人形做出來之後,它的技術可以向下兼容,去輻射到機械臂、靈巧手和假爪。相比通過假爪搖操作的採集數據方法,人形採集數據效率更高,網上人形操作的影片數據更多,這樣我們能用的數據也更多。

虎嗅:你認為最終機器人是會做成通用還是不同領域的專用?

陳建宇:我們的技術始終是會做一個通用的機器人,但最終落地應用的時候它可能是一個專用的形態。就像大模型有通用的基座模型,也可以在某一個垂域裡面再調優。

虎嗅:現在機器人有必要考慮量產的問題嗎?

陳建宇:不要沒有找到PMF的時候,為了量產而量產。如果還沒有找到用戶,就先生產一堆機器人,可能生產出來又是一堆廢銅爛鐵。但是咱們要做好量產的準備和試產工作。

虎嗅:但是有些公司聲稱,很早之前就有客戶找他們生產。

陳建宇:我們也接到很多需求,很多他說想在這個工廠里增加一千個機器人。但需要做到機器人功能足夠強大,且成本足夠低,才能成立。不然工廠也不會買單的。

虎嗅:未來星動紀元想成為一家什麼樣的公司?

陳建宇:希望能成為像機器人界的蘋果。

蘋果做出了顛覆式的產品。其實機器人還沒有出現真正廣泛應用的產品,我認為機器人存在這樣的機會,可能也會是顛覆式的創新。

虎嗅:成立星動紀元以來最大的感悟是什麼?

陳建宇:找到了一種平衡。

既要保持開放的心態,不能說太自大,這樣的話會可能會阻礙你成長。但另一方面你又需要堅定一些,特別是在正確的事情上。

虎嗅:星動紀元是清華大學交叉信息研究院孵化的,姚期智老師在其中提供了什麼樣的支持和幫助?

陳建宇:他提供了很多資源和指導。2022年我就一直跟他討論,怎麼去做人形機器人。

虎嗅:你們達成的共識是什麼?

陳建宇:我們都相信,人形機器人終將改變世界。