千尋智能高陽:RobotGPT-1階段已至,4年後達到3.5階段 | MEET 2025
編輯部 發自 凹非寺
量子位 | 公眾號 QbitAI
我對於具身智能的定義很簡單,就是能幫人類做各種事,比如幫我們的爺爺奶奶養老。
……
現在定義具身智能的L1-L5級沒有意義,核心標準還是我們的機器人能解決哪些實際問題。
具身智能趨勢大熱,敢於給斷言的人不多,高陽是一個。
他是清華大學交叉信息研究院助理教授,於美國加州大學伯克利分校獲得博士學位,後於加州伯克利大學與 Pieter Abbeel 等人合作完成了博士後研究。目前主持具身視覺與機器人實驗室 (Embodied Vision and Robotics,簡稱EVAR Lab),專注於利用人工智能技術賦能機器人,致力於打造通用的具身智能框架,由他提出的ViLa算法被Figure AI採用。
2024年,高陽作為聯合創始人創立具身智能公司千尋智能。這家公司也被稱為中國版Figure 01,1年時間快速完成三輪融資,其中種子輪+天使輪2億。
MEET 2025智能未來大會上,量子位邀請到高陽博士深入探討了具身智能的發展現狀與未來,從模型架構、數據、產業落地等維度展開深入探討。
MEET 2025智能未來大會是由量子位主辦的行業峰會,20餘位產業代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關注與報導。
核心觀點
-
具身智能的定義,就是機器人能幫我們做各種事。
-
AI和機器人製造的成熟,催生具身智能產業。
-
具身智能要降低對人工採集數據的依賴。
-
現在定義具身智能L1-L5沒有意義,很長時間內都只能停留在L2.99。
-
我們抵達RobotGPT的1.0階段,原理已經確定;4年後可以達到RobotGPT-3.5階段。
-
希望10年後,世界上10%的人可以擁有自己的機器人。
(為更好呈現高陽的觀點,量子位在不改變原意的基礎上做了如下梳理)
10年後10%人類可以有專屬機器人
量子位:你怎麼定義具身智能?
高陽:我覺得這個問題是一個非常直觀的問題。
有一次我在做一個關於具身智能的演講,有一位大概60、70歲老奶奶聽我講很多,問我說什麼時候機器人能給她養老。
其實這個就是具身智能。
具身智能就是我們構建一個機器人,這個機器人能(比如在家裡面)幫我們做各種事情,比如幫我們的爺爺奶奶養老。
所以我創建了千尋智能,我最大的一個理想和願望就是在十年之後,希望這個世界上10%的人可以擁有自己的機器人。
它能幹什麼,也非常直觀。比如說我自己每天晚上回到家已經比較晚了,可能想吃點夜宵,吃完之後不想收拾盤子;週末家裡很多東西沒有歸位,我想讓一個機器人幫我把這些東西歸位……
這些就是所謂的具身智能,有實體機器人可以幫我們做各種各樣我們自己不想做或者懶得做的一些事情,這是我認知里的具身智能。
量子位:具身智能這個概念來自於阿倫·圖靈,是半個世紀以前開始定義/構想的事。今年被我們定義為具身智能元年,或者說它發展成熟了。您在產業中看到了怎樣的技術/要素變化,讓您覺得具身智能變得成熟,並讓您決定開始創業?
高陽:這裏唯一的變量就是OpenAI證明了預訓練(Pre-training)加上一系列Post-training的方式,可以真正產生、至少看起來像是人類智能,或者達到人類智能表像一樣的能力,我覺得這是現在做具身智能創業的一個最核心的變量。
像剛才大家講的,以前的機器人都是手寫的一些規則,都是寫死的,就導致對於環境的適應性很差。其實我之前對機器人硬件並不是特別瞭解,但當我真的去看的時候,看到工業機器人一年的銷量有多少台,我非常驚訝,工業機器人一年的銷量全球只有大概200萬台的量級左右。
這個量級相比於汽車、手機都是一個非常小的量。背後的核心製約就是機器人非常難用,這隻是一個專用的設備,你需要有很高的技術儲備,才能把它用起來。
所以我覺得是這兩者之間的區別在於,一個是智能技術使得機器人變得越來越好用,另一個是我們在造機器人這件事情上,已經走了非常遠,我們可以把機器人做到亞毫米的精度,以非常便宜的價格。
這兩方面的成熟催生具身智能產業。當然這個產業現在處於非常初期的階段,我也經常講,這個東西其實很難,因為經常講具身智能像是一個矽基生命的造物主,如果把具身智能做出來了,人類作為碳基生命的引導程序任務也基本完成了。所以我覺得這個東西是很長期的事情,我至少從我自己來講,我是把它當作一個lifetime的事業來做。
數據仍是具身智能發展攻堅重點
量子位:您怎麼看過去一年具身智能領域的核心進展,哪些值得在2025年重點攻堅?
高陽:我認為具身智能過去一年比較大的突破,除了剛剛談過的VLA模型外,還有一些是模型如何做預訓練。像我們現在的方式(包括Phi),都是狂采了一萬個小時的數據去訓練,讓模型具備一些能力。
如果我們回顧當前所有讓人印象深刻的大模型,比如ChatGPT、Stable Diffusion、影片生成模型(Sora)等,它們的數據量都是100T tokens或者幾十個billion的image-text pair。
現在我們通過人工去採集的操作數據,遠遠小於這個量級。所以我認為在具身智能發展過程之中,如何去更多利用互聯網上的數據做預訓練是一個非常重要的事情。
關於這個問題,比如VLA其實做的比較弱。VLA的預訓練數據中只有圖像和文本。我覺得在學術界,大家有很多新奇的思路來解決這個問題,這應該是未來3-4年內都能夠持續發展且非常重要的事情。
舉幾個具體的例子。比如我覺得Google的RT-Trajectory是一個比較有代表性的工作。這個模型介紹,如果只用採集的模仿學習的數據去訓練,數據量永遠不夠。
它採用一種新的方法,用一個中間表示來表示機器人移動的大致軌跡,讓機器人去大概follow這條軌跡。具體細節是由底層策略直接產生。
類似這類的文章有很多,包括我自己的研究組也做了很多相關工作。我自己做的是一些用物體的未來粒子運動方式來刻畫中間層表示。
我覺得這些工作是非常令人興奮的,因為以前大家也可以去採集數據、也可以去訓練模仿學習,但是這波大模型浪潮來臨時,我們需要足夠多的數據。
這一年這些新的研究工作,其實也為我們未來發展指明了方向。
VLA本身是一個非常好的範式,也是未來核心之一。但是在VLA之外,我看到了更多降低對人類採集數據依賴的工作,這也是今年非常令人興奮的進展。
現在定義具身智能L1-L5沒有意義
量子位:如果我們要定製一個機器人、具身智能標準,這個標準應該是怎樣的?
高陽:製定一個標準本意是為了促進一個行業發展,可以衡量每個公司的技術達到了怎樣的水平。
但我覺得可能在一個相當長的時間內,無論這個標準是什麼樣,可能大多數具身智能因為客觀技術限制,只能達到或者號稱達到L2.99,或者是達到了有限場景內的L4.
所以這個標準最後可能就變成了一個偏向宣傳話術的東西,有限時間內大家做不到廣泛場景的L4或L5的水平。
所以標準還是要看我們能不能解決客戶的需求,這可以是非常清晰的。
比如說我們要服務一些工廠、商業、家庭場景,我們的機器人到底能不能做到,我們服務到這個場景的時候,downtime的概率是多少。
這些是我認為更加明確的、更加可以去追求的一些指標。
甚至我現在覺得,去定義一個具身智能的L1-L5指標也不是非常有意義。
關鍵在於具身智能大腦能不能解決具體問題,比如外賣送貨、比如工廠安裝零件,這是需要我們探討和追求的。
我們還要等機器人「大學畢業」
量子位:那麼,我們現在處於具身智能的什麼階段?
高陽:我們剛剛目睹了GPT從1.0到3.5、4.0再到o1的發展。GPT-1剛剛出來時,沒人瞧得起它,它說話不利索、沒有推理能力,跟人溝通很有問題。
但是在GPT-1誕生時,大語言模型技術的原理已經基本確定。
我認為現在我們處於RobotGPT的1.0階段。因為基本原理已經定下來,可能未來幾年大家看這個技術也還是處於低級水平、沒太大進展,但是智能發展是一個指數上升的曲線,所以我個人覺得對於具身智能大腦端,會在4年之後達到RobotGPT-3.5階段。可能沒有那麼高階,但是已經可以看到很多令人驚訝的能力了。
我認為我們距離那一天有一段時間,但也不會很遠。
量子位:等RobotGPT上一個大學。
高陽:對,他才剛剛進大學,什麼都不會,需要大學畢業,真正進入每一個人的家庭,從現在開始算大概需要10年時間。
雖然GPT-4已經可以回答很多問題了,但是它仍然有10%的情況沒有那麼可靠,所以我們仍然需要繼續提升語言模型的能力使得它能夠真的深入到人類生產生活中的方方面面。
對於機器人的模型來講,我覺得也是一樣的,我們在做出來3.5之後,他可能沒有那麼魯棒,成本可能有點高,我們需要繼續改進這個技術,所以我認為在10年之後會有10%的人擁有自己的機器人。