天工開萬物:大模型時代的具身智能新紀元
在矽星人首屆AI創造者大會上,國家地方共建具身智能機器人創新中心CTO唐劍帶來了具身智能發展的全新探索與實踐。此次分享以「天工」系列機器人為例,深入展現了如何在多任務、多場景中實現機器人的智慧與靈活操作。中心團隊更提出了大模型與具身智能融合的獨特視角,旨在推動智能機器人真正走入尋常人家,成為日常生活中的得力助手,賦能未來生活的無限可能。
以下為演講實錄:
感謝主持人,也非常感謝組委會的邀請。今天非常榮幸代表我們具身智能機器人創新中心與大家分享我們最近的一些工作進展,以及我們對未來的展望。
這是我分享的提綱。首先,我想解釋一下「天工」這個名字的由來。眾所周知,我們發佈了人形機器人的名字「天工」,這個名字引用自明代著名學者桑治應星的著作《天工開物》,同時,「具身智能體」的一個平台也叫做「開物」。我首先想解釋一下,如何讓「天工」練成絕世武功,開啟萬物。具身智能分為兩部分:一部分是具身,即人工智能機器人的典型代表;另一部分是智能。接下來,我將介紹我們在「開物」方面的進展和目標。
大家可能都看過周星馳在2004年的著名影片《功夫》,裡面有一個流行的說法,即要想練成絕世武功,必須打通任督二脈。借助這個比喻,我們如何讓機器人練成絕世武功,即操作物理世界的萬物,主要涉及兩個方面:任督二脈,即人機交互和協作。雖然不能說完全打通,但隨著像ChatGPT這樣的大模型的出現,我們看到了希望,認為在未來有很大的進展。所謂的督脈,即機器人與物理世界的交互,是這個論壇的主題,目前這個方向非常火熱,被稱為具身智能。如何打通督脈?目前沒有一家公司或科研機構有非常好的解決方案,這也是我們具身智能創新中心研究的重點。
具身智能與機器人技術的進步
上世紀80年代,美國學者莫拉維克提出了莫拉維克悖論。通俗來講,機器人覺得容易的事情,人類覺得很難;人類覺得難的事情,機器人覺得比較容易。這就是為什麼現在我們看到機器人能下棋勝過圍棋冠軍,而對於洗衣做飯等簡單的事情,我們目前還沒有大規模落地的應用。這就是為什麼以前網上有一個帖子非常火,質疑AI的方向是否搞錯了。我們本來希望AI能洗衣做飯,讓人去寫詩作畫,但現在AI卻在寫詩作畫。我認為方向並沒有錯,對於機器人來說,在千家萬戶洗衣做飯是非常有挑戰性的。因為在非結構化的物理世界里,我們很多操作和工作與工廠結構化程度很強的環境不一樣,場景非常不確定。例如,每家的廚房,無論是中式還是西式,甚至各家的中式廚房也都不太一樣。
此外,我們在物理世界中的這些工作和任務流程並不固定。我想沒有人會給做飯寫一個標準操作程序(SOP),規定第一步一定要做什麼,第二步一定要做什麼,也沒有人嚴格按照SOP來工作。還有多種物品,在開放的物理世界中,哪怕一個杯子都有上千萬種,沒有人能說得清楚有多少種杯子。還有整個操作過程中可能出現的各種失誤情況,這也是為什麼自動駕駛大家都很清楚,從2004年開始研究,到現在近20年了,還沒有完全實現。因為開車這件事情,在路上會遇到各種各樣突發的情況,都必須能解決才行,這是極具挑戰性的。
從數據智能到具身智能
我們也注意到AI發展的一個大趨勢,即如何將AI應用於物理世界,解決物理世界的問題。整個趨勢也是從原先聚焦數據智能,到現在很多人關注具身智能,包括李飛飛提出的空間智能概念,也有異曲同工之妙。這是我們創新中心目前關注的重點。
我們將「具身」和「智能」拆分成兩部分,著力研發的主要產品是天工機器人。今年4月底,我們發佈了天工1.0版,並在118天內快速迭代,迎來了行業競爭激烈的市場環境。8月底,我們發佈了天工1.2版的MAX,具體參數如下:身高約1.73米,與大多數人相似;體重約60公斤,全身擁有42個自由度。不僅可以行走,還具備奔跑能力,速度可達每小時7.2公里。此外,手部配備了靈巧手和傳感器,實現了更高的操作精度和感知能力。
稍後我們會正式宣佈我們的百台天工計劃,即以成本價格向高校、科研院所及科研單位出售我們的天工機器人,並配套開放各類運控、具身智能的接口,同時贈送自研的數據採集設備,可以遠程操作機器人採集數據,完成各種工作。
另外,我們還有一個服務機器人,輪臂機器人叫做天軼。後續這個天軼將加上雙臂和靈巧手,完成物理操作。
下面我重點介紹一下我們具身智能另一個非常重要的部分,即智能部分。在大模型時代,如何用AIGC技術賦能機器人,也就是我們的開物平台。稍微講一下歷史,因為我之前在高校做科研,以前有不同的名字,現在比較統一叫做具身智能。在大模型出現之前,做具身智能有兩個方法,主流的路徑:一個叫模仿學習,這是一種監督學習方法,需要大量的數據來訓練模型,指導機器人在物理世界完成各種操作。另一個是強化學習,模仿學習非常像跟著教科書、跟著老師學習,強化學習非常像實戰派,可能你是一個小白,把你扔在實際環境中學習經驗,在物理世界就能做好工作。這是在2021年發佈的頂級期刊文章,在非常簡單的操作杆上面帶著攝像頭,人工的視覺校正,物理世界開門、拉門、關抽屜,訓練機器人,機器人可以模仿人類做各種操作。
這是在2018年,也是AI頂級會議上發表的文章,用8台KUKA機械臂,100多種物體,強化學習的模型,在這些任務上達到比較好的成功率。大家知道在整個監督學習、強化學習中,各自有各自的優劣勢。在大模型出現之前,大家做了很多嘗試,因為模型數據、算力等各方面的限制,其實都沒有看到非常大規模的機器人在物理世界的應用,除了在工廠環境下的工業機器人,那些都是流程極其固定,甚至軌跡都非常固定的。除了這個之外,在非結構化、半結構化的物理世界里,沒有大規模的機器人應用大規模落地。
大腦加小腦的範式思考
在2022年底,隨著ChatGPT的出現,也掀起了AIGC浪潮。我們整個做機器人、做具身智能的肯定要思考,這個大模型和機器人結合,會產生怎樣的化學反應。我們像ChatGPT這類模型,最強的是它的泛化能力非常強。比如說我基於GPT來做一個問答機器人,之前我們問答機器人都是在某個領域,比如說訂票、金融領域的,現在我用GPT這種技術,能做到非常泛化,你基本上聊不死它,可以一直跟它聊天,有時候答案不準確,但是把你的知識庫搞好,答案也可以非常準確。我們想如何用大模型來提高機器人的泛化能力。所以現在大模型和具身智能相結合,大家可以看到,比較主流的一種路徑,覺得這條路走通了,所謂大腦加小腦的範式。我在雲端部署一個大模型,相當於機器人的大腦,它主要做場景的理解和任務的拆解,它要理解這個場景都有什麼東西,物品之間的關係、位置如何,以及它們和機器人相對的位置和關係如何。另外一個,就是做任務的拆解,來了一個任務,要把它拆成更小的、非常細力度的子任務,才能對應具體任務的執行。小腦可以是一個運行在機器人身上的智能體,它主要是根據大腦做的任務拆解,去做一些具體技能的執行,並且做一些錯誤處理。如果發生失誤了,比如說我抓這個杯子沒有抓起來,我要及時感知到失敗,另外重新去做這個操作。
這邊舉一個具體的例子,用戶的指令是「幫我拷一片麵包」。我們大腦拆解子任務:拿起麵包、放入麵包機中、按下麵包按鈕、等待、放入盤中。具體的智能體,拆解出來的子任務,具身智能體在機器人本體上有一個技能庫,具體的執行各種操作。
年底即將發佈的開物平台
我們在年底會正式發佈我們這個平台,今年先預熱一下。其他場合我們CEO也提到,這是一個開物平台,它是具身智能體,但是它是一個分佈式多具身智能體。整個扮演這樣一個角色,有點像操作系統,其實我們對底下層要適配各類硬件,這就是一腦多機,要支持各種硬件,不只限於天工或者是天軼的平台。所謂用戶、方案集成商、應用方案開發商,要非常熟悉物流場景或者是醫療場景,他們在這個基礎上,甚至用簡單的自然語言編程,甚至做一些簡單的低代碼的生成,生成這樣的應用,控制機器人,完成各種操作,這就是所謂的一腦多能。
前面解釋了,我們這個開物是具身智能體,但是它是分佈式多具身智能體這樣一個系統。在雲有一個Brain Agent完成理解、拆解任務,把它對應到各個原技能上。什麼是原技能?原技能是一個動詞,不帶賓語的動詞,比如說打開、拿起、放下等等。但是我覺得這個原技能要分場景做不同的原技能,比如說一個OPEN,不一定在家居場景、或者是工業場景、或者是物流場景,放之各種場景皆準,這個非常難。
所以具身智能體扮演的角色跟大模型非常類似,大模型支持人和機器的交互,它讓我們做人機交互、人機協作的應用,問答機器人非常簡單,投入幾個人,幾天時間就能幹出來。我們開物平台是解決人與物理世界的交互,我們最終目標也是希望你投入很小的團隊,不一定幾天幹出來,這個涉及到更多的維度,比如說在一週或者兩週時間就能做出一個機器人下地幹活,這個也是主要的目標。
整個這邊總結一個特點,我們會用百萬級的軌跡數據來訓練我們機器人,讓它有非常強大的泛化能力,所謂讓它能開萬物,能操作各種各樣不同的在物理世界的物體。另外我們是一個雙臂,完成各類操作。同時用原技能向穿珍珠搭積木的方式,適配各種場景,我們希望用這種方式能夠很快適配各種場景,而不需要針對某一個場景下的某一個特定任務,專門開發一套程序,這就是整個我們想實現的目的。
另外也是實現在精準的任務拆解,包括複雜任務,幾十步的任務都能拆解。總體開物的目標是降低90%的開發時間,就像我們現在用GPT,類似的大模型來做一個人機交互、人機問答的應用,這樣一個APP,我可能用很短的時間,很少的投入就可以做成,這也是我們開物,希望我們作為一個機器人的應用,也能在很短時間內完成。
最後也是大家比較感興趣的,現在在跟行業眾多的機器人公司一起合作,也是在政府資金支持下,做一個多本體,有各種各樣的機器人,包括各種各樣的機械臂,多場景,多任務的數據集。大家知道具身智能非常重要,在網上也看到,前OpenAI首席科學家蘇茨克維說,他本來想做人工智能,結果沒有大數據,就把這個事情幹成了,互聯網的數據不是特別有價值,不是特別有幫助,對於機器人訓練,它需要的是軌跡數據。我們現在也在做這個,在年底計劃要發佈30萬條有稠密信息的,包括末端執行,以及各個關節,七關節或者六關節,在每個時刻的落地位姿,以及各個傳感器,在每個時刻的讀數和視覺信息,根據你自己的需要決定如何訓練機器人。明年年底打算發佈200萬條。
後面是一些關鍵技術和國際頂級會議上發佈的學術論文,時間關係簡單過一下。這個是做大腦方面相關的叫具身指令增強,我們發現人類指令來了,可能會非常簡單,比如說抓起這個玩具熊,如果做一個簡單的擴展,指出相應的物品絕對位置,以及它跟機器人相對的位置,把指令擴展以後,我們發現能極大的提升抓取各類操作的成功率。
第二個工作,也是大家都知道,我們把它擴展到多任務,一個VLA的模型,能執行多種任務。
這個是跟單臂做實驗,現在很多VLA模型,這個是影片展示多臂實現雙臂真正的協同操作,而不是左臂干左臂的事,右臂干右臂的事,這個完全可以實現的,我們不會用很多VLA模型,我們一個VLA模型可以覆蓋多種技能。
最後這個工作,我們發現用RGB-D攝像頭,也是在人形機器人用的比較廣泛的。我們看到第二行,有些黑色的洞,我們提出一個模型能自動補全這些缺失,從而提升各種任務的成功率。
最後想分享的是,上世紀80年代,隨著麥金塔圖形界面的電腦出現,進入個人電腦時代,2005、2006年,隨著iPhone智能手機把人類帶入移動互聯網時代,每人擁有一台手機,我們堅信未來一定是具身智能機器人時代,千家萬戶,每家有一台具身智能機器人。我們也希望和在座的各位夥伴,我們各個同行一起共同努力,推動人類進入具身智能機器人時代。謝謝大家!