大模型給具身智能裝上「大腦」

剛過去的八月,AI 領域機器人「上桌」。前有華為天才少年「稚暉君」的智元機器人一口氣發佈了五款商用人形機器人,後有多達 27 款人形機器人亮相世界機器人大會。

蘋果也宣佈將進軍機器人行業,推出一款帶有機械臂的桌面機器人,代號J959。外媒猜測,蘋果將利用這款機器人設備攻入智能家居市場,被認為是蘋果進軍機器人市場的第一步。

據外媒報導,該設備將結合一個類似 iPad 的大型顯示屏、攝像頭和一個帶有機械臂的底座,預計將於 2026 年或 2027 年左右發佈。

從搬運貨物的輪式機器人到能寫一手老練毛筆字的AI機器人助理,再到可以檢測汽車部件的工業機器人,人形機器人正在向產業和生活端不斷滲透。

同時,國內具身智能熱也從產業端蔓延至投融資領域,熱錢瘋狂湧入。根據來覓PEVC的數據顯示,2024年一季度機器人領域合計發生融資案例59起,涉及融資金額45.22億元。其中,最為瘋狂的是,智元機器人成立17個月就完成了7輪融資,投前估值已達70億元。

具身智能成為繼AI Agent之後的另一個火熱的大模型落地方向,也是大家都無法也不敢錯過的存在。

一方面,創業者集中湧入。IT桔子數據顯示,2023年1月至今國內共成立了29家人形機器人公司,其中有22家已經獲得至少1輪融資。

另一方面,大廠也都或多或少地參與到具身智能的投資中。具身智能初創企業融資背後不乏百度、阿里、美團、科大訊飛、小米、聯想、京東等科技巨頭的身影。

實際上,現在具身智能之所以如此火熱出圈,離不開大模型及生成式AI的發展。

具身智能這一概念早在1950年就被提出,進入21世紀後,具身智能開始在機器人領域進一步發展。直到去年 ITF World 大會上,「具身智能」概念被黃仁勳帶火。黃仁勳直言,人工智能的下一個浪潮將是具身智能,即能理解、推理並與物理世界互動的智能系統。

大模型的出現讓具身智能賦能實際應用這曾一遙不可及的夢想有了實現的可能性。

那麼大模型是如何影響具身智能的?具身智能是曇花一現還是能長盛不敗?其發展的難點、卡點和關鍵點又是什麼?

一、初創企業狂吸金,巨頭進場砸錢

在大模型領域一直流傳著「新AI四小龍」和「大模型五虎」,而在具身智能賽道也有自己的「新舊四小龍」。

「老牌四小龍」包括優必選、達闥機器人、非夕科技、宇樹科技;「新四小龍」則分別是智元機器人、有鹿機器人、逐際動力和銀河通用。

老牌四小龍成立時間早,大多集中在2012-2015年成立,在技術、產品以及市場上都更為成熟。

而新四小龍則大都誕生於這波大模型浪潮下,相比於傳統機器人公司,他們更加關注將AI與機器人的深度融合。儘管成立時間較短,但這些新興公司在市場上展現出強大的競爭力,吸引了大量投資。

智元機器人成立之初就自帶光環,由華為天才少年「稚暉君」帶隊,專注於發展通用人形機器人和具身智能,致力於以AI+機器人的融合創新,打造世界級領先的機器人產品和生態。

目前,智元機器人已經拿到了天使輪、A輪、A1輪、A1+輪、A2輪、A3輪、A4輪等多輪融資,其中包括紅杉中國、尚欣資本、上海臨港新片區基金等頂級資本,還有百度、比亞迪、上汽等產業資本,「吸金」能力可謂強悍。

另一家明星企業當屬銀河通用。去年5月成立的銀河通用,在今年兩個月內,就完成兩次融資,今年6月獲得超7億人民幣天使輪融資,被稱為「年度最大天使輪」,僅一個月後香港投資管理有限公司追加投資。在新一輪融資後,銀河通用的最新估值為4.25億美元。

兩次融資的陣容也十分豪華,既有中關村科學城、首鋼基金等國資背景,也有IDG資本、源碼資本等風投機構,同時還包括美團戰投、訊飛創投、商湯國香資本等產業資本。

有鹿機器人和逐際動力也都憑藉著自身的技術優勢和商業化落地方案獲得了資本的青睞。

有鹿機器人專注於機器人通用大腦研發,依託於自主研發的第二代具身智能技術LPLM大模型致力於讓每一台專業設備都擁有智能性。在今年5月獲得一筆來自中國頭部清潔設備製造商的超千萬元的訂單。

據官方披露,截至目前有鹿機器人已完成由元璟資本、創新工場、百度風投等投資的超1億元融資。

逐際動力是為數不多的將空間智能與運動智能結合的公司,這意味著機器人同時具備了”眼睛”和”肢體”的協調能力。其自主研發的「CL-1」的人形機器人已經基於實時地形感知上樓梯、起跑加速、轉身往返等運動。

7月,逐際動力也完成數億元A輪戰略融資,由阿里巴巴、招商局創投、上汽集團旗下尚頎資本領投,原始股東峰瑞資本、綠洲資本和明勢資本跟投。

一方面是,具身智能初創企業瘋狂吸金。據智東西統計,截至2024年6月30日,今年國內機器人行業融資69起,已披露金額的融資事件中億元級融資12起,機器人領域已披露融資總額總計約在75億元左右。

另一方面是,巨頭正在瘋狂砸錢。如果仔細分析就會發現,在具身智能融資背後,國內外大廠在具身智能領域的爭奪也進入白熱化階段。

百度、阿里、騰訊、美團等選擇直接投資。百度今年連續兩輪押注智元機器人;阿里領投逐際動力;而在銀河通用背後站著美團;騰訊投資了港股成功上市的「人形機器人第一股」優必選。

而字節跳動、小米等則選擇自主研發,字節跳動在AI和機器學習領域有著深厚的積累,小米則在智能家居和機器人領域有著豐富的經驗。

具身智能作為大模型之後的下一個人工智能趨勢,大家都不想錯過。

二、大模型給具身智能裝上「大腦」

史丹福大學計算機科學教授李飛飛認為,具身智能是 AI 領域的下一個「北極星問題」之一,它能夠在虛擬世界中探測和改變自身環境,與周圍環境交互,學習複雜的類人任務。

即具身智能能夠在與現實環境產生交互後,通過自身的學習,認識和改造世界。區別於我們目前所提到的AI大模型,如果說AI大模型現在能夠認識世界,那麼具身智能是AI的更高階形式,能夠對物理世界進行改造。

這也就意味著,具身智能的實現需要軟硬件高度集中,其中的核心突破點在於大模型。可以說,大模型給具身智能裝上了強大的「AGI大腦」。提升了機器人在感知、理解和規劃任務上的泛化能力,也對人機交互產生顛覆性影響。

那麼大模型如何影響具身智能的?

從架構上看,具身智能分為大腦、小腦和肢體三個重要部分。大腦負責感知和決策,小腦控制肢體生成動作,肢體則通過傳感器、執行器等硬件設備與物理世界進行交互。

以往,傳統的具身智能系統存在環境適應性差,只能在特定、預定的環境中運行,難以適應複雜多變的環境;任務執行效率低,往往需要人工干預;及缺乏自主學習和泛化能力。

而大模型的出現,正在改變了這一現象。大模型對具身智能的影響更多集中在「大腦」層面,目前的通用大模型本質都是在接收和回答圖文信息,是決策和感知的過程,而最直觀的效果是我們可以與機器人用自然語言的方式進行交流。

去年7月,李飛飛團隊發佈具身智能新成果,機器人接入大模型後直接聽懂人話,將複雜的指令轉化成具體行動規劃,無需額外數據和訓練。

在大語言模型+視覺語言模型的輔助下,機器人能從3D空間中分析出目標和需要繞過的障礙並規劃行動。

大模型的出現讓機器人理解世界的能力、推理決策的能力得到大幅度提升。

大模型之於具身智能的意義,不僅在於大模型讓機器人獲得自然語言能力,更重要的是這極大降低了機器人的使用門檻,有望推進機器人落地各行業應用場景。

可以說,大模型的成功,為具身智能的發展帶來了拐點,除了大模型的賦能,政策端的加持讓這一拐點加速推進。

2023年11月,工信部又印發《人形機器人創新發展指導意見》,提出到2025年建立創新體系、整機產品達到國際先進水平,以及到2027年產業綜合實力達到世界先進水平等發展目標。

今年6月,北京也發佈《北京市機器人產業創新發展行動方案(2023-2025年)》,首次針對人形機器人行業進行政策指導,並提出加緊佈局人形機器人,對標國際領先人形機器人產品,支持企業和高校院所開展人形機器人整機產品、關鍵零部件攻關和工程化。

在國內,人形機器人在智能製造領域不斷滲透,覆蓋電子、汽車等行業。家用場景下的機器人今年也迎來前所未有的發展機遇,市場規模已觸及數百億美元的量級,並預計未來十年內將繼續保持高速增長的態勢。

據國際機器人協會預測,2021年至2030年,全球人形機器人市場規模年復合增長率將高達71%。中國電子學會數據顯示,到2030年,我國人形機器人市場規模有望達到約8700億元。

從技術到產業,從政策引導到商業落地,具身智能的時代正在到來,也是各大科技巨頭押注具身智能深層原因。

三、具身智能的難點、卡點和關鍵點

儘管具身智能現在融資火熱、新品頻出,未來市場廣闊,但業內普遍認為產業尚處於早期,要形成規模化商業化應用還有很長一段路要走。

具身智能要向前發展,難在盈利和落地,卡在數據。

首先,具身智能商業化前景不明朗,盈利難。

被譽為「人形機器人第一股」的優必選,已經連續四年虧損。從2020年至2022年,公司的淨虧損分別達到7.07億元、9.20億元、9.75億元和12.34,累計虧損超過38億元,且毛利率也在不斷下滑。

具身智能難以實現商業化的背後是落地難的窘境。

目前人形機器人主要集中在在工業、交互服務、營銷,以及商業3C等場景,在家庭服務方面,要完全走進還需要5-8年時間,甚至更遠,而更多應用場景仍處在探索和試驗階段。儘管有些具身智能企業已經開始小規模量產,而要達到市場所需還遠遠不夠。

實際上,具身智能場景受限和量產困難的背後是成本的製約。儘管目前人形機器人的製造成本在逐漸下探,由之前的上百萬到如今的幾十萬,但對於整個市場的接受度來說依然在上限之上。

具身智能背後涉及從軟件到硬件的超長供應鏈,且技術門類眾多。

伺服器、減速機、控製器是工業機器人三大核心零部件,成本佔比超70%。由於人形機器人相較於工業機器人擁有更大的自由度,因此減速器、電機成本佔比將會更高。

要想將人形機器人的成本打下來,通過自研降低這些關鍵零部件的價格是繞不開的關鍵點。

在成本方面,還有一個大頭——數據。

數據是具身智能發展的核心壁壘,如何能持續從物理世界獲取數據並高效使用是製約其繼續發展的主要瓶頸。

當前,對於具身智能公司來說,絕大部分數據都是閉源的,如果要實現長足發展,構建數據自主權是必須要解決的問題。

智元機器人在過去一年里,構建了一套完整的全流程具身數據方案 AIDEA,投入了大量的數據採集成本。

稚暉君表示,他預計接下來智元會有百台以上自由部署機器人專門用來做端到端的數據採集,他們也將於四季度開源基於 AIDEA 的百萬條真機、千萬條仿真數據集,以積極建設開放生態。

實際上,數據問題背後還涉及到具身智能的泛化問題。泛化可以理解為一種遷移學習的能力,把從過去的經驗中學習到的表達、知識和策略應用到新的領域。

上文提到大模型對具身智能得影響主要集中在大腦層面,在感知和決策完成後,需要機器人調用「小腦」去泛化,根據任務驅動身體完成行為。

而在這一過程中大模型對肢體運動和控制得作用則小很多,也就是說具身智能得泛化能力還受到很大局限。

數據問題又不僅是數據問題 ,它與商業化息息相關。

當時GPT-40發佈時就有人分析,OpenAI之所以沒有發佈GPT-5而是發佈GPT-40的一個重要原因是想利用GPT-40獲取更多高質量的多模態數據資源。

有鹿機器人陳俊波博士曾表示,具身智能需要像特斯拉一樣在真實物理世界里獲取數據來完善世界模型,但想獲取真實物理世界的數據必須率先完成商業化,第一時間把產品投放到市場,獲得更大規模和更高質量的數據,數據規模變得更大後,智能程度更高,進一步推動商業化程度,實現正向循環。

長期來看,具身智能產品研發投入高、應用落地週期長,行業的馬太效應會逐漸顯現,資金和資源將湧向有技術突破、產品創新及手握訂單的頭部明星創企,而中腰部及尾部生存空間將進一步壓縮。

對具身智能企業來說,要想實現長足發展,數據、技術、商業化三者缺一不可,只有讓這三個飛輪轉起來,才能有望跑出來。

本文來自微信公眾號「AI大模型工場」,作者:參商,36氪經授權發佈。