獲貝索斯參投的4億美元融資,這家公司打造機器人用的「GPT-4」

文 | 阿爾法公社

在曆次AI創新潮流中,機器人的創新都會受益,本次AI熱潮也不例外。不過目前湧現出來的大部分是專用的機器人,這些機器人的智能也是在某個領域的專有智能。這樣做的局限性在於,研發成果無法複用,機器人用的模型和硬件,只適用於某個很小的領域。

近期,一個通用的機器人大腦雛形誕生,一家叫Physical Intelligence的機器人公司訓練了一個叫π(0)的通用機器人基礎模型,它的智能基本上適用於任何機器人應用。這意味著,當這一類通用模型成熟後,再開發某一個專有領域的機器人,至少在「大腦」部分,只需要用行業數據微調就行。這就像軟件創業者想在某個細分領域創業,只需要微調GPT-4一樣。

Physical Intelligence在2024年獲得了2輪融資,3月,Thrive Capital領投了它7000萬美元的種子輪融資,Khosla Ventures、Lux Capital、OpenAI和Sequoia Capital參與投資;11月,傑夫·貝佐斯、OpenAI、Thrive Capital、Lux Capital、Bond Capital、Khosla Ventures和Sequoia Capital共同參與了它4億美元的新一輪融資,這使得它的估值達到24億美元。

此前,傑夫·貝佐斯領投了Figure AI的6.75億美元融資,Skild AI的3億美元的A輪融資,亞馬遜還收購了Covariant AI的團隊。OpenAI參與了Figure AI的投資,以及1X金額為2350萬美元的早期投資。機器人領域,被投資機構和

科技巨頭們普遍看好。

一群科學家聚在一起打造通用的機器人大腦

Physical Intelligence的核心團隊來自加州大學伯克利分校、史丹福大學等高校,以及特斯拉、GoogleDeepMind、Stripe等頂尖科技公司。

獲貝索斯參投的4億美元融資,這家公司打造機器人用的「GPT-4」Karol Hausman

它的聯合創始人兼首席執行官Karol Hausman是史丹福大學兼職教授,也曾是Google Brain在機器人方向的研究科學家,他的論文引用數超過13000。聯合創始人Sergey Levine是加州大學伯克利分校副教授,也是機器人方面的頂級專家,他的論文引用數達到15萬。聯合創始人Chelsea Finn是史丹福大學副教授,論文引用數達6.3萬。

Sergey LevineSergey Levine

創始團隊中還有Google前研究科學家Brian Ichter,以及Stripe前高管和知名科技投資人Lachy Groom。

Physical Intelligence的願景是:用戶可以像使用大模型支持的聊天助手一樣,讓機器人執行任何他們想要的任務。

通用機器人基礎模型對於行業意味著什麼?

目前,AI的應用方向可以大致分為兩種,一種是在虛擬空間與人類互動,一種是直接與物理世界互動。在虛擬空間與人類互動,例如聊天機器人,AI企業搜索和Agent,法律AI、編程AI等垂直行業AI。

直接與物理世界互動,主要通過機器人和自動駕駛汽車來實現。在機器人應用的分類上,也可以分為專用和通用兩種。

現在,大多數機器人屬於「專用型」,這些機器人能適應限定環境中的少量變化,但難以應對像家庭或其他較為複雜和淩亂的真實環境。還有一部分屬於通用型機器人,例如一些人形機器人。他們被設計出來,就是為了應對人類可以完成的大多數事情,而不是局限於某一個有限場景。

機器人的結構,大致可分為「大腦」、「小腦」、「眼睛」和「肢體」,其中「大腦」是機器人的中樞,負責理解外界的指令,並做決策,一般是通用或專用的模型;「小腦」將決策命令輸入進「肢體」並控制他們,是控制系統;「肢體」是機器人直接與物理世界接觸的部分,可能是人形,犬形或機械臂,甚至可能是一輛車;而「眼睛」就是「大腦」感知外界的傳感器。

所有這些部分,都有大公司或頂尖創業公司在創新和耕耘,不過「小腦」、「眼睛」和「肢體」都已經在前幾次的機器人浪潮中逐漸成熟,而機器人的「大腦」還處於初級階段。

對於垂直場景中的清潔機器人,噴塗機器人,配送機器人,倉儲搬運機器人,他們只具有對應於垂直場景的專有智能,他們的「大腦」模型只能理解和處理有限場景中的情況,更早一些的專有機器人,他們只能做固定好的動作,並且需要大量的人類編程。

通用的機器人大腦模型,可以一定程度改變這一現狀,它使機器人能夠學習並遵循用戶指令,從而讓編程新的行為變得非常簡單,還讓機器人能夠自行調整其行為以適應環境。

對於任何垂直領域的機器人創業者,只要有一個通用的機器人大腦模型,再結合自己行業的專有數據,就可以微調出一個適應具體應用場景的機器人大腦。這個邏輯與大語言模型+專有數據=強大的行業模型,是一模一樣的。

從更深一層來說,通用機器人基礎模型,對於實現通用人工智能(AGI)也很有幫助。現在AI研究員們發現,Scaling Law的效果正在減弱,原因是AI模型遇到了「數據牆」——幾乎所有現存的高質量數據都已經被訓練,模型缺少更多更好的數據。如果有一個通用機器人模型,它不斷地與物理世界交互,不斷遇到和解決複雜的情況,那麼就會源源不斷產生高質量數據,最後就會離AGI越來越近。

訓練通用機器人基礎模型需要什麼新方法?

Physical Intelligence目前的原型通用機器人基礎模型叫π0(pi-zero)。它基於廣泛多樣的數據進行訓練,並能夠執行各種文本指令。但不同於大語言模型的是,它還整合了圖像、文本和動作,並通過在機器人體驗中積累的實際操作來獲得物理智能,它輸出的是低級別的電機指令。它可以控制各種不同類型的機器人,而且既可以接受提示執行所需任務,也可以微調以適應複雜的應用場景。

在訓練π0模型時,Physical Intelligence使用了一些特殊的訓練策略。

首先是跨設備的混合訓練,π0模型使用互聯網規模的視覺-語言預訓練、開源的機器人操作數據集以及自行收集的來自8種不同機器人的精密任務數據集,從而能夠通過零樣本提示或微調來執行多種任務。

這些數據集包含多樣化的任務,每個任務展示了豐富的運動基本單元、不同的物體和多種場景;這些任務也涵蓋了機器人靈巧操作的不同維度,PhysicalIntelligence選擇這些任務的目標不是解決某個特定應用,而是為模型提供對物理交互的通用理解——為物理智能奠定初步的基礎。其次是互聯網規模的語義理解,這個訓練的起點是一個視覺-語言模型(VLM)。VLM能有效地從網絡中轉移語義知識,但它們只能輸出離散的語言token,而精密的機器人操作需要π0以高頻率(每秒最多50次)輸出電機指令。

為了達到這種靈活性,PhysicalIntelligence使用流匹配(一種擴散模型的變體)來增強VLM模型,使其能夠輸出連續的動作指令;這樣就形成了一個視覺-語言-動作流匹配模型,隨後對其進行高質量的機器人數據後訓練,以解決一系列下遊任務。

最後是針對精密操作的後訓練,更複雜的精密任務需要對模型進行微調,通過高質量數據對模型進行微調,例如摺疊衣物的任務,就類似於大語言模型的後訓練過程。預訓練讓模型掌握物理世界的知識,而微調則使其在特定任務上表現出色。

當然,π0不是唯一的通用機器人基礎模型,Physical Intelligence將它與其他的一些通用機器人基礎模型在Zero-shot的條件下,用一些實際的任務,例如摺疊衣服,將吐司麵包從麵包機中拿出來,將雜物打包等,來測試模型解決實際問題的能力。結果顯示,無論是π0還是更小的π0-small,在解決問題能力上,都大幅優於現有的OpenVLA等模型。

例如,在摺疊衣物、餐桌清理和組裝盒子等任務中,π0支持的機器人可以將糾纏在一起的衣物分開,並摺疊好;可以將餐具或杯子放入清理托盤,並將垃圾放入垃圾桶;還可以拿起一個平整的紙板箱,將其摺疊成形,然後插入折邊。這些動作都不是少步驟的簡單任務,而是需要複雜動作的家務或生產活動。

不過,截至目前,π0還只是一個原型模型,通用機器人基礎模型仍然處於起步階段。Physical Intelligence表示他們還將繼續收集數據並對模型進行訓練,從而實現新的靈活性和物理能力。

在商業化方面,Physical Intelligence目前暫時沒有明顯的動作。

中國的機器人產業,需要核心技術更需要落地

為什麼無論是頂尖投資機構,還是傑夫·貝索斯等科技巨頭的掌舵人都要押注機器人?答案很可能是前文提到的,機器人可以與AI結合,探索物理世界,產生大量真實而高質量的數據,最終幫助實現AGI。

事實上大家不僅是投資,也會自己下手做,除了特斯拉的Optimus,英偉達也有機器人通用模型系列工具NVIDIA Project GR00T,亞馬遜則有Sparrow(倉儲機器人系統)和Digit(雙足機器人)。

在創業公司方面,Figure AI主要做Figure 01和Figure 02人形機器人,他們的大腦由OpenAI定製的模型組成,具有較強的泛用性,不僅可以完成衝咖啡等生活技能,還能去工廠里「擰螺絲」。

Skild AI主要做Skild Brain和移動操作平台,其中Skild Brain是類似於π0的機器人通用大腦。

1X也做的是專為家庭設計的雙足人形機器人NEO Beta,而Vayu One是Vayu Robotics的送貨機器人,它還有Vayu Drive這個移動基礎模型。

目前,中國在機器人方面,在核心算法和高級運動控制系統方面與美國還是有一定差距,但是無論是機器人的「大腦」、「小腦」、「眼睛」和「肢體」;各種專有機器人和人形/狗形通用機器人,都有大公司和頂尖創業公司在努力創新開拓。這些公司就包括阿里,小米,小鵬,大疆,宇樹等。

而且中國一方面擁有巨大的市場和豐富的應用場景,一方面機器人的密度還不夠高,這就有巨大的潛在市場需求。對於機器人創業者,即便專注於國內的市場,也有足夠的發展空間,而當在國內市場「卷贏」後,又可以進一步向國際市場開拓。

在創業方向上,固然需要在「大腦」、「小腦」等基礎及核心的方向上進行突破,更需要在各種各樣的應用場景出湧現出大量的創新者。應用和基礎技術相互促進,才能使整個機器人創新創業生態健康發展。作為天使投資機構,阿爾法公社希望發現智能機器人領域的非凡創業者,希望幫助下一個世界級的機器人公司發展壯大。