獲貝索斯參投的4億美元融資，這家公司打造機器人用的「GPT-4」

11月14日 19:3611月14日 19:45 新浪網 tech-auto-hilite

文 | 阿爾法公社

在曆次AI創新潮流中，機器人的創新都會受益，本次AI熱潮也不例外。不過目前湧現出來的大部分是專用的機器人，這些機器人的智能也是在某個領域的專有智能。這樣做的局限性在於，研發成果無法複用，機器人用的模型和硬件，只適用於某個很小的領域。

近期，一個通用的機器人大腦雛形誕生，一家叫Physical Intelligence的機器人公司訓練了一個叫π(0)的通用機器人基礎模型，它的智能基本上適用於任何機器人應用。這意味著，當這一類通用模型成熟後，再開發某一個專有領域的機器人，至少在「大腦」部分，只需要用行業數據微調就行。這就像軟件創業者想在某個細分領域創業，只需要微調GPT-4一樣。

Physical Intelligence在2024年獲得了2輪融資，3月，Thrive Capital領投了它7000萬美元的種子輪融資，Khosla Ventures、Lux Capital、OpenAI和Sequoia Capital參與投資；11月，傑夫·貝佐斯、OpenAI、Thrive Capital、Lux Capital、Bond Capital、Khosla Ventures和Sequoia Capital共同參與了它4億美元的新一輪融資，這使得它的估值達到24億美元。

此前，傑夫·貝佐斯領投了Figure AI的6.75億美元融資，Skild AI的3億美元的A輪融資，亞馬遜還收購了Covariant AI的團隊。OpenAI參與了Figure AI的投資，以及1X金額為2350萬美元的早期投資。機器人領域，被投資機構和

科技巨頭們普遍看好。

一群科學家聚在一起打造通用的機器人大腦

Physical Intelligence的核心團隊來自加州大學伯克利分校、史丹福大學等高校，以及特斯拉、GoogleDeepMind、Stripe等頂尖科技公司。

Karol Hausman

它的聯合創始人兼首席執行官Karol Hausman是史丹福大學兼職教授，也曾是Google Brain在機器人方向的研究科學家，他的論文引用數超過13000。聯合創始人Sergey Levine是加州大學伯克利分校副教授，也是機器人方面的頂級專家，他的論文引用數達到15萬。聯合創始人Chelsea Finn是史丹福大學副教授，論文引用數達6.3萬。

Sergey Levine

創始團隊中還有Google前研究科學家Brian Ichter，以及Stripe前高管和知名科技投資人Lachy Groom。

Physical Intelligence的願景是：用戶可以像使用大模型支持的聊天助手一樣，讓機器人執行任何他們想要的任務。

通用機器人基礎模型對於行業意味著什麼？

目前，AI的應用方向可以大致分為兩種，一種是在虛擬空間與人類互動，一種是直接與物理世界互動。在虛擬空間與人類互動，例如聊天機器人，AI企業搜索和Agent，法律AI、編程AI等垂直行業AI。

直接與物理世界互動，主要通過機器人和自動駕駛汽車來實現。在機器人應用的分類上，也可以分為專用和通用兩種。

現在，大多數機器人屬於「專用型」，這些機器人能適應限定環境中的少量變化，但難以應對像家庭或其他較為複雜和淩亂的真實環境。還有一部分屬於通用型機器人，例如一些人形機器人。他們被設計出來，就是為了應對人類可以完成的大多數事情，而不是局限於某一個有限場景。

機器人的結構，大致可分為「大腦」、「小腦」、「眼睛」和「肢體」，其中「大腦」是機器人的中樞，負責理解外界的指令，並做決策，一般是通用或專用的模型；「小腦」將決策命令輸入進「肢體」並控制他們，是控制系統；「肢體」是機器人直接與物理世界接觸的部分，可能是人形，犬形或機械臂，甚至可能是一輛車；而「眼睛」就是「大腦」感知外界的傳感器。

所有這些部分，都有大公司或頂尖創業公司在創新和耕耘，不過「小腦」、「眼睛」和「肢體」都已經在前幾次的機器人浪潮中逐漸成熟，而機器人的「大腦」還處於初級階段。

對於垂直場景中的清潔機器人，噴塗機器人，配送機器人，倉儲搬運機器人，他們只具有對應於垂直場景的專有智能，他們的「大腦」模型只能理解和處理有限場景中的情況，更早一些的專有機器人，他們只能做固定好的動作，並且需要大量的人類編程。

通用的機器人大腦模型，可以一定程度改變這一現狀，它使機器人能夠學習並遵循用戶指令，從而讓編程新的行為變得非常簡單，還讓機器人能夠自行調整其行為以適應環境。

對於任何垂直領域的機器人創業者，只要有一個通用的機器人大腦模型，再結合自己行業的專有數據，就可以微調出一個適應具體應用場景的機器人大腦。這個邏輯與大語言模型+專有數據=強大的行業模型，是一模一樣的。

從更深一層來說，通用機器人基礎模型，對於實現通用人工智能（AGI）也很有幫助。現在AI研究員們發現，Scaling Law的效果正在減弱，原因是AI模型遇到了「數據牆」——幾乎所有現存的高質量數據都已經被訓練，模型缺少更多更好的數據。如果有一個通用機器人模型，它不斷地與物理世界交互，不斷遇到和解決複雜的情況，那麼就會源源不斷產生高質量數據，最後就會離AGI越來越近。

訓練通用機器人基礎模型需要什麼新方法？

Physical Intelligence目前的原型通用機器人基礎模型叫π0（pi-zero）。它基於廣泛多樣的數據進行訓練，並能夠執行各種文本指令。但不同於大語言模型的是，它還整合了圖像、文本和動作，並通過在機器人體驗中積累的實際操作來獲得物理智能，它輸出的是低級別的電機指令。它可以控制各種不同類型的機器人，而且既可以接受提示執行所需任務，也可以微調以適應複雜的應用場景。

在訓練π0模型時，Physical Intelligence使用了一些特殊的訓練策略。

首先是跨設備的混合訓練，π0模型使用互聯網規模的視覺-語言預訓練、開源的機器人操作數據集以及自行收集的來自8種不同機器人的精密任務數據集，從而能夠通過零樣本提示或微調來執行多種任務。

這些數據集包含多樣化的任務，每個任務展示了豐富的運動基本單元、不同的物體和多種場景；這些任務也涵蓋了機器人靈巧操作的不同維度，PhysicalIntelligence選擇這些任務的目標不是解決某個特定應用，而是為模型提供對物理交互的通用理解——為物理智能奠定初步的基礎。其次是互聯網規模的語義理解，這個訓練的起點是一個視覺-語言模型（VLM）。VLM能有效地從網絡中轉移語義知識，但它們只能輸出離散的語言token，而精密的機器人操作需要π0以高頻率（每秒最多50次）輸出電機指令。

為了達到這種靈活性，PhysicalIntelligence使用流匹配（一種擴散模型的變體）來增強VLM模型，使其能夠輸出連續的動作指令；這樣就形成了一個視覺-語言-動作流匹配模型，隨後對其進行高質量的機器人數據後訓練，以解決一系列下遊任務。

最後是針對精密操作的後訓練，更複雜的精密任務需要對模型進行微調，通過高質量數據對模型進行微調，例如摺疊衣物的任務，就類似於大語言模型的後訓練過程。預訓練讓模型掌握物理世界的知識，而微調則使其在特定任務上表現出色。

當然，π0不是唯一的通用機器人基礎模型，Physical Intelligence將它與其他的一些通用機器人基礎模型在Zero-shot的條件下，用一些實際的任務，例如摺疊衣服，將吐司麵包從麵包機中拿出來，將雜物打包等，來測試模型解決實際問題的能力。結果顯示，無論是π0還是更小的π0-small，在解決問題能力上，都大幅優於現有的OpenVLA等模型。

例如，在摺疊衣物、餐桌清理和組裝盒子等任務中，π0支持的機器人可以將糾纏在一起的衣物分開，並摺疊好；可以將餐具或杯子放入清理托盤，並將垃圾放入垃圾桶；還可以拿起一個平整的紙板箱，將其摺疊成形，然後插入折邊。這些動作都不是少步驟的簡單任務，而是需要複雜動作的家務或生產活動。

不過，截至目前，π0還只是一個原型模型，通用機器人基礎模型仍然處於起步階段。Physical Intelligence表示他們還將繼續收集數據並對模型進行訓練，從而實現新的靈活性和物理能力。

在商業化方面，Physical Intelligence目前暫時沒有明顯的動作。

中國的機器人產業，需要核心技術更需要落地

為什麼無論是頂尖投資機構，還是傑夫·貝索斯等科技巨頭的掌舵人都要押注機器人？答案很可能是前文提到的，機器人可以與AI結合，探索物理世界，產生大量真實而高質量的數據，最終幫助實現AGI。

事實上大家不僅是投資，也會自己下手做，除了特斯拉的Optimus，英偉達也有機器人通用模型系列工具NVIDIA Project GR00T，亞馬遜則有Sparrow（倉儲機器人系統）和Digit（雙足機器人）。

在創業公司方面，Figure AI主要做Figure 01和Figure 02人形機器人，他們的大腦由OpenAI定製的模型組成，具有較強的泛用性，不僅可以完成衝咖啡等生活技能，還能去工廠里「擰螺絲」。

Skild AI主要做Skild Brain和移動操作平台，其中Skild Brain是類似於π0的機器人通用大腦。

1X也做的是專為家庭設計的雙足人形機器人NEO Beta，而Vayu One是Vayu Robotics的送貨機器人，它還有Vayu Drive這個移動基礎模型。

目前，中國在機器人方面，在核心算法和高級運動控制系統方面與美國還是有一定差距，但是無論是機器人的「大腦」、「小腦」、「眼睛」和「肢體」；各種專有機器人和人形/狗形通用機器人，都有大公司和頂尖創業公司在努力創新開拓。這些公司就包括阿里，小米，小鵬，大疆，宇樹等。

而且中國一方面擁有巨大的市場和豐富的應用場景，一方面機器人的密度還不夠高，這就有巨大的潛在市場需求。對於機器人創業者，即便專注於國內的市場，也有足夠的發展空間，而當在國內市場「卷贏」後，又可以進一步向國際市場開拓。

在創業方向上，固然需要在「大腦」、「小腦」等基礎及核心的方向上進行突破，更需要在各種各樣的應用場景出湧現出大量的創新者。應用和基礎技術相互促進，才能使整個機器人創新創業生態健康發展。作為天使投資機構，阿爾法公社希望發現智能機器人領域的非凡創業者，希望幫助下一個世界級的機器人公司發展壯大。

你可能喜歡