自變量開啟“進家”倒計時,CEO王潛:全球還沒機器人可獨立完成“家庭任務”

新浪科技訊 4月22日下午消息,自變量機器人(簡稱:自變量)發佈新一代機器人進家庭計劃,宣佈5月25日後旗下機器人將搭載自研具身智能基礎模型WALL-B入駐真實家庭,開啟機器人服務家庭生活的成長之旅。從即日起,自變量開始招募首進家庭機器人的家長,用戶可通過官方渠道提交申請。

在機器人進入家庭的過程中,家庭場景隨機、碎片、不斷變化的特性,成為了限制機器人使用場景的一大難題。自變量創始人兼CEO王潛指出,目前全球沒有任何一台機器人可以在無遙控操作的情況下,獨立完成家庭場景中的綜合整理任務。舞台上的後空翻、跳街舞、寫毛筆字等機器人演示雖然視覺衝擊力強,但這些動作本質是預設軌跡的“命令行機器人”,每一個動作都經過預先編程或遙控操作,工廠中已經部署的工業機器人同樣不構成可比案例——工廠環境下一個動作可以重複一萬次且每次條件相同;而在家庭中,一萬個動作每個可能只做一次,每次的環境條件都不一樣。

在王潛看來,當前機器人產業硬件已經到位了——雙足、靈巧手、力控關節都很好,但大腦沒有跟上,當前機器人的核心瓶頸不在本體,而在智能。家庭環境中的每一秒都可能出現全新事件:貓何時跳上桌子、孩子把玩具扔在哪裡、地毯的摩擦力與實驗室地板完全不同,現有技術無法處理這種隨機性和碎片化。

作為從成立之初便聚焦於為機器人構建“大腦”的企業,自變量於2024年底發佈了基於VLA(視覺-語言-動作)架構的第一代具身基礎模型WALL-A,但通過與58同城合作將搭載WALL-AS模型的機器人送入真實家庭很快看到了VLA架構的“天花板”:VLA架構本質上是三個獨立模塊的拚接,視覺模塊負責識別物體,語言模塊理解指令,動作模塊生成軌跡,數據在這三個模塊之間逐級傳遞,每經過一次模塊邊界就會發生信息損耗和延遲,更根本的問題在於——VLA模型只能模仿訓練數據中的軌跡,無法真正理解物理世界的規律。

基於此,自變量從底層架構到訓練範式上全面重寫並推出了WALL-B。據自變量機器人聯合創始人兼CTO王昊介紹,WALL-B區別於行業其他方案的核心,是其從VLA到WUM的架構革命,該架構的設計思路類似於Apple Silicon的統一內存架構——將視覺、語言、動作、物理預測等所有能力,放在同一個網絡中從零開始聯合訓練、融為一體,消除模塊間的邊界和數據搬運損耗。

基於這一架構,WALL-B 實現了三項區別於行業現有模型的核心技術特徵:

第一,原生多模態。WALL-B 從訓練第一天起,即對視覺、聽覺、語言、觸覺、動作等多模態數據進行同步標註與聯合訓練,實現“多模態進、多模態出”。這意味著模型不需要通過“傳話”的方式在不同模塊間轉譯信息——它看到杯子的同時就已經在準備伸手,感覺到重量的同時就已經在調整力度,這種架構賦予了模型一種被稱為“原生本體感”的能力:WALL-B無需持續觀察自身全身或依賴大量外部傳感器,即可內在地感知自身的空間尺寸,如高度、寬度、手臂伸展範圍,並判斷能否通過某個空間或觸及某個物體。

第二,物理世界的“世界觀”。 WALL-B 能夠感知並預測重力、慣性、摩擦力、速度等基本物理規律。在從未見過的場景中——例如一個盤子一半懸空在桌沿外——模型可以推斷出盤子掉落摔碎,從而採取預防動作,這種對物理規律的理解為零樣本泛化提供了基礎。

第三,與世界交互並自我進化。 這是WUM架構區別於所有現有VLA模型的最根本特徵。目前主流機器人在任務失敗後通常直接停止,返回錯誤信息,無法從失敗中學習。WALL-B的行為模式則完全不同:它在失敗後會調整策略再次嚐試,如果成功,則將這次成功的經驗直接更新到模型參數中。這種機制使模型在真實環境中完成自我迭代,無需工程師重新訓練、無需人工注入新數據、無需返回實驗室。(文猛)