「星動紀元」發佈端到端原生機器人大模型ERA-42,首個五指靈巧手、可完成百餘種任務|最前線
作者|黃楠
編輯|袁斯來
硬氪獲悉,星動紀元近日發佈端到端原生機器人大模型ERA-42,其與自研的五指靈巧手星動XHAND1相結合,首次實現僅憑一個具身大模型,即可驅動五指靈巧手運用多種工具,完成超過100項複雜精細的操作任務;包括拿起螺釘並用鑽緊固、用錘子敲打釘子、扶正水杯並倒水等。
在通用性和靈巧操作能力方面,ERA-42無需任何預編程技能,具備強泛化與自適應能力,基於少量數據收集,可在不到2小時即可學會新任務,並持續快速學習更多新技能。
星動紀元指出,具身大模型作為開啟通用具身智能體的密鑰,需要具備以下三個要素。第一,統一一個模型泛化多種任務和環境;通過構建一個統一的原生模型,融合視覺、語言、觸覺和身體姿態等全模態信息,實現對不同任務和環境的泛化能力。
第二是端到端,從接收全模態數據,到生成最終輸出如決策、動作等,通過一個簡潔的神經網絡鏈路完成。該過程無需人為設計特徵、預編程或干預處理步驟,使得具身智能體能夠實時適應不同任務和環境,顯著提升靈活性與開發效率。
第三是Scaling up(規模化),允許模型通過持續的數據積累實現自我完善,使得具身大模型在數據量指數級增長的同時,不僅提升性能,還能在未知任務中展現卓越的自適應和泛化能力。例如Physical Intelligence (簡稱PI)發佈的π0模型就具備上述要素,是典型的真正意義上的端到端具身大模型。
基於端到端算法,星動紀元採用了大規模影片數據學習策略,涵蓋無標註的影片數據、公開各類形態機器人的數據、人類活動數據以及遙操作數據等,在上述數據使用基礎上學習行動結果,可有效降低數據收集成本。
此外,星動紀元團隊已將世界模型融入原生機器人大模型中,使得模型不僅具備行動能力,還具備了對物理世界的理解能力,能夠對未來行動軌跡進行預測,並迅速響應外部干擾,在任務執行過程中持續自適應優化行為,直至任務完成,提升機器人執行任務的高效性和準確性。
在實際應用中,相比傳統的夾爪機器人,基於ERA-42能力的五指靈巧手星動XHAND1能使用多種工具,完成更通用、靈巧性更強、複雜度更高的操作任務。例如,通過簡單的彩色方塊抓取數據訓練後,ERA-42就能成功實現從未見過的多樣化物體的抓取泛化。
面對單任務或長序列任務時,ERA-42展現了強大的抗干擾能力。測試顯示,隨著模型規模的擴大,任務成功率也明顯提升,初步體現了和大語言模型訓練中類似的「Scaling效應」。
硬件方面,為構建通用具身智能體,星動紀元推出了為AI定義的全新硬件平台。以星動XHAND1為例,它共有12個主動自由度,並採用純電驅方式實現全自主五指關節驅動。每個手指配備有一個高解像度觸覺陣列傳感器,可提供精確的三維力觸覺和溫度信息。
依託ERA-42,星動紀元通用人形機器人執行任務的通用性和泛化性將大幅提升,結合此前發佈的在複雜多樣的地形上穩定行走和奔跑的運動性能,配合上下肢協同作業能力,潛在應用場景也將更加多元化,真正實現原生的通用具身智能體的產業化落地。