「星動紀元」發佈端到端原生機器人大模型ERA-42,首個五指靈巧手、可完成百餘種任務|最前線

作者|黃楠

編輯|袁斯來

硬氪獲悉,星動紀元近日發佈端到端原生機器人大模型ERA-42,其與自研的五指靈巧手星動XHAND1相結合,首次實現僅憑一個具身大模型,即可驅動五指靈巧手運用多種工具,完成超過100項複雜精細的操作任務;包括拿起螺釘並用鑽緊固、用錘子敲打釘子、扶正水杯並倒水等。

基於ERA-42,星動XHAND1能用不同工具完成多種靈巧操作新任務基於ERA-42,星動XHAND1能用不同工具完成多種靈巧操作新任務

在通用性和靈巧操作能力方面,ERA-42無需任何預編程技能,具備強泛化與自適應能力,基於少量數據收集,可在不到2小時即可學會新任務,並持續快速學習更多新技能。

基於ERA-42,星動XHAND1可完成100多種精細化、智能化的五指靈巧手操作任務基於ERA-42,星動XHAND1可完成100多種精細化、智能化的五指靈巧手操作任務

星動紀元指出,具身大模型作為開啟通用具身智能體的密鑰,需要具備以下三個要素。第一,統一一個模型泛化多種任務和環境;通過構建一個統一的原生模型,融合視覺、語言、觸覺和身體姿態等全模態信息,實現對不同任務和環境的泛化能力。

第二是端到端,從接收全模態數據,到生成最終輸出如決策、動作等,通過一個簡潔的神經網絡鏈路完成。該過程無需人為設計特徵、預編程或干預處理步驟,使得具身智能體能夠實時適應不同任務和環境,顯著提升靈活性與開發效率。

第三是Scaling up(規模化),允許模型通過持續的數據積累實現自我完善,使得具身大模型在數據量指數級增長的同時,不僅提升性能,還能在未知任務中展現卓越的自適應和泛化能力。例如Physical Intelligence (簡稱PI)發佈的π0模型就具備上述要素,是典型的真正意義上的端到端具身大模型。

基於端到端算法,星動紀元採用了大規模影片數據學習策略,涵蓋無標註的影片數據、公開各類形態機器人的數據、人類活動數據以及遙操作數據等,在上述數據使用基礎上學習行動結果,可有效降低數據收集成本。

星動紀元探索融合世界模型的原生機器人大模型星動紀元探索融合世界模型的原生機器人大模型

此外,星動紀元團隊已將世界模型融入原生機器人大模型中,使得模型不僅具備行動能力,還具備了對物理世界的理解能力,能夠對未來行動軌跡進行預測,並迅速響應外部干擾,在任務執行過程中持續自適應優化行為,直至任務完成,提升機器人執行任務的高效性和準確性。

在實際應用中,相比傳統的夾爪機器人,基於ERA-42能力的五指靈巧手星動XHAND1能使用多種工具,完成更通用、靈巧性更強、複雜度更高的操作任務。例如,通過簡單的彩色方塊抓取數據訓練後,ERA-42就能成功實現從未見過的多樣化物體的抓取泛化。

基於ERA-42,五指靈巧手星動XHAND1相比夾爪能使用更多不同工具執行更靈巧操作基於ERA-42,五指靈巧手星動XHAND1相比夾爪能使用更多不同工具執行更靈巧操作

面對單任務或長序列任務時,ERA-42展現了強大的抗干擾能力。測試顯示,隨著模型規模的擴大,任務成功率也明顯提升,初步體現了和大語言模型訓練中類似的「Scaling效應」。

硬件方面,為構建通用具身智能體,星動紀元推出了為AI定義的全新硬件平台。以星動XHAND1為例,它共有12個主動自由度,並採用純電驅方式實現全自主五指關節驅動。每個手指配備有一個高解像度觸覺陣列傳感器,可提供精確的三維力觸覺和溫度信息。

依託ERA-42,星動紀元通用人形機器人執行任務的通用性和泛化性將大幅提升,結合此前發佈的在複雜多樣的地形上穩定行走和奔跑的運動性能,配合上下肢協同作業能力,潛在應用場景也將更加多元化,真正實現原生的通用具身智能體的產業化落地。

星動XHAND1星動XHAND1