專為機器人行業而設計!Google推出兩款新型AI模型

來源:財聯社

財聯社3月13日訊(編輯 牛佔林)當地時間週三,Google宣佈推出兩款基於Gemini 2.0的新型人工智能(AI)模型,旨在開發更靈活、可互動的機器人,有望推動機器人在更多場景中的應用和普及。

Google表示,最新的AI模型是為各種形狀的機器人設計的,包括人形機器人和工廠、倉庫中使用的其他類型的機器人。

據Google介紹,其中一款名為Gemini Robotics,是一款視覺-語言-行動模型,能夠通過物理動作輸出結果,使機器人可以理解自然語言指令並執行複雜任務。更簡單的說,Gemini Robotics可以聽懂人類的語言,然後執行相應的命令。

另一款名為Gemini Robotics-ER,是一個專注於空間推理的視覺-語言模型,能夠幫助機器人更好地理解周圍環境,並支持開發者利用其推理能力運行自己的程序。

GoogleDeepMind工程師Kanishka Rao表示,Google將Gemini模型應用於機器人,正在推動機器人技術向更智能、更通用的方向發展。「我們的世界非常複雜、動態且豐富,我認為通用智能機器人需要能夠應對這種複雜性。」

與此同時,包括Meta、特斯拉和OpenAI等巨頭均加大了在機器人領域的研發工作,許多初創公司也在機器人領域嶄露頭角,例如,Figure AI和Skild AI等,它們的估值都達到了數十億美元。

在預先錄製的演示影片中,Google研究人員展示了運行其技術的機器人如何響應簡單指令。其中一台機器人站在一堆字母拚圖前,在訓練員要求它拚出一個單詞時,它拚出了「Ace」。

工程師們還在實驗室里搭建了一個迷你玩具籃球場,另一台機器人在被要求完成灌籃動作時,將一個小塑料球按進了籃筐。

Rao聲稱:「當我們第一次看到機器人灌籃時,整個團隊都非常興奮。這是因為機器人從來沒有見過任何與籃球有關的東西。它是通過Gemini理解了網隊的外觀以及‘灌籃’這個詞的含義,並能把它們聯繫起來,然後在現實世界中完成這項任務。」

不過,Google強調這項工作仍處於「早期探索」階段。DeepMind研究員Vikas Sindhwani表示,Gemini模型是在對物理環境中的「常識性安全」有深刻理解的基礎上開發的。

他還提到,Google計劃逐步部署這些機器人,最初將它們放置在與人類保持安全距離的位置,隨著時間推移,在安全性能不斷提升的情況下,逐漸增加其互動性和協作性。