Robot Revolution:Gemini 的實體化如何改變科技未來
Gemini Robotics 是一個新模型,專注於物理世界,並將應用於機器人。它具備視覺、互動性及通用性。
Google 的 Gemini 在螢幕內部的許多任務上表現出色,包括生成文本和圖像。然而,最新的模型 Google Robotics 則是一個視覺語言行動模型,將生成式人工智能移至物理世界,這可能會顯著加速人形機器人的發展。Gemini Robotics 於週三由 Google 的 DeepMind 公佈,並在以下三個關鍵領域提升了 Gemini 的能力:
靈活性
互動性
通用性
這三個方面對於機器人在工作場所及未知環境中的成功有著重要影響。通用性使機器人能夠將 Gemini 對世界及事物的廣泛知識應用於新情境中,並完成其從未訓練過的任務。在一段視頻中,研究人員展示了一對由 Gemini Robotics 控制的機器人手臂,玩桌上籃球遊戲,並要求它「灌籃」。儘管機器人從未見過這個遊戲,但它仍能拿起小橙球並將其放入塑料網中。
Google 的 Gemini Robotics 也使機器人更具互動性,能夠不僅對變化的口頭指令作出反應,還能適應不可預測的情況。在另一段視頻中,研究人員要求機器人將葡萄放入一個盛有香蕉的碗中,但隨後他們將碗移動,機器人手臂仍能調整並成功將葡萄放入碗中。
靈巧的能力
Google 還展示了機器人的靈巧能力,使其能夠執行例如在木板上玩井字遊戲、擦白板和將紙折成摺紙等任務。機器人能夠對近乎不斷的自然語言指令作出反應,並在無需指導的情況下完成任務,這一點令人印象深刻。
自然地,將人工智能應用於機器人並不是新鮮事。去年,OpenAI 與 Figure AI 合作開發了一款能根據口頭指令執行任務的人形機器人。與 Gemini Robotics 相似,Figure 01 的視覺語言模型與 OpenAI 的語音模型協同工作,進行有關任務和變更優先級的雙向對話。在演示中,這款人形機器人站在碗碟和瀝水器面前,當被詢問它看到什麼時,它列舉出來,但隨後對話者改變了任務,要求找一些食物。機器人毫不猶豫地拿起一個 Apple 並將其遞給對方。
未來計劃
雖然 Google 在視頻中展示的大多是無身體的機器手臂和手在執行各種物理任務,但未來的計劃更為宏大。Google 正與 Apptroniks 合作,將這一新模型添加到其 Apollo 人形機器人中。Google 將通過額外的編程將各個部分連接起來,並推出一個名為 Gemini Robotics-ER(具身推理)的新型先進視覺語言模型。
Gemini Robotics-ER 將增強機器人的空間推理能力,應該能幫助機器人開發者將模型與現有控制器相連接。這將進一步改善即時推理,使機器人能夠快速識別和使用不熟悉的物體。Google 將 Gemini Robotics-ER 描述為一個端到端的解決方案,並聲稱它「能夠執行控制機器人所需的所有步驟,包括感知、狀態估算、空間理解、規劃和代碼生成」。
對行業的影響
Google 正在將 Gemini Robotics-ER 模型提供給幾家專注於商業和研究的機器人公司,包括 Boston Dynamics(Atlas 的製造商)、Agile Robots 和 Agility Robots。總的來說,這對於人形機器人開發者來說是一個潛在的利好。然而,由於這些機器人大多是為工廠設計或仍在實驗室階段,因此在家庭中擁有一個增強版的 Gemini 機器人可能還需要一些時間。
【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced/
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT
點擊建議觀看:【實測 2025】韓國電話卡推介:4 款旅遊卡,有無限上網,有打電話< / 此文章 「Robot Revolution:Gemini 的實體化如何改變科技未來」 由《Techritual Hong Kong – Techritual Hong Kong – 專注 Mobile|SIM Card|Wearable 與 AI 人工智能》率先發佈。