DeepMind用AI機器人打乒乓球,完勝真人初學者,戰勝真人中等選手機率達55%

在機器人領域,運動技能一直是衡量機器人能力的重要試金石。

近日,GoogleDeepMind 研究團隊在乒乓球運動中取得了新進展,他們開發出了一個人工智能(AI)驅動的機械臂,能夠與業餘人類乒乓球選手打得有來有回。

這項研究成果的相關論文已經以預印本的形式發表。研究團隊稱,「這是第一個能夠在人類水平上與人類進行體育運動的機器人智能體,代表了機器人學習和控制領域的一個裡程碑。」

(來源:DeepMind)

DeepMind 的這個系統結合了 ABB 公司的 IRB 1100 工業機器人(手臂)和定製的 AI 軟件。

這套系統的物理設置包括一個 6 自由度的機械手臂,安裝在兩條線性軌道上,使其能夠自由地水平移動。還用到了高速攝像機,以用於追蹤球的位置,而動作捕捉系統則能監測人類對手的球拍動作。

為了創造驅動機器人手臂的「大腦」,DeepMind 研究人員開發了一種「雙層級」方法,使機器人能夠打出特定的乒乓球技術,同時實時調整策略以適應每個對手的打法風格。

這種方法使得機器人無需針對每個特定玩家進行訓練,就能與任何業餘人類選手進行比賽。

該系統的架構結合了低級技能控製器(經過訓練可執行特定乒乓球技術的神經網絡策略,如正手擊球、反手回球或發球回應)和高級戰略決策者(一個更複雜的 AI 系統,用於分析對局狀態,適應對手的風格,並選擇為每個來球激活哪個低級技能策略)。

研究人員採用了一種混合方法來訓練 AI 模型,在模擬物理環境中使用強化學習,同時將訓練數據建立在真實世界的例子基礎上。這種技術使機器人能夠從大約 17500 個真實世界的乒乓球軌跡中學習。

不過,對於如此複雜的任務來說,這隻是一個相對較小的數據集。

研究團隊使用了一個迭代過程來完善機器人的技能。他們首先從一個小型的人類對人類的遊戲數據集開始,然後讓 AI 與真實對手對抗。

每場比賽都會產生關於乒乓球軌跡和人類策略的新數據,研究團隊將這些數據反饋到模擬中進行進一步訓練。這個過程重覆了七個週期,使機器人能夠不斷適應水平越來越高的對手和多樣化的打法風格。

到最後一輪,AI 已經從超過 14000 個回合球和 3000 個發球中學習,創建了一個乒乓球知識體系,幫助它縮小模擬和現實之間的差距。

(來源:DeepMind)

值得注意的是,英偉達也在進行類似的模擬物理系統實驗,比如該公司的 AI 智能體 Eureka,允許 AI 模型在模擬空間而不是現實世界中快速學習控制機器人手臂。

這種方法可能會在未來大大減少訓練機器人進行複雜交互所需的時間和資源。

在一項涉及 29 名參與者的研究中,這個 AI 驅動的機器人贏得了 45% 的比賽,展示了不錯的業餘水平實力。

值得注意的是,它對初學者取得了 100% 的勝率,對中等選手取得了 55% 的勝率,只是在面對資深對手時表現不佳。

有趣的是,即使輸給機器人的玩家也表示自己很享受這種體驗。研究人員指出:「在所有技能組和勝率中,玩家都認同與機器人對打是有趣的和吸引人的。」 這種積極的反應表明 AI 在體育訓練和娛樂方面有著廣泛的應用前景。

該系統並非沒有局限性。它難以處理極快的球或高球,難以識別強烈的旋轉,並且在反手球方面表現薄弱。GoogleDeepMind 分享了一段影片,展示了機器人因難以應對快速擊球而輸掉一分。

研究人員指出:「為瞭解決阻礙機器人對快球反應時間的延遲限制,我們建議研究先進的控制算法和硬件優化。這可能包括探索預測模型來預測球的軌跡,或者在機器人的傳感器和執行器之間採用更快的通信協議。」

除了打乒乓球,為這個項目開發的技術可以應用於更廣泛的機器人任務,這些任務需要快速反應和適應不可預測的人類行為。從製造業到醫療保健,潛在的應用似乎很廣泛。

GoogleDeepMind 團隊強調,通過進一步完善,他們相信該系統未來可能有潛力與資深乒乓球選手競爭。

DeepMind 在創造能夠擊敗人類遊戲玩家的 AI 模型方面並不陌生,包括 AlphaZero 和 AlphaGo。有了這個最新的機器人智能體,看來這家研究公司正在從遊戲轉向真正的運動。

圍棋、國際象棋和許多電子遊戲的頂尖選手已經敗給了 AI,也許乒乓球將是下一個。

參考資料:

https://arstechnica.com/information-technology/2024/08/man-vs-machine-deepminds-new-robot-serves-up-a-table-tennis-triumph/

https://techcrunch.com/2024/08/08/google-deepmind-develops-a-solidly-amateur-table-tennis-robot/ 

運營/排版:何晨龍