AI同時操控200個機器人,任務成功率超90%,半數故障依然「能打」

人工智能(AI),可以同時操控數百機器人「協同作戰」了。

來自康史丹茨大學和國際理論物理中心的研究團隊開發了一種基於 AI 的控制策略,成功讓200 個微型機器人變身為「AI 智能體」,獨立作出決策,在團隊的協作下實現複雜的集體行為

在實驗中,微型機器人協同完成「大件物品的運輸」任務的成功率超過了 90%,並在 3000 次動作內精確達成目標。

研究團隊表示,這種控制策略可以訓練成群的微型機器人完成集體操縱或運輸物體等任務,如移動微型機械、可編程給藥膠囊和其他先進的片上實驗室應用的複雜和自動化組裝。

在演示模擬中,經過訓練的微型機器人群成功在無法穿越的固定障礙物面前旋轉以及把一根杆運輸到特定位置,甚至學會了利用結構化環境,將障礙物作為鉸鏈來更高效地運輸杆

另外,微機器人群還能完成更複雜的集體行為,如同時旋轉兩根和三根杆。在分佈式控制框架的支持下,獨立運動的微型機器人能夠充分發揮各自的優勢,相互協作,實現對多個物體的高效操控。

在技術實現上,研究團隊採用了多智能體強化學習(MARL)算法,並結合了「反事實獎勵」(CR)機制,為每個微型機器人設計了個性化的獎勵系統,從而引導其朝著集體目標努力。

這種方法讓微型機器人在協作中學會如何優化自己的行為,使得整個集群的表現更加高效。

研究還發現,經過 MARL 訓練的微型機器人能夠有效克服熱噪聲和環境噪聲,即使在一些蜂群成員出現故障時也能保持正常工作,還具有較強的魯棒性。

在實驗中,當 20% 的機器人出現故障時,集群的任務完成效率幾乎不受影響;甚至當故障比例達到 50% 時,集群的效率仍能維持 30% 的初始水平

相關研究論文以「Counterfactual rewards promote collective transport using individually controlled swarm microrobots」為題,已發表在科學期刊 Science Robotics 上。

值得一提的是,據個人主頁顯示,該論文的通訊作者之一顧紅日(Hongri Gu)即將履新——從 2025 年 1 月起,加入香港科技大學,擔任助理教授。

顧紅日,本科畢業於浙江大學機電工程專業,在康史丹茨大學物理系從事科研工作期間,他與該論文的另一位通訊作者 Clemens Bechinger 教授攜手探究了活性物質集體狀態應用,將強化學習融入到微型機器人集群研究,並研究了表面間的磁摩擦,這也是這項研究成功的關鍵。

成功率超 90%,半數故障依然「能打」

受自然界群體行為啟發,科學家們一直在探索如何讓機器人集群協同完成複雜任務。無論是空中的微型飛行器、陸地上的機動立方體機器人,還是水中的機器魚群,都表現出了群體協作的巨大潛力。

然而,微型機器人集群研究仍然面臨諸多挑戰

在微觀尺度下,熱噪聲、布朗運動等因素干擾了機器人的軌跡,同時激光等驅動方式在控制多個機器人時,由於彼此之間的強耦合作用,也進一步增加了精確控制單個微型機器人的複雜性。隨著尺寸不斷縮小,將傳感器、微控製器、微執行器等集成到微型機器人中變得愈加困難,這也限制了其獨立完成複雜任務的能力。另外,群體機器人控制通常依賴電、磁、聲等全局場來實現集體行為,但通常比較簡單且效率低下,難以滿足複雜任務的需求。

為了克服上述挑戰,研究團隊結合「多智能體強化學習」與「反事實獎勵」機制,將控制的複雜問題轉化為如何設計合適的獎勵函數,從而讓每個機器人在協作中優化行為。

然而,簡單地給所有智能體賦予相同的團隊獎勵,容易引發 「懶惰智能體問題」。因此,研究團隊在學習過程中引入了反事實獎勵機制,讓機器人根據個體貢獻自動優化行為,而無需依賴複雜的環境模型,簡化了集體任務的控制過程。

圖 | 受自然啟發的獨立控制微型機器人系統中的大型貨物集體運輸圖 | 受自然啟發的獨立控制微型機器人系統中的大型貨物集體運輸

研究團隊首先聚焦於一個複雜任務——大型杆狀物體的旋轉。由於杆體尺寸較大且流體阻力顯著,單個微型機器人無法對其產生有效作用,必須依靠集群的協同力量才能完成任務。

為了訓練機器人完成這一任務,團隊使用了由 30 到 35 個微型機器人組成的集群,並通過激光驅動控制它們圍繞杆進行操作。在訓練初期,由於神經網絡的初始權重隨機,機器人行為十分混亂,幾乎沒有規律可言

然而,隨著訓練的進行,部分機器人偶然與杆發生碰撞,產生微小的旋轉,並因此獲得獎勵。這一反饋促使機器人逐漸意識到與杆互動並推動杆是獲取獎勵的有效方式。

經過約 20 個回合的訓練,機器人集群開始協調一致地從杆的兩端施加推力,推動杆順時針旋轉。隨著訓練的深入,杆的旋轉速度逐漸加快並趨於穩定,機器人之間的協作效率顯著提高,集群的整體表現也逐步優化

接下來,研究團隊將任務難度提升,要求機器人將杆運輸到指定位置,並朝著預定方向進行精準控制。為了精確判斷機器人對任務的貢獻,研究人員採用了反事實獎勵機制,將杆劃分為 60 個小片段,並通過這些片段間的成對距離變化來作為關鍵性能指標。

實驗結果顯示,微型機器人集群在不到 3000 次動作的訓練中,成功將杆推送到目標區域,成功率高達 90% 以上。在整個任務過程中,機器人集群在任務分解、策略選擇以及協同操作方面顯示出強大的能力

為了進一步驗證微型機器人集群的可靠性與適應性,研究團隊進 行了魯棒性和可擴展性測試。

在魯棒性測試中,研究團隊通過引入故障情境,故意使部分機器人出現故障。實驗結果表明,即使在 20% 至 50% 的機器人故障情況下,集群依然能夠保持較高的任務完成效率,當故障比例超過 50% 時,集群的性能略有下降,但仍能維持約 30 % 的水平。

在可擴展性測試中,研究團隊通過改變機器人數量,考察不同規模集群的性能表現。結果發現,當集群規模接近訓練時的規模(約 35 個機器人)時,系統表現更佳;而當機器人數量減少至 20 個時,集群的性能仍能保持穩定。令人驚訝的是,即使只有 9 個機器人,集群的性能也能保持 50% 左右。然而,當機器人數量超過訓練規模的兩倍時,集群的性能有所下降。這是因為機器人之間的相互作用變得更加複雜,導致在有限空間內的干擾增多,影響了整體效率。

不足與展望

這項研究不僅在微型機器人集群控制領域取得了顯著的進展,還展示了群體智能在微觀尺度的巨大潛力,但仍然面臨一些挑戰

首先,現有的微型機器人集群控制系統依賴激光驅動,這限制了其在深層生物體內(如人體內的靶向藥物輸送)等複雜環境中的應用。激光的穿透深度有限,且依胡禮定推進機制,使得這些微型機器人在某些應用場景中面臨技術瓶頸。

此外,微型機器人仍面臨諸多硬件相關的問題,包括計算、傳感器和執行資源的限制,以及微型執行器在與環境和其他機器人互動時的精度問題。這些因素都限制了微型機器人系統的進一步應用。

儘管如此,研究團隊表示,這些微型機器人有望被用於運輸生物樣本、病毒檢測、個性化藥物釋放等任務,甚至可能在組織工程和定製製造等領域得到應用

未來,隨著微型機器人技術的不斷髮展,我們是否可以在人體內部,甚至是在極端環境下,實現這些微型機器人集群的智能應用呢?

這一邊界,或將在下一次技術突破中被重新定義。

本文來自微信公眾號「學術頭條」(ID:SciTouTiao),作者:學術頭條,36氪經授權發佈。