讓機器人在人群中穿梭自如，港科廣&港科大突破社交導航盲區 | ICRA 2025

04月01日 12:11 新浪網 tech-auto-hilite

龔澤穎投稿

量子位 | 公眾號 QbitAI

機器人落地複雜場景，社交導航能力一定是避不開的關鍵一點。

先簡單介紹下，社交導航(SocialNav，Social navigation) 是指在人機共存的環境中，機器人在遵循社會規範的前提下執行導航任務。

就拿下圖來說，機器人需導航至目標點，而目標恰好位於兩名行人未來軌跡的交彙區域。

它不僅要靈活避免潛在的碰撞風險，還需與行人保持合適的社交距離。

總而言之，社交導航該任務對視覺導航領域提出了獨特挑戰：

預建地圖的方法難以適應人群密集的動態環境，而現有RL方法存在短視決策和依賴全局信息的問題。

近期，香港科技大學（廣州）和香港科技大學聯合提出了一種新算法，Falcon。

它通過將軌跡預測算法融入社交導航任務中，實現長期動態避障並提升導航性能。

社交導航的另一個重要挑戰則是現有基準的真實性不足。

如下所示，現有基準通常存在以下幾方面的局限性：

場景複雜性不足：僅關注機器人與人類的交互，而忽略場景本身複雜性。
人類行為不自然：行人動作僵硬、運動模式失真，難以反映實際場景交互。

針對上述局限性，研究團隊構建了兩個新數據集——Social-HM3D 和 Social-MP3D，作為社交導航任務的新基準。

該項目論文已被ICRA 2025接收，同時已經掛上arXiv。

代碼和模型權重可到GitHub尋找。

Falcon：集成軌跡預測輔助任務的強化學習框架

Falcon算法框架由2個模塊組成：

主策略網絡 (MPN，Main Policy Network)
時空預知模塊(SPM，Spatial-temporal Precognition Module)

主策略網絡：讓機器人學會「遵守規則」

模塊一，主策略網絡，這是Falcon的「大腦」，負責指導機器人如何行動。

其核心是社會認知懲罰（SCP，Social Cognition Penalty）機制，通過設計專門的懲罰函數，避免機器人幹擾人類未來軌跡，從而引導智能體規避碰撞風險並保持社交距離。

具體而言，Falcon引入三個關鍵懲罰項：

障礙物碰撞懲罰：嚴厲懲罰機器人撞到靜態障礙物或行人。
人類接近懲罰：當機器人靠近行人時，隨距離減小增加懲罰。
軌跡阻礙懲罰：如果機器人幹擾行人未來路徑，則提前施加懲罰。

時空預知模塊：讓機器人學會「提前規劃」

模塊二，時空預知模塊（SPM），結合軌跡預測與多種社交感知輔助任務，顯著增強了機器人對未來環境動態變化的預測能力。

其主要功能包括：

人類數量估計：預測場景中有多少人，幫助評估環境複雜程度。
當前位置跟蹤：實時跟蹤行人位置，快速響應變化。
未來軌跡預測：預測未來幾秒行人路徑，提前規劃避障。

關鍵在於，輔助任務僅在訓練階段使用。

在推理階段，機器人僅依賴主策略網絡進行決策。

這種設計簡化了推理過程，確保模型在實際應用中的高效性。

特意構建兩個新的數據集

現有社交導航基準存在諸多不足，如場景過於簡化、人類行為不自然等。

以下表格為現有的社交導航模擬器與數據集統計特性對比：

為彌補這些缺陷，研究人員構建了兩個新數據集——Social-HM3D和Social-MP3D，具備以下優勢：

真實場景重建：基於高精度3D掃瞄，涵蓋公寓、辦公樓、商場等多種室內場景。
自然人類行為：採用多目標導向的軌跡生成算法和ORCA動態避障模型，模擬人類行走、休息等自然行為。
合理人群密度：根據場景面積動態調整人類數量，確保交互密度適中。

研究團隊表示，這兩個基準既平衡了人機交互的社交密度，同時也避免了過度擁擠。

這一基準為社交導航研究提供了更貼近真實場景的評估環境，並且支持推廣到有人環境下的物體導航、圖像導航等下遊任務。

實驗部分

在定量分析方面，實驗表明，Falcon在目標達成和社會合規方面表現出色：

其一是目標達成。

在Social-HM3D中達到55.15%的成功率和成功路徑效率（SPL，Success weighted by Path Length）。

即使在未訓練過的Social-MP3D數據集上，也能取得55.05%的成功率。

其二是社會合規。

在保持社交距離和避免碰撞方面表現良好，達到接近90%的個人空間合規性（Personal Space Compliance, PSC）和接近42%的人機碰撞率。

定量結果表明，Falcon不僅在已知環境中表現出色，還能有效適應未見過的複雜動態環境。

在定性分析方面，下圖的定性結果展示了Falcon在不同典型場景中的優越性——

第一個是人員跟隨情境。

Falcon通過預測行人未來軌跡，主動調整速度和路徑，保持安全距離。

第二個是複雜交叉路口。

面對行人和靜態障礙物同時存在的場景，Falcon提前預測並規劃出安全高效的路徑。

第三個是正面接近情境。

傳統的RL算法Proximity-Aware試圖直接從行人面前穿過導致碰撞，Falcon通過預測行人未來軌跡，提前調整路徑並安全避開。

3個關鍵發現

各項實驗後，團隊有了三個關鍵發現：

發現1，未來感知算法優於以往實時感知算法。

靜態路徑規劃算法（如A*）無法適應動態環境，而實時感知方法（如ORCA和Proximity-Aware）雖能被動避障，但仍存在延遲反應問題。

相比之下，Falcon能夠主動預測行人軌跡並提前調整路徑，顯著提升了安全性和效率。

發現2，輔助任務有助於提高性能，其中軌跡預測最重要。

下表展示了不同輔助任務對導航性能的影響。

其中軌跡預測（SPM.Traj）效果最為顯著，成功率從40.94%提升至54.00%。

發現3，SCP和SPM相輔相成，改善性能並加快訓練收斂。

下圖圖中為消融研究中的訓練曲線。

可以觀察到，具有SPM和SCP的完整Falcon模型收斂更快，性能更好。

SCP在提升模型性能方面發揮關鍵作用，尤其是與SPM集成後，整體性能進一步提升（從53.63%提高至55.15%），並加快訓練收斂速度。

項目主頁：

https://zeying-gong.github.io/projects/falcon/

論文鏈接：

https://arxiv.org/abs/2409.13244

代碼鏈接：

https://github.com/Zeying-Gong/Falcon

一鍵三連「點讚」「轉發」「小心心」

歡迎在評論區留下你的想法！