SLAM3R:北大陳寶權團隊等只用單目長影片就能實時重建高質量的三維稠密點雲

北京大學陳寶權團隊和香港大學等高校及業界機構聯合推出實時三維重建系統 SLAM3R,首次實現從長影片(單目 RGB 序列)中實時且高質量地重建場景的稠密點雲。SLAM3R 使用消費級顯卡(如 4090D)即可達到 20+ FPS 的性能,重建點雲的準確度和完整度達到當前最先進水平,同時兼顧了運行效率和重建質量。該研究成果被 CVPR 2025 接收為 Highlight 論文,並在第四屆中國三維視覺大會(China3DV 2025)上被評選為年度最佳論文,合作者為董思言博士(共同一作)、王書哲博士、尹英達博士、楊言超助理教授和樊慶楠博士,第一作者為北京大學本科生劉宇政。

-
論文標題:SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
-
論文地址:https://arxiv.org/pdf/2412.09401
-
代碼地址:https://github.com/PKU-VCL-3DV/SLAM3R
SLAM3R 的交互界面(影片經過加速)。用戶只需使用普通手機攝像頭拍攝 RGB 影片,即可通過部署於服務器的 SLAM3R 系統實時重建出高質量的場景稠密點雲,將二維影片轉化為”可交互”、”可編輯”的三維世界。
在計算機視覺與機器人感知領域,基於單目攝像頭的高質量三維環境感知與重建一直是個極具挑戰性的課題——這主要是因為需要從有限的二維觀測中恢復在相機投影過程中丟失的三維空間信息。過去的三十年間,研究者們建立了較為完善的多視角幾何理論和計算框架,通常依賴多種算法的集成,包括運動恢復結構(Structure-from-Motion,簡稱 SfM)、同時定位和地圖構建(Simultaneous Localization and Mapping,簡稱 SLAM)以及多視角立體視覺(Multi-View Stereo,簡稱 MVS)等。
由於擁有紮實的數學原理和優化算法作為”護城河”,三維重建領域較少受到神經網絡等深度學習方法的”入侵”。在傳統方法中,神經網絡主要作為算法流程的輔助模塊,用於提升特徵匹配的魯棒性和深度估計的完整性。近年來,隨著以 DUSt3R 為代表的大型神經網絡模型出現,這一傳統範式正在改變:通過端到端的前饋神經網絡,可以直接從多視角 RGB 圖像預測三維幾何,避免了傳統方法中迭代優化所帶來的效率瓶頸。
SLAM3R(發音:/slæmər/)進一步革新了這一範式的演進,首次將大模型應用於長影片序列的稠密重建任務。該方案通過前饋神經網絡,將局部多視角三維重建與全局增量式坐標配準無縫集成,為基於單目 RGB 影片輸入的稠密點雲重建提供了高效率解決方案,無需迭代優化相機參數或三維點雲。實驗結果表面,SLAM3R 不僅在多個數據集上展現出最先進的重建質量,還能在消費級顯卡上保持 20+ FPS 的實時性能。更為重要的是,SLAM3R 的成功展示了純數據驅動的方法在長影片序列三維幾何感知任務中的潛力,為未來重建系統的研究提供了新思路。
SLAM3R 漸進式重建過程展示。輸入 RGB 圖像序列(如左上圖所示)後,SLAM3R 首先進行局部多視角三維重建(左下圖),然後執行全局增量式坐標配準(右圖),從而逐步構建完整場景的點雲模型。
三位一體的挑戰:準確、完整、高效
基於多視角幾何理論的傳統方法通常將三維重建分為兩個階段:首先通過 SLAM 或 SfM 算法估計相機參數和場景結構,然後使用 MVS 算法補充場景的幾何細節。這類方法雖然能夠獲得高質量的重建結果,但是需要離線優化等處理,因此實時性能較差。
近年來,DROID-SLAM 和 NICER-SLAM 等集成了相機定位和稠密重建的 SLAM 系統相繼問世。然而,這些系統或是重建質量不夠理想,或是無法達到實時運行的要求。DUSt3R 開創性地提出端到端的高效點雲重建,但其僅局限於圖像對(雙目),在影片場景下仍需全局迭代優化,因而影響了效率。同期工作 Spann3R 雖將 DUSt3R 擴展為增量重建方式並提高了效率,但也帶來了明顯的累積誤差,降低了重建質量。
此外,重建的準確度和完整度之間存在著固有的權衡關係,導致當前重建系統難以同時實現準確、完整和高效這三個目標。因此,在單目影片稠密重建領域中,要同時達到高質量和高效率極具挑戰性。
SLAM3R:大模型時代背景下的實時稠密重建系統
DUSt3R 首次證明了大型神經網絡模型的 Scaling Law 在雙目立體視覺中的可行性。SLAM3R 在此基礎上更進一步,通過引入傳統 SLAM 系統的經典設計理念,成功將大模型應用於長影片序列的稠密重建任務。這種端到端的方法不僅具有天然的高運行效率,而且經過大規模訓練後能達到高質量的重建效果,從而實現了一個在準確度、完整讀和效率方面都表現出色的三維重建系統。

SLAM3R 系統示意圖。給定單目 RGB 影片,SLAM3R 使用滑動窗口機制將其轉換為互有重疊的片段(稱為窗口)。每個窗口輸入至 Image-to-Points(I2P)網絡,用於恢復局部坐標系中的稠密點雲。隨後,這些局部點逐步輸入至 Local-to-World(L2W)網絡,以創建全局一致的場景模型。I2P 網絡選擇一個關鍵幀作為參考建立局部坐標系,並利用窗口中的其餘幀估計該窗口的稠密點雲。第一個窗口用於建立世界坐標系,之後 L2W 網絡逐步融合後續窗口。在增量融合過程中,系統檢索最相關的已註冊關鍵幀作為參考,並整合新的關鍵幀。通過這個迭代過程,最終完成整個場景的重建。
SLAM3R 主要由兩個部分組成:Image-to-Points(I2P)網絡和 Local-to-World(L2W)網絡。I2P 網絡負責從影片片段中恢復局部坐標系下的稠密點雲,而 L2W 網絡則將局部重建結果逐步註冊到全局場景坐標系中。在整個點雲重建過程中,系統直接使用網絡在統一坐標系中預測 3D 點雲,無需顯式計算相機參數和三角化場景點雲,從而避免了傳統重建方法中迭代優化等耗時的操作。
窗口內的多視角三維重建(I2P 網絡)。在每個窗口內,選擇一幀作為關鍵幀來建立參考系,其餘幀(稱為支持幀)用於輔助該關鍵幀的重建。我們基於 DUSt3R 解碼器設計了關鍵幀解碼器,通過引入簡單的最大值池化操作來聚合多個支持幀的交叉注意力特徵,從而有效整合多視角信息。這一改進在保持模型結構簡潔的同時具有多重優勢:1)繼承 DUSt3R 預訓練權重,從而保證預測質量;2)未引入過多計算開銷,保持實時性能;3)支持任意數量的圖像輸入,具有良好的擴展性。
窗口間的增量式點雲註冊(L2W 網絡)。窗口間的註冊與窗口內的重建相似,不同之處在於前者使用多幀重建結果作為參考系,用以輔助註冊新的關鍵幀。因此,L2W 採用了 I2P 的整體架構。在此基礎上,引入簡單的坐標編碼器來處理點雲輸入,並通過逐層特徵疊加的方式注入解碼器。這種機制讓模型在解碼過程中持續接收幾何和坐標系的雙重引導,既確保了信息傳遞的充分性,又避免了複雜特徵交互設計帶來的計算負擔。這一設計巧妙地繼承了 DUSt3R 的坐標轉換能力,並將其轉化為可控的註冊過程。
場景幀檢索模塊。我們提出了一種前饋檢索機制,用於確定 L2W 網絡在註冊新關鍵幀時所使用的參考幀。當 SLAM3R 系統需要調用 L2W 融合新窗口(關鍵幀)時,系統會先通過場景幀檢索模塊從已註冊窗口中檢索 K 個最優參考幀,再將這些參考幀與新幀一同輸入 L2W 模型進行坐標系轉換。這種設計既保持了全局一致性,又有效緩解了傳統 SLAM 系統中的累積誤差問題。檢索模塊通過在 I2P 網絡中附加額外的輕量級 MLP 實現,完成前饋式快速檢索。
大規模訓練。SLAM3R 系統的各個模塊均採用前饋式神經網絡實現,最大程度地複用了 DUSt3R 大規模預訓練的權重,並在大規模影片數據集上進行訓練。具體來說,我們收集了約 85 萬個來自 ScanNet++、Aria Synthetic Environments 和 CO3D-v2 數據集的影片片段,使用 8 張 4090D 顯卡進行訓練。訓練完成後,該系統可在單張 4090D 顯卡上實現實時推理。
單目影片稠密重建邁入高質高效新時代
我們在室內場景數據集 7-Scenes 和 Replica 上評估了 SLAM3R。在重建速度較快(FPS 大於 1)的方法中,SLAM3R 實現了最佳的準確度和完整度。


7-Scenes(上方表格)和 Replica(下方表格)數據集的重建結果評估。我們以釐米為單位報告重建的準確度和完整性。FPS 欄目的顏色漸變從紅色變為黃色,再變為綠色,表示實時性能提升。
值得特別指出的是,即使沒有進行任何後續全局優化,SLAM3R 的重建質量也達到了與需要複雜優化的離線方法相當的水平。這表明 SLAM3R 在準確度、完整度和運行效率三方面達到了理想的平衡。
SLAM3R 基於公開數據集與日常影片的場景重建結果展示。
未來展望
SLAM3R 在保持 20+ FPS 實時性能的同時,其重建質量可達到離線方法相近的水平,旨在推動三維重建向高質量、高效率方向發展。通過將傳統多階段的三維重建流程簡化為輕便的前饋網絡,SLAM3R 降低了使用門檻,使三維重建有望從專業領域拓展至大眾化應用。隨著模型輕量化技術的突破,該方案未來有望進一步應用於移動終端,為三維資產快速獲取、通用人工智能和具身智能的落地提供基礎三維數據支持。
目前,SLAM3R 仍存在諸多局限性。由於跳過了相機參數預測和優化等環節,SLAM3R 無法執行顯式的全局優化(Bundle Adjustment)。因此,在大規模場景中,系統仍會受到累積誤差的影響。此外,基於場景重建推導出的相機參數的精度仍不如專門針對相機定位的 SLAM 系統。解決這些局限性是我們未來工作的重點。
歡迎試用!期待寶貴的意見和建議!