CVPR滿分論文 | 英偉達開源雙目深度估計大模型FoundationStereo

本文介紹了 FoundationStereo,一種用於立體深度估計的基礎模型,旨在實現強大的零樣本泛化能力。通過構建大規模(100 萬立體圖像對)合成訓練數據集,結合自動自篩選流程去除模糊樣本,並設計了網絡架構組件(如側調諧特徵主幹和遠程上下文推理)來增強可擴展性和準確性。這些創新顯著提升了模型在不同領域的魯棒性和精度,為零樣本立體深度估計設立了新標準。

相關論文 FoundationStereo: Zero-Shot Stereo Matching 獲得 CVPR 2025 滿分評審,代碼已開源。

  • 論文地址:https://arxiv.org/abs/2501.09898  

  • 項目主頁:https://nvlabs.github.io/FoundationStereo/  

  • 項目代碼和數據集:https://github.com/NVlabs/FoundationStereo/  

對比常用 RGBD 相機:

目前 FoundationStereo 在 Middlebury, ETH3D 等多個排行榜位列第一。

引言

立體匹配算法雖在基準數據集上表現優異,但零樣本泛化能力仍不足。現有方法依賴目標域微調,且受限於網絡結構或數據規模。本文提出 FoundationStereo,通過大規模合成數據、自篩選流程及結合單目先驗的架構設計,實現了無需微調的跨域泛化能力。主要貢獻如下:

1.FoundationStereo 大模型

  • 提出首個零樣本泛化能力強大的立體匹配基礎模型,無需目標域微調即可在多樣場景(室內 / 室外、無紋理 / 反射 / 透明物體等)中實現高精度深度估計。

2. 大規模合成數據集(FSD)

  • 構建包含 100 萬立體圖像對的高保真合成數據集,覆蓋複雜光照、隨機相機參數及多樣化 3D 資產,並通過路徑追蹤渲染提升真實性。

  • 設計迭代自篩選流程,自動剔除模糊樣本(如重覆紋理、純色區域),提升數據質量。

3. 單目先驗適配(STA 模塊)

  • 提出側調諧適配器(STA),將單目深度估計模型(DepthAnythingV2)的互聯網尺度幾何先驗與 CNN 特徵結合,顯著緩解合成到真實的域差距。

4. 注意力混合成本過濾(AHCF)

  • 軸向平面卷積(APC):將 3D 卷積解耦為空間和視差維度的獨立操作,擴展感受野並降低計算開銷。

  • 視差 Transformer(DT):在成本體積中引入跨視差自注意力機制,增強長程上下文推理能力。

5. 實驗性能突破

  • 零樣本泛化:在 Middlebury、ETH3D 等基準上超越微調模型(如 Middlebury BP-2 誤差從 7.5% 降至 1.1%)。

  • 領域內最優:Scene Flow 測試集 EPE 刷新紀錄(0.34),ETH3D 微調後排名第一。

方法

概覽

1. 單目 – 立體協同:通過 STA 融合 ViT 的幾何先驗與 CNN 的匹配能力,縮小仿真 – 真實差距。

2. 成本體積高效濾波:APC(大視差核) + DT(全局注意力)實現多尺度上下文聚合。

3. 數據驅動泛化:百萬級合成數據 + 自動篩選,覆蓋極端場景(透明 / 反射 / 無紋理物體)。

單目基礎模型適配(Monocular Foundation Model Adaptation)

1.動機:合成數據訓練的立體匹配模型存在仿真 – 真實差距(sim-to-real gap),而單目深度估計模型(如 DepthAnythingV2)在真實數據上訓練,能提供更強的幾何先驗。

2.方法:

  • 採用側調諧適配器(STA, Side-Tuning Adapter),將凍結的 DepthAnythingV2 ViT 特徵與輕量級 CNN(EdgeNeXt-S)提取的特徵融合。

  • 實驗對比三種融合策略(圖 3 左):

(a) 直接使用 ViT 特徵金字塔 → 效果較差(缺乏局部細節)。

(b) ViT 與 CNN 雙向特徵交換 → 計算複雜,收益有限。

(c) ViT 最終層特徵降維後與 CNN 特徵拚接 → 最優選擇(平衡效率與性能)。

  • 關鍵優勢:STA 模塊保留 ViT 的高層語義先驗,同時結合 CNN 的細粒度匹配能力,顯著提升對模糊區域(如弱紋理、反射表面)的魯棒性。

注意力混合成本過濾(Attentive Hybrid Cost Filtering)

1.混合成本體積構造(Hybrid Cost Volume Construction)

  • 輸入:STA 提取的左右圖像 1/4 解像度特徵(fl4,fr4fl4,fr4)。

  • 構造方式:

        1.分組相關(Group-wise Correlation):將特徵分為 8 組,計算逐組相關性(VgwcVgwc),增強匹配多樣性。

        2.特徵拚接(Concatenation):直接拚接左右圖像特徵(VcatVcat),保留單目先驗信息。

        3.最終成本體積:兼顧局部匹配與全局上下文。

2.軸向平面卷積(APC, Axial-Planar Convolution)

  • 問題:傳統 3D 卷積(如 3×3×3)對大視差範圍計算代價高,且感受野有限。

  • 改進:將 3D 卷積解耦為兩部分:

            1. 空間卷積(Ks×Ks×1Ks×Ks×1):處理圖像平面內的特徵。

            2. 視差卷積(1×1×Kd1×1×Kd):沿視差維度聚合信息。

        效果:在視差維度使用大核(如 Kd=17),顯著提升長距離匹配能力,同時降低內存佔用。

3.視差 Transformer(DT, Disparity Transformer)

  • 動機:傳統成本濾波缺乏全局視差關係建模

  • 設計:

        1.將成本體積降采樣至 1/16 解像度,轉換為視差序列 token

        2.通過 4 層 Transformer 編碼器(含 FlashAttention)執行跨視差自注意力。

        3.位置編碼:實驗表明餘弦編碼優於 RoPE(因視差維度固定)。

  • 作用:增強對薄結構、重覆紋理等複雜場景的匹配魯棒性。

4.初始視差預測

  • 對濾波後的成本體積 VC∗VC∗執行 Soft-Argmin,生成 1/4 解像度的初始視差圖 d0。

迭代優化(Iterative Refinement)

  • 相關性體積查找:基於當前視差 dk,從 VC 和左右特徵相關性體積 Vcorr中提取特徵。

  • GRU 更新

    1. 輸入:成本體積特徵 + 當前視差 + 上下文特徵(來自 STA)。

    2. 採用 3 級 ConvGRU(粗到細)逐步優化視差,每級隱藏狀態由上下文特徵        初始化。

  • 視差修正:通過卷積預測殘差 Δd,更新視差

損失函數(Loss Function)

  • 監督目標:

         1.初始視差 d0:平滑 L1 損失。

         2.迭代優化視差 {dk}{dk}:加權 L1 損失(權重隨迭代指數衰減,γ=0.9)。

合成訓練數據集(Synthetic Training Dataset)

  • 數據生成:

        1.工具:NVIDIA Omniverse 路徑追蹤渲染。

       2.多樣性增強:隨機化相機參數(基線、焦距)、光照、物體佈局。

       3.場景類型:結構化室內 / 室外場景 + 隨機飛行的複雜物體(圖 4)。

  • 自篩選流程:

         1. 訓練初始模型,在 FSD 上評估。

        2. 剔除 BP-2 > 60% 的模糊樣本(如無紋理區域、過度反射)。

        3. 重新生成數據並迭代訓練(共 2 輪),提升數據質量。

實驗和結果

我們在 PyTorch 中實現了 FoundationStereo 模型,使用混合數據集進行訓練,包括我們提出的 FSD 數據集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KI湯臣I 2 等公開數據集。採用 AdamW 優化器訓練 20 萬步,總 batch size 為 128,均勻分佈在 32 塊 NVIDIA A100 GPU 上。初始學習率設為 1e-4,在訓練過程進行到 80% 時衰減為原來的 0.1 倍。輸入圖像隨機裁剪為 320×736 大小,並採用與 IGEV 類似的數據增強方法。訓練時使用 22 次 GRU 迭代更新,而在後續實驗中(除非特別說明),我們使用相同的基礎模型進行零樣本推理,採用 32 次精煉迭代和 416 的最大視差範圍。除非特別說明,我們用同一權重的大模型進行零樣本的泛化測試。

在消融實驗中,我們系統驗證了模型各關鍵組件的有效性:首先比較了不同單目基礎模型(DepthAnythingV2 和 DINOv2)及其融合策略,發現 ViT 特徵降維拚接 CNN 的 STA 設計效果最佳;其次測試了 AHCF 模塊中位置編碼(餘弦編碼優於 RoPE)、注意力範圍(僅視差維度優於全成本體積)和 APC 卷積核配置(視差核尺寸 17 時性能飽和);最後證明了引入 FSD 數據集能顯著提升泛化性(Middlebury 上 BP-2 指標從 2.34% 降至 1.15%)。這些實驗全面支撐了模型設計的合理性。

FoundationStereo 在透明和千紋理物體上也表現出很好的泛化性:

團隊介紹

該論文來自於英偉達研究院。其中論文一作華人溫伯文博士任高級研究員,此前曾在Google X,Facebook Reality Labs, 亞馬遜和商湯實習。研究方向為機器人感知和 3D 視覺。獲得過 RSS 最佳論文獎提名。個人主頁: https://wenbowen123.github.io/

© THE END