視覺定位新SOTA！華人團隊開源革新框架SegVG，邊界框轉為分割信號 | ECCV 2024

新智元報導

編輯：LRST

【新智元導讀】SegVG是一種新的視覺定位方法，通過將邊界框註釋轉化為像素級分割信號來增強模型的監督信號，同時利用三重對齊模塊解決特徵域差異問題，提升了定位準確性。實驗結果顯示，SegVG在多個標準數據集上超越了現有的最佳模型，證明了其在視覺定位任務中的有效性和實用性。

視覺定位（Visual Grounding）旨在基於自由形式的自然語言文本表達定位圖像中的目標物體。

隨著多模態推理系統的普及，如視覺問答和圖像描述，視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類：兩階段方法、單階段方法和基於Transformer的方法。

儘管這些方法取得了良好的效果，但在註釋的利用上仍顯得不足，尤其是僅將框註釋作為回歸的真值樣本，限制了模型的性能表現。

具體而言，視覺定位面臨的挑戰在於其稀疏的監督信號，每對文本和圖像僅提供一個邊界框標籤，與目標檢測任務（Object Detection）存在顯著不同，因此充分利用框註釋至關重要，將其視為分割掩膜（即邊界框內的像素賦值為1，外部像素賦值為0），可以為視覺定位提供更細粒度的像素級監督。

伊利諾伊理工學院、中佛羅里達大學的研究人員提出了一個名為SegVG的新方法，旨在將邊界框級的註釋轉化為分割信號，以提供更為豐富的監督信號。

論文鏈接：https://arxiv.org/abs/2407.03200

代碼鏈接：https://github.com/WeitaiKang/SegVG/tree/main

該方法倡導多層多任務編碼器-解碼器結構，學習回歸查詢和多個分割查詢，以通過回歸和每個解碼層的分割來實現目標定位。

此外，為瞭解決由於特徵域不匹配而產生的差異，研究中引入了三重對⻬模塊，通過三重注意機制更新查詢、文本和視覺特徵，以確保共享同一空間，從而提高後續的目標檢測效果。

綜上，SegVG通過最大化邊界框註釋的利用，提供了額外的像素級監督，並通過三重對⻬消除特徵之間的域差異，這在視覺定位任務中具有重要的創新意義。

以下是來自論文中的相關圖示，用以進一步說明視覺定位框架的不同:

方法

在本節中，介紹了SegVG方法的各個組件，按數據流的順序進行說明，包括⻣干網絡、Triple Alignment模塊以及Multi-layer Multi-task Encoder-Decoder。

⻣干網絡

SegVG方法的視覺⻣干網絡和文本⻣干網絡分別處理圖像和文本數據。視覺⻣干網絡使用的是經過Object Detection任務在MSCOCO數據集上預訓練的ResNet和DETR的Transformer編碼器。

文本⻣干網絡使用BERT的嵌入層將輸入文本轉換為語言Token，在Token前添加一個[CLS]標記，並在末尾添加一個[SEP]標記，隨後通過BERT層迭代處理得到語言嵌入。

Triple Alignment

Triple Alignment模塊致力於解決視覺骨幹、文本骨幹和查詢特徵之間的域差異。該模塊利用注意力機制執行三角形特徵采樣，確保查詢、文本和視覺特徵之間的一致性。

輸⼊的查詢被初始化為可學習的嵌入，包含一個回歸查詢和多個分割查詢。這⼀過程按以下方式進行：

通過這種方式，Triple Alignment模塊能夠在每⼀層迭代幫助三類特徵實現有效地對齊。

Multi-layer Multi-task Encoder-Decoder

其目標對接階段的核心部分，旨在通過跨模態融合和目標對接同時執行邊框回歸任務和邊框分割任務。

編碼器部分融合了文本和視覺特徵，每一層通過多頭自注意力層（MHSA）和前饋網絡（FFN）過程實現提升。解碼器部分則通過bbox2seg範式將邊框註釋轉化為分割掩碼，分割掩碼將框內的像素標記為前景（值為1），而框外像素則標記為背景（值為0）。

在每一解碼層中，一個回歸查詢用於回歸邊框，多個分割查詢則用於對目標進行分割。

上述公式中，各種損失函數(如L1損失、GIoU損失、Focal損失和Dice損失)被結合用於驅動模型的訓練過程，使得模型在執行回歸和分割任務時獲得強化的反饋。

通過將分割輸出的信心值轉化為Focal損失因子，可以有效地強調那些難以訓練的數據樣本，以進一步提升模型的性能。

整體而言，SegVG方法實現了對邊框註釋的最大化利用，並有效解決了多模態特徵間的域差異問題，為視覺目標定位任務帶來了重要的改進和提升。

實驗

在實驗部分，研究者對所提出的SegVG模型進行了全面的評估，涉及多個標準數據集和不同的實驗設置，以驗證其有效性和優越性。

指標與數據集

研究者採用的主要評估指標是交並比(IoU)和前1準確率，以評估預測邊界框與真實邊界框的匹配程度。使用的標準基準數據集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。

實施細節

研究中對數據輸入進行了特別配置，使用640×640的圖像大小，以及最大文本⻓度設定為40。當圖像大小調整時，會保持原始寬高比。模型的訓練過程採用AdamW優化器，及其學習率和權重衰減參數。

定量結果

在定量實驗中，SegVG模型在所有基準數據集中表現出色。例如，在RefCOCO+數據集上，其預先訓練模型在各個子集上相較於之前的最先進模型取得了顯著提升，分別達到了2.99%、3.7%和2.42%的準確率提升。

在RefCOCOg數據集上，SegVG同樣取得了+3.03%、+2.31%和+3.24%的準確率提升。這些結果證明了結合TripleAlignment和Multi-layerMulti-taskEncoder-Decoder後，模型在目標定位和準確性上的提升。

消融研究

進一步分析通過控制變量法對各個模塊的有效性進行消融研究。研究顯示，加入Triple Alignment模塊後，可以有效消除查詢、文本及視覺特徵之間的領域差異，進而促進後續的目標定位。

此外，通過加入Multi-layer Multi-task監督，能夠迭代充分利用註釋信息，從而增強查詢表示的學習能力。

計算開銷比較

研究者還對不同Transformer模型的參數數量和GFLOPS進行了比較，以評估SegVG的計算開銷，結果表明，SegVG的計算成本處於合理範圍，符合實際應用需求。

定性結果

在定性分析中，通過對比不同模型在目標檢測中的表現，SegVG在初始解碼層階段就能準確識別目標位置，相較於對比模型VLTVG而言，表現更加穩健。

具體案例中，SegVG成功定位複雜背景下的目標，顯示了其在多任務優化時的高度有效性。

參考資料：

https://arxiv.org/abs/2407.03200

你可能喜歡