行人、車輛、動物等ReID最新綜述！武大等全面總結Transformer方法 | IJCV 2024

編輯：LRST

【新智元導讀】研究人員對基於Transformer的Re-ID研究進行了全面回顧和深入分析，將現有工作分類為圖像/影片Re-ID、數據/標註受限的Re-ID、跨模態Re-ID以及特殊Re-ID場景，提出了Transformer基線UntransReID，設計動物Re-ID的標準化基準測試，為未來Re-ID研究提供新手冊。

目標重識別（Object Re-identification，簡稱Re-ID）旨在跨不同時間和場景識別特定對象。

近年來，基於Transformer的Re-ID改變了該領域長期由卷積神經網絡（CNN）主導的格局，不斷刷新性能記錄，取得重大突破。

與以往基於CNN與有限目標類型的Re-ID綜述不同，來自武漢大學、中山大學以及印第安納大學的研究人員全面回顧了近年來關於Transformer在Re-ID中日益增長的應用研究，深入分析Transformer的優勢所在，總結了Transformer在四個廣泛研究的Re-ID方向上的應用，同時將動物加入Re-ID目標類型，揭示Transformer架構在動物Re-ID應用的巨大潛力。

論文地址：http://arxiv.org/abs/2401.06960

項目地址：https://github.com/mangye16/ReID-Survey

Transformer架構方法打破CNN架構性能記錄

研究背景

Transformer以優異性能滿足各種Re-ID任務的需求，提供一種強大、靈活且統一的解決方案。

研究人員將現有工作分類為基於圖像/影片的Re-ID、數據/標註受限的Re-ID、跨模態Re-ID及特殊Re-ID場景，詳細闡述Transformer在應對這些領域中各種挑戰時所展現的優勢。

考慮到無監督Re-ID的流行趨勢，研究人員提出了新的Transformer基線——UntransReID，在單模態/跨模態任務實現最先進性能。

一般的Re-ID流程

針對尚未被充分探索的動物Re-ID領域，研究人員還設計了標準化的基準測試，進行廣泛的實驗以探討Transformer在這一任務中的適用性，促進未來研究。

最後，討論了一些在大模型時代中重要但尚未深入研究的開放性問題。

Transformer在圖片/影片Re-ID的應用

Transformer在backbone層依靠注意力機制，具有全局、局部和時空關係的通用建模能力，有助於在圖像/影片Re-ID任務中輕鬆提取全局、細粒度和時空信息。

Transformer在圖像Re-ID的應用

1. 架構優化：設計特殊的Transformer架構，如金字塔結構、層次聚合等，或改進注意力機制。

2. Re-ID特定設計：利用視覺Transformer具備註意力機制和圖像塊嵌入的特性，捕捉局部區分性信息。通過Transformer中的編碼器-解碼器結構實現某些關鍵信息的解耦。根據不同目標類型的結構先驗和任務特性進行Transformer架構設計。

圖像Re-ID方法設計的不同Transformer架構

Transformer在影片Re-ID的應用

1. 應用Transformer進行後處理：許多應用Transformer的影片Re-ID方法為混合架構，先利用CNN模型提取特徵，再使用Transformer模型進一步處理。通過Transformer的自注意力機制，捕捉序列中的長期依賴關係和上下文信息。

2. 純Transformer架構：為克服混合架構中CNN導致的長距離信息獲取受限，一些研究嘗試探索純Transformer架構在影片Re-ID中的應用。

數據/標註受限的Re-ID

Transformer為無監督學習提供更多可能。Transformer能夠對更強大、更通用的模型進行廣泛自監督預訓練，以應對數據或標註受限的Re-ID任務。標註受限場景通常採取無監督Re-ID，而數據受限則主要通過領域泛化Re-ID解決。

Transformer在無監督Re-ID的應用

1. 自監督預訓練：一類針對無監督Re-ID中Transformer應用的研究關注自監督預訓練。Transformer模型對大規模無標籤數據具有強大可擴展性，其結構的靈活性提供了更多樣化的自監督範式。

2. 無監督領域自適應：Transformer在無監督領域自適應（UDA）問題中受到的關注有限。對於行人Re-ID，Wang等人借助Transformer實現不同身體部位之間的細粒度領域對齊。對於車輛Re-ID，一項工作通過聯合訓練策略，令Transformer自適應地關注每個域中車輛的判別部分。

Transformer在跨模態Re-ID的應用

Transformer提供了統一的架構，有效處理不同模態的數據。多頭注意力機制可在各種特徵空間和全局語境中聚合特徵。高度適應性的編碼器-解碼器結構可容納不同類型的輸入和輸出。因此Transformer特別適合在跨模態Re-ID中建立模態間關聯，促進多模態信息的融合。

可見光-紅外Re-ID旨在匹配白天的可見光圖像與夜間的紅外圖像。因紅外圖像缺乏顏色與光照條件，視覺Transformer可更好地捕捉模態不變特徵並具備更強的魯棒性。視覺Transformer的結構及其注意力機制可在patch級別輕鬆建立局部跨模態關聯。現有可見光-紅外Re-ID方法聚焦於學習模態共享特徵，將特徵分解為模態特定特徵和共享模態特徵，在特徵層面進行模態對齊。

文本-圖像Re-ID為跨模態檢索任務，根據文本描述在圖像庫中識別目標。作為Transformer架構在多模態應用中的里程碑，對比語言-圖像預訓練（CLIP）等大型多模態預訓練模型使該領域取得顯著進展。近期，CLIP已成為下遊文本-圖像Re-ID任務中的有力工具。

素描-圖像Re-ID與骨架Re-ID均屬於跨模態匹配任務，前者基於藝術家或業餘者繪製的素描，後者則基於姿態估計生成的骨架圖。Transformer擅長提取全局特徵，在素描-圖像Re-ID中表現突出。對於骨架Re-ID，可利用Transformer對骨架點構成的圖結構進行全關係建模。

Transformer在特殊Re-ID的應用

在實際應用需求的推動下，Re-ID領域出現一系列特殊應用場景。Transformer被初步應用於這些複雜挑戰，體現了卓越的可擴展性和適應性。

遮擋Re-ID：遮擋Re-ID場景下，圖片中的識別目標被部分遮擋，導致身份信息難以完整提取。近年來基於Transformer的方法在這一場景取得顯著成效，其核心策略包括提取局部區域特徵。

換衣Re-ID：在長期Re-ID場景中，行人可能會以未知方式更換衣物,以服裝外觀為主導的判別性特徵表示將失效。Lee等人在換裝Re-ID場景下對不同的特徵提取主幹網絡進行評估，Transformer架構相較於CNN表現出顯著性能優勢。

以人為中心的任務：以人為中心的通用模型旨在將包括行人檢測、姿態估計、屬性識別和人體解析在內的多個人體相關任務整合到同一框架中，從而相互促進，提升如Re-ID這類下遊任務的性能。

行人檢索：行人檢索是一種端到端方法，通過多任務學習同時解決行人檢測與Re-ID這兩個目標衝突的問題。將多尺度Transformer架構引入行人檢索方案可實現查詢層面的實例級匹配。

群體Re-ID：群體Re-ID利用群體中的上下文信息來匹配在同一個群體中的個體,面臨群體成員變動與佈局變化等挑戰。傳統方法在位置建模方面存在不足，利用Transformer的位置嵌入機制可更好地處理群體級別的佈局特性。

無人機Re-ID：與固定攝像頭相比，無人機在高度與視角上快速變化，導致圖像更為複雜。在鳥瞰圖像中分析車輛與行人時，顯著的邊界框尺寸差異與物體方向不確定性是關鍵挑戰。除了純無人機視角Re-ID外，還有研究重點關注空中與地面視角的跨域匹配。

特殊Re-ID場景

新基線UntransReID

研究人員提出了一個單模態/跨模態的常規無監督Re-ID基線UntransReID。

無監督Re-ID基線UntransReID

單模態無監督Re-ID：研究人員在無監督訓練過程中設計了一種面向patch級別的mask增強策略。在數據增強過程中採用一系列learnable tokens來mask部分圖像patch，並在訓練過程中建立原始特徵與掩碼特徵之間的對應關係，將此作為監督信號來引導模型學習。

跨模態無監督Re-ID：針對可見光-紅外跨模態行人Re-ID，研究人員設計了一種雙流Transformer結構，包含兩個面向特定模態的patch嵌入層以及一個模態共享的Transformer。為進一步提升模態的泛化能力，在可見光通道中引入隨機通道增強作為額外的輸入，實現聯合訓練。

實驗結果分析：對於單模態無監督Re-ID，UntransReID取得了與當前最先進方法相當的性能。跨模態Re-ID現有先進方法大多基於CNN且需要複雜的跨模態關聯設計，UntransReID在多個可見光-紅外Re-ID數據集上憑藉簡潔的設計實現了最先進的性能。

表1 基於CNN/Transformer的有監督/無監督方法的實驗結果

表2 可見光-紅外跨模態基線在RegDB和SYSU-MM01上的實驗結果

動物Re-ID

研究人員特別探討了動物Re-ID領域研究現狀，總結近年來的動物Re-ID數據集和基於深度學習的動物Re-ID方法，為動物Re-ID製定統一的實驗標準，並評估在此背景下使用Transformer的可行性，為未來的研究奠定堅實基礎。

近年來的動物Re-ID數據集

動物Re-ID方法

基於全局圖像的方法：許多現有研究借鑒行人Re-ID的傳統方法，將完整的動物圖像輸入深度神經網絡以獲取可靠的特徵表示。

基於局部區域的方法：一些工作在數據採集與特徵提取階段關注動物的關鍵部位，例如牛的頭部、大象耳朵、鯨魚尾巴以及海豚的鰭等。

基於輔助信息的方法：Zhang等人以犛牛頭部左右朝向的簡化姿態為輔助監督信號，強化特徵表示；Li等人借助姿態關鍵點估計將老虎圖像劃分為多個身體部位進行局部特徵學習。

動物Re-ID的統一基準測試

研究人員使用多種先進的通用Re-ID方法進行了廣泛動物Re-ID實驗。實驗評估了基於CNN架構的BoT方法和基於Transformer架構的TransReID、RotTrans方法。基於Transformer架構的方法在多數情形下表現更優，本實驗證明了Transformer在動物Re-ID應用的可行性與巨大潛力。