超圖計算+目標檢測,性能新SOTA!清華發佈Hyper-YOLO:用超圖捕捉高階視覺關聯

編輯:LRST

【新智元導讀】Hyper-YOLO是一種新型目標檢測方法,通過超圖計算增強了特徵之間的高階關聯,提升了檢測性能,尤其在識別複雜場景下的中小目標時表現更出色。

YOLO(You Only Look Once)系列是目標檢測領域中的主流方法,以其高效性和實時性而著稱。然而,現有的YOLO模型在處理跨層特徵融合和複雜的高階特徵關係時存在局限,無法充分捕捉跨位置和跨尺度的複雜特徵關聯。

為瞭解決這一難點,清華大學提出了Hyper-YOLO:一種基於超圖計算的目標檢測方法。Hyper-YOLO首次將超圖計算集成到目標檢測網絡,對特徵圖中的複雜高階關聯進行建模,實現了高階信息的跨層次和跨位置傳播。

作者列表:Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Junhai Yong, Yipeng Li, Guiguang Ding, Rongrong Ji, Yue Gao.

論文地址:https://arxiv.org/abs/2408.04804

Github倉庫:https://github.com/iMoonLab/Hyper-YOLOv1.1

零代碼平台:http://hyperyolo.gaoyue.org:28501/#/predict

使用超圖計算結合YOLO,性能在各種規模模型中都達到頂尖,在COCO數據集上的表現明顯優於其他模型,尤其是對中小目標提升更加顯著。其中,相比於最新的YOLOv9-T、YOLO11-S,同規模的Hyper-YOLO分別實現了2%和1%的平均精度提升。

目標檢測的困境

近年來,隨著深度學習的快速發展,YOLO(You Only Look Once)系列模型憑藉其高效的單階段檢測架構,在目標檢測領域中脫穎而出。YOLO模型通過將目標檢測簡化為回歸問題,在保持高精度的同時實現了實時檢測能力,受到了廣泛關注和應用。

然而,隨著應用場景的複雜化,現有的YOLO模型在處理跨層次特徵融合和高階特徵關係時暴露出了一定的局限性。

下圖展示了幾個典型的案例 (YOLOv8為例)。在打網球的場景中,現有模型將網球拍誤判為了棒球棒;在衝浪的場景中,現有模型將衝浪板誤判為了風箏。這種錯誤正是由於現有的模型難以捕捉視覺對象之間的複雜關係。

因而,不同目標間的高階語義關聯推理限制了目標檢測的性能。

高階關聯的建模方法

為瞭解決這些問題,學術界一直在探索更加先進的模型設計與優化方法。其中,超圖計算作為一種能夠捕捉多方關係的數學工具,逐漸被應用於包括社交網絡、腦網絡等複雜數據結構分析中。

超圖覆蓋了多種關聯,是複雜關聯計算的有效方法。在Hyper-YOLO中,作者首次將超圖計算引入目標檢測領域,以實現視覺高階語義關聯的建模與學習。

模型效果

該工作在COCO數據集上進行了豐富的實驗。Hyper-YOLOv1.1提供了3種規模的版本(Tiny, Small , Medium),在對比實驗中,均明顯優於最新的YOLO模型。

其中,Tiny版本的平均精度(mAP)指標相比於YOLOv8、YOLOv9、YOLO11的同規模版本分別提升3.0%、2.0%、0.8%;Small版本的mAP指標相比於YOLOv8、YOLOv9、YOLO11的同規模版本分別提升3.1%、1.2%、1.0%。此外,對於骨幹網絡、Kernel大小、特徵增強策略、超圖構建策略的消融實驗證明了所提出的方法的先進性。

以下兩圖為YOLOv8、Hyper-YOLO在目標檢測和實例分割任務下的可視化結果。以下兩圖為YOLOv8、Hyper-YOLO在目標檢測和實例分割任務下的可視化結果。
下圖為使用高階關聯學習對特徵圖增強前後的可視化圖(通過HyperC2Net前後的特徵圖)。
下圖為使用高階關聯學習對特徵圖增強前後的可視化圖(通過HyperC2Net前後的特徵圖)。下圖為使用高階關聯學習對特徵圖增強前後的可視化圖(通過HyperC2Net前後的特徵圖)。

上述實驗結果證明,Hyper-YOLO具有目前最先進的檢測性能,尤其對場景中不同視覺對象的高階關係具有更準確的理解能力。

Hyper-YOLO零代碼平台

智能媒體與認知實驗室還推出了一款基於Hyper-YOLO的零代碼訓練平台。在該平台上,無需配置環境、修改配置文件等繁瑣操作,既可以一鍵上傳圖像利用訓練好的Hyper-YOLO模型進行推理,也可以上傳數據集自定義訓練、直觀展示訓練過程。(推薦使用PC端chrome/Edge瀏覽器)

項目鏈接:http://hyperyolo.gaoyue.org:28501/#/predict項目鏈接:http://hyperyolo.gaoyue.org:28501/#/predict

項目支持自定義訓練。

在訓練完成後,可以對驗證數據進行推理和評估,並可視化檢測結果:

方法概述

超圖計算

超圖是圖的推廣形式,是一種高效的特徵表示學習方法。在超圖中,一條超邊可以連接多個頂點,從而表示對象之間的高階關聯。超圖神經網絡作為超圖計算的核心方法,通常包含以下幾個步驟:

1. 從原始數據構建超邊

2. 從頂點到超邊的消息聚合(超邊卷積)

3. 從超邊到頂點的消息分發(節點卷積)

超圖神經網絡由於其靈活性和豐富的表達能力,廣泛應用於社交網絡分析、生物信息學、推薦系統等領域,能夠更有效地建模和分析複雜的多層次數據關聯。

Hyper-YOLO整體架構

Hyper-YOLO 繼承了典型的 YOLO 架構,骨幹網絡通過引入混合聚合網絡(MANet)來增強特徵提取能力,從五個特徵層中獲取信息。

頸部網絡(Neck)採用基於超圖的跨層次和跨位置表示網絡(HyperC2Net),通過超圖計算集成多尺度特徵,實現高階信息的跨層次和跨位置傳播,從而生成適用於目標檢測的語義特徵,顯著提升模型的檢測性能。

基於超圖的跨層次和跨位置表示網絡

在傳統YOLO模型中,頸部為連接骨幹網絡和預測頭之間的部分,通常採用類似PANet的結構,承擔多尺度特徵提取與融合的功能。雖然這類結構能夠進行一定的多尺度特徵融合,但直接的信息交互局限在相鄰層之間。

而基於超圖的跨層次跨位置表示網絡(Hypergraph-Based Cross-Level and Cross-Position Representation Network, HyperC2Net)則突破了這一瓶頸,主要過程如下:

1. 超圖構建:HyperC2Net將來自不同層次的特徵圖進行拚接,形成跨層次的視覺特徵集合。然後通過計算特徵點之間的距離,構建一個超圖,其中每個超邊連接多個頂點,代表多個特徵點之間的高階關係。超圖能夠表達跨層次和跨位置的複雜關係,而非簡單的相鄰層信息融合。

2. 超圖卷積:在構建超圖後,HyperC2Net利用超圖卷積在特徵圖上進行消息傳播。通過這種方式,不同位置和層次的特徵點可以相互傳遞信息,建模特徵點之間的高階關聯,增強了模型對於複雜場景中目標的識別能力。特別是在跨位置特徵交互方面,相比於傳統的卷積操作,超圖卷積能夠捕捉到更廣泛和複雜的特徵關聯。

總結

Hyper-YOLO通過引入超圖計算方法,突破了傳統YOLO模型在多尺度特徵融合上的局限。超圖的高階關聯建模能力使得HyperC2Net能夠在跨層次和跨位置的信息傳播中表現出色,不僅在特徵點之間實現高效的信息聚合和分發,還通過跨層次的消息傳遞顯著提升了目標檢測性能,尤其在處理複雜場景和多目標檢測任務中表現優異。

參考資料:

[1] Feng Y, Huang J, Du S, et al. Hyper-YOLO: When visual object detection meets hypergraph computation[J]. arXiv preprint arXiv:2408.04804, 2024. 

[2] Feng Y, You H, Zhang Z, et al. Hypergraph neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 3558-3565. 

[3] Gao Y, Feng Y, Ji S, et al. HGNN+: General hypergraph neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3181-3199.