頂刊 TPAMI 2024!北理等提出 FreqFusion,讓 CVPR 投稿輕鬆漲點

作者丨知凡

來源丨PaperWeekly

編輯丨極市平台

導讀

本文提出了一種名為FreqFusion的新方法,用於改善計算機視覺中的密集圖像預測任務,如語義分割、目標檢測、實例分割和全景分割。FreqFusion通過自適應低通濾波器、偏移生成器和自適應高通濾波器增強特徵圖的質量,顯著提高了模型的性能。

大家是不是埋頭準備 CVPR 2025 的投稿苦於漲點困難?快來看看熱氣騰騰的新鮮 TPAMI 2024 論文:

論文鏈接:

https://www.arxiv.org/abs/2408.12879

代碼已開源:

https://github.com/Linwei-Chen/FreqFusion

在語義分割、目標檢測、實例分割、全景分割上都漲點!

01 這篇論文做了什麼?

現有的語義分割、目標檢測等高層密集識別模型中,往往需要將低分辨高層特徵與高解像度低層特徵融合,例如 FPN:

雖然簡單,但這樣粗糙的特徵融合方式顯然不夠優秀,一方面特徵本身對同一類目標的一致性不夠高,會出現融合特徵值在對象內部快速變化,導致類別內不一致性,另一方面簡單的上采樣會導致邊界模糊,以及融合特徵的邊界模糊,缺乏精確的高頻細節。

02 提出了什麼方法?

FreqFusion 提出: 為瞭解決這些問題,作者提出了一種名為 Frequency-Aware Feature Fusion(FreqFusion)的方法。FreqFusion 包括:

  • 自適應低通濾波器(ALPF)生成器: 預測空間變化的低通濾波器,以在上采樣過程中減少對象內部的高頻成分,降低類別內不一致性。

  • 偏移生成器: 通過重采樣,用更一致的特徵替換大的不一致特徵,使得同一類目標特徵更穩定一致。

  • 自適應高通濾波器(AHPF)生成器: 增強在下采樣過程中丟失的高頻細節邊界信息。

用特徵圖進行分析對比,發現 FreqFusion 各個部分都可以顯著提高特徵的質量!

文中給了大量的分析和詳細的說明,具體方法可以看原文~

03 漲點漲了多少?

3.1 語義分割semantic segmentation

輕量化語義分割 SegNeXt,在 ADE20K 上 +2.4 mIoU(實際 checkpoint,+2.6mIoU)

強大的 Mask2Former 已經在 ADE20K 上取得很好的結果,FreqFusion 還能狠狠進一步講 Swin-B 提升 +1.4 mIoU(實際給出的 checkpoint,+1.8 mIoU),即便是重型的 Swin-Large,也能提升高 +0.7 mIoU(實際給出的 checkpoint,+0.9 mIoU)。不得不說論文里彙報的結果還是保守了。

3.2 目標檢測object detection

Faster RCNN +1.9 AP(實際公開的 checkpoint,+2.0 AP)

3.3 實例分割instance segmentation

Mask R-CNN,+1.7 box AP,+1.3 mask AP。

3.4 全景分割panoptic segmentation

PanopticFCN,+2.5 PQ。

04 如何使用?

簡單來說,示例如下:

m = FreqFusion(hr_channels=64, lr_channels=64)
hr_feat = torch.rand(1, 64, 32, 32)
lr_feat = torch.rand(1, 64, 16, 16)
_, hr_feat, lr_feat = m(hr_feat=hr_feat, lr_feat=lr_feat)

FreqFusion 的簡潔代碼可在此處獲得。通過利用它們的頻率特性, FreqFusion 能夠增強低解像度和高解像度特徵的質量 (分別稱為 feat, 假設的大小 是的兩倍 Ir_feat )。用法非常簡單, 只要模型中存在 這種形式的不同解像度特徵相融合的情況就可以使用 FreqFusion 對模型進行提升漲點。