頂刊 TPAMI 2024！北理等提出 FreqFusion，讓 CVPR 投稿輕鬆漲點

作者丨知凡

來源丨PaperWeekly

編輯丨極市平台

導讀

本文提出了一種名為FreqFusion的新方法，用於改善計算機視覺中的密集圖像預測任務，如語義分割、目標檢測、實例分割和全景分割。FreqFusion通過自適應低通濾波器、偏移生成器和自適應高通濾波器增強特徵圖的質量，顯著提高了模型的性能。

大家是不是埋頭準備 CVPR 2025 的投稿苦於漲點困難？快來看看熱氣騰騰的新鮮 TPAMI 2024 論文：

論文鏈接：

https://www.arxiv.org/abs/2408.12879

代碼已開源：

https://github.com/Linwei-Chen/FreqFusion

在語義分割、目標檢測、實例分割、全景分割上都漲點！

01 這篇論文做了什麼？

現有的語義分割、目標檢測等高層密集識別模型中，往往需要將低分辨高層特徵與高解像度低層特徵融合，例如 FPN：

雖然簡單，但這樣粗糙的特徵融合方式顯然不夠優秀，一方面特徵本身對同一類目標的一致性不夠高，會出現融合特徵值在對象內部快速變化，導致類別內不一致性，另一方面簡單的上采樣會導致邊界模糊，以及融合特徵的邊界模糊，缺乏精確的高頻細節。

02 提出了什麼方法？

FreqFusion 提出：為瞭解決這些問題，作者提出了一種名為 Frequency-Aware Feature Fusion（FreqFusion）的方法。FreqFusion 包括：

自適應低通濾波器（ALPF）生成器：預測空間變化的低通濾波器，以在上采樣過程中減少對象內部的高頻成分，降低類別內不一致性。
偏移生成器：通過重采樣，用更一致的特徵替換大的不一致特徵，使得同一類目標特徵更穩定一致。
自適應高通濾波器（AHPF）生成器：增強在下采樣過程中丟失的高頻細節邊界信息。

用特徵圖進行分析對比，發現 FreqFusion 各個部分都可以顯著提高特徵的質量！

文中給了大量的分析和詳細的說明，具體方法可以看原文~

03 漲點漲了多少？

3.1 語義分割semantic segmentation

輕量化語義分割 SegNeXt，在 ADE20K 上 +2.4 mIoU（實際 checkpoint，+2.6mIoU）

強大的 Mask2Former 已經在 ADE20K 上取得很好的結果，FreqFusion 還能狠狠進一步講 Swin-B 提升 +1.4 mIoU（實際給出的 checkpoint，+1.8 mIoU），即便是重型的 Swin-Large，也能提升高 +0.7 mIoU（實際給出的 checkpoint，+0.9 mIoU）。不得不說論文里彙報的結果還是保守了。

3.2 目標檢測object detection

Faster RCNN +1.9 AP（實際公開的 checkpoint，+2.0 AP）

3.3 實例分割instance segmentation

Mask R-CNN，+1.7 box AP，+1.3 mask AP。

3.4 全景分割panoptic segmentation

PanopticFCN，+2.5 PQ。

04 如何使用？

簡單來說，示例如下：

m = FreqFusion(hr_channels=64, lr_channels=64)
hr_feat = torch.rand(1, 64, 32, 32)
lr_feat = torch.rand(1, 64, 16, 16)
_, hr_feat, lr_feat = m(hr_feat=hr_feat, lr_feat=lr_feat)

FreqFusion 的簡潔代碼可在此處獲得。通過利用它們的頻率特性, FreqFusion 能夠增強低解像度和高解像度特徵的質量 (分別稱為和 feat, 假設的大小是的兩倍 Ir_feat )。用法非常簡單, 只要模型中存在這種形式的不同解像度特徵相融合的情況就可以使用 FreqFusion 對模型進行提升漲點。

你可能喜歡