南理工提出FMC-DETR：巧用“頻率解耦”，航拍小目標(biāo)檢測精度飆升8.2% AP50

2025-10-04 19:28:37　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

在廣闊的航拍圖像中，要準(zhǔn)確地找出那些只占了幾個像素點的微小目標(biāo)，比如遠處的車輛、行人，無疑是一項極具挑戰(zhàn)性的任務(wù)。這就像是在一幅巨大的畫卷中“找茬”，不僅考驗眼力，更考驗對整個畫面的理解能力。這項技術(shù)在自然資源監(jiān)測、交通管理、無人機搜救等領(lǐng)域至關(guān)重要。

目前的方法在處理這類問題時，常常陷入一個兩難的境地：為了看清微小目標(biāo)的細節(jié)，需要依賴網(wǎng)絡(luò)淺層的、高分辨率的特征；但為了判斷這個小目標(biāo)到底是什么，又需要網(wǎng)絡(luò)深層的、包含全局信息的上下文。如何有效地融合這兩者，一直是個難題。

最近，來自南京理工大學(xué)的研究者們提出了一種全新的框架 FMC-DETR，巧妙地從“頻域”入手，解決了這個難題。在他們的新論文 《FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection》 中，他們通過解耦不同頻率的信息，實現(xiàn)了對航拍小目標(biāo)前所未有的精準(zhǔn)檢測。

論文標(biāo)題 : FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection
作者 : Ben Liang, Yuan Liu, Bingwen Qiu, Yihong Wang, Xiubao Sui, Qian Chen
機構(gòu) : 南京理工大學(xué)
論文地址 : https://arxiv.org/abs/2509.23056
代碼倉庫 : https://github.com/bloomingvision/FMC-DETR

問題的核心：局部細節(jié)與全局上下文的“兩難全”

在信號處理中，我們知道圖像的高頻部分對應(yīng)著邊緣、紋理等細節(jié)信息，而低頻部分則對應(yīng)著輪廓、背景等全局結(jié)構(gòu)信息。

對于航拍小目標(biāo)檢測：

高頻細節(jié) 至關(guān)重要，因為目標(biāo)本身就很小，所有可用的視覺線索都包含在這些高頻信息里。
低頻上下文 同樣不可或缺，它能幫助模型判斷一個“小點”究竟是路燈、是車，還是噪聲。

現(xiàn)有方法往往在網(wǎng)絡(luò)深層才進行上下文融合，此時淺層的細節(jié)信息已經(jīng)丟失很多?；蛘咴谌诤蠒r，全局信息（低頻）會“污染”或“模糊”掉寶貴的局部細節(jié)（高頻），導(dǎo)致性能瓶頸。

FMC-DETR：從頻域入手，解耦多域協(xié)同

FMC-DETR的核心思想，就是 頻率解耦（Frequency-Decoupled）。它不再將不同尺度的特征簡單混合，而是先在頻域上將它們分離開，有針對性地處理，最后再進行高效的多域協(xié)同（Multi-Domain Coordination）。

整個框架主要由三個創(chuàng)新模塊構(gòu)成：

1. WeKat骨干網(wǎng) (Wavelet Kolmogorov-Arnold Transformer)

這是一個全新的骨干網(wǎng)絡(luò)，也是實現(xiàn)頻率解耦的關(guān)鍵。它包含兩大“神器”：

小波變換 (Wavelet Transform) ：在網(wǎng)絡(luò)的淺層特征上，作者創(chuàng)新性地引入了級聯(lián)小波變換。小波變換是信號處理中一種強大的工具，能完美地將信號分解為高頻和低頻部分。這樣一來，模型就可以在不破壞高頻細節(jié)（保留小目標(biāo)）的前提下，單獨增強低頻的全局上下文感知能力。
Kolmogorov-Arnold網(wǎng)絡(luò) (KANs) ：這是近期非?；馃岬囊环N新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，理論上比傳統(tǒng)的多層感知機（MLP）具有更強的非線性建模能力。作者用它來替代傳統(tǒng)Transformer中的MLP，從而能更自適應(yīng)地對多尺度特征之間的復(fù)雜依賴關(guān)系進行建模。

2. 輕量級跨階段局部融合 (CPF)

這個模塊用于高效地融合來自不同階段的特征，它通過局部融合的方式，減少了冗余計算，提升了多尺度特征的交互效率。

3. 多域特征協(xié)同 (MDFC)

這是最后的“總指揮”。它將來自空間域（原始像素）、頻率域（小波處理后）和結(jié)構(gòu)先驗（模型學(xué)到的）的信息進行統(tǒng)一，實現(xiàn)優(yōu)勢互補，最終在保留細節(jié)和增強全局感知之間取得完美平衡。

更少參數(shù)，更高精度：SOTA級的檢測性能

FMC-DETR不僅設(shè)計巧妙，實際效果也相當(dāng)驚人。在極具挑戰(zhàn)性的VisDrone等航拍數(shù)據(jù)集上，它以更少的參數(shù)量，取得了當(dāng)前最先進（SOTA）的性能。

與基線模型相比，F(xiàn)MC-DETR在VisDrone數(shù)據(jù)集上，將整體檢測精度（AP）提升了 6.5%，將在小目標(biāo)上更為關(guān)鍵的AP50指標(biāo)提升了 8.2%！

從下面的可視化熱力圖對比中，我們可以直觀地看到FMC-DETR的優(yōu)勢。對于密集的小目標(biāo)（如車輛），基線模型的注意力（亮區(qū)）非常分散，而FMC-DETR的注意力則能精準(zhǔn)地聚焦在每一個目標(biāo)上，從而實現(xiàn)了更準(zhǔn)確的檢測，減少了漏檢和誤檢。

與基線模型在不同數(shù)據(jù)集上的定性比較：

從中大家也可以看到此類小目標(biāo)檢測的難度的確不小。

FMC-DETR的成功，為應(yīng)對計算機視覺中的多尺度問題，特別是小目標(biāo)檢測，提供了一個全新的、極具潛力的思路。作者也提供了代碼倉庫，期待后續(xù)代碼的放出。

將信號處理中的頻域分析思想引入到目標(biāo)檢測，大家覺得這個方向還有哪些潛力可挖？歡迎在評論區(qū)分享你的看法！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.