在廣闊的航拍圖像中,要準(zhǔn)確地找出那些只占了幾個像素點的微小目標(biāo),比如遠處的車輛、行人,無疑是一項極具挑戰(zhàn)性的任務(wù)。這就像是在一幅巨大的畫卷中“找茬”,不僅考驗眼力,更考驗對整個畫面的理解能力。這項技術(shù)在自然資源監(jiān)測、交通管理、無人機搜救等領(lǐng)域至關(guān)重要。
目前的方法在處理這類問題時,常常陷入一個兩難的境地:為了看清微小目標(biāo)的細節(jié),需要依賴網(wǎng)絡(luò)淺層的、高分辨率的特征;但為了判斷這個小目標(biāo)到底是什么,又需要網(wǎng)絡(luò)深層的、包含全局信息的上下文。如何有效地融合這兩者,一直是個難題。
最近,來自南京理工大學(xué)的研究者們提出了一種全新的框架 FMC-DETR,巧妙地從“頻域”入手,解決了這個難題。在他們的新論文 《FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection》 中,他們通過解耦不同頻率的信息,實現(xiàn)了對航拍小目標(biāo)前所未有的精準(zhǔn)檢測。
論文標(biāo)題 : FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection
作者 : Ben Liang, Yuan Liu, Bingwen Qiu, Yihong Wang, Xiubao Sui, Qian Chen
機構(gòu) : 南京理工大學(xué)
論文地址 : https://arxiv.org/abs/2509.23056
代碼倉庫 : https://github.com/bloomingvision/FMC-DETR
在信號處理中,我們知道圖像的高頻部分對應(yīng)著邊緣、紋理等細節(jié)信息,而低頻部分則對應(yīng)著輪廓、背景等全局結(jié)構(gòu)信息。
對于航拍小目標(biāo)檢測:
高頻細節(jié) 至關(guān)重要,因為目標(biāo)本身就很小,所有可用的視覺線索都包含在這些高頻信息里。
低頻上下文 同樣不可或缺,它能幫助模型判斷一個“小點”究竟是路燈、是車,還是噪聲。
現(xiàn)有方法往往在網(wǎng)絡(luò)深層才進行上下文融合,此時淺層的細節(jié)信息已經(jīng)丟失很多?;蛘咴谌诤蠒r,全局信息(低頻)會“污染”或“模糊”掉寶貴的局部細節(jié)(高頻),導(dǎo)致性能瓶頸。
FMC-DETR:從頻域入手,解耦多域協(xié)同
FMC-DETR的核心思想,就是 頻率解耦(Frequency-Decoupled)。它不再將不同尺度的特征簡單混合,而是先在頻域上將它們分離開,有針對性地處理,最后再進行高效的多域協(xié)同(Multi-Domain Coordination)。
整個框架主要由三個創(chuàng)新模塊構(gòu)成:
1. WeKat骨干網(wǎng) (Wavelet Kolmogorov-Arnold Transformer)
這是一個全新的骨干網(wǎng)絡(luò),也是實現(xiàn)頻率解耦的關(guān)鍵。它包含兩大“神器”:
小波變換 (Wavelet Transform) :在網(wǎng)絡(luò)的淺層特征上,作者創(chuàng)新性地引入了級聯(lián)小波變換。小波變換是信號處理中一種強大的工具,能完美地將信號分解為高頻和低頻部分。這樣一來,模型就可以在不破壞高頻細節(jié)(保留小目標(biāo))的前提下,單獨增強低頻的全局上下文感知能力。
Kolmogorov-Arnold網(wǎng)絡(luò) (KANs) :這是近期非?;馃岬囊环N新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),理論上比傳統(tǒng)的多層感知機(MLP)具有更強的非線性建模能力。作者用它來替代傳統(tǒng)Transformer中的MLP,從而能更自適應(yīng)地對多尺度特征之間的復(fù)雜依賴關(guān)系進行建模。
這個模塊用于高效地融合來自不同階段的特征,它通過局部融合的方式,減少了冗余計算,提升了多尺度特征的交互效率。
3. 多域特征協(xié)同 (MDFC)
這是最后的“總指揮”。它將來自空間域(原始像素)、頻率域(小波處理后)和結(jié)構(gòu)先驗(模型學(xué)到的)的信息進行統(tǒng)一,實現(xiàn)優(yōu)勢互補,最終在保留細節(jié)和增強全局感知之間取得完美平衡。
更少參數(shù),更高精度:SOTA級的檢測性能
FMC-DETR不僅設(shè)計巧妙,實際效果也相當(dāng)驚人。在極具挑戰(zhàn)性的VisDrone等航拍數(shù)據(jù)集上,它以更少的參數(shù)量,取得了當(dāng)前最先進(SOTA)的性能。
與基線模型相比,F(xiàn)MC-DETR在VisDrone數(shù)據(jù)集上,將整體檢測精度(AP)提升了 6.5%,將在小目標(biāo)上更為關(guān)鍵的AP50指標(biāo)提升了 8.2%!
從下面的可視化熱力圖對比中,我們可以直觀地看到FMC-DETR的優(yōu)勢。對于密集的小目標(biāo)(如車輛),基線模型的注意力(亮區(qū))非常分散,而FMC-DETR的注意力則能精準(zhǔn)地聚焦在每一個目標(biāo)上,從而實現(xiàn)了更準(zhǔn)確的檢測,減少了漏檢和誤檢。
與基線模型在不同數(shù)據(jù)集上的定性比較:
從中大家也可以看到此類小目標(biāo)檢測的難度的確不小。
FMC-DETR的成功,為應(yīng)對計算機視覺中的多尺度問題,特別是小目標(biāo)檢測,提供了一個全新的、極具潛力的思路。作者也提供了代碼倉庫,期待后續(xù)代碼的放出。
將信號處理中的頻域分析思想引入到目標(biāo)檢測,大家覺得這個方向還有哪些潛力可挖?歡迎在評論區(qū)分享你的看法!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.