題目:Dynamic Dictionary Learning for Remote Sensing Image Segmentation
會議:International Conference on Computer Vision 2025
論文:https://arxiv.org/abs/2503.06683
代碼:https://github.com/XavierJiezou/D2LS
主頁:https://xavierjiezou.github.io/D2LS/
年份:2025
單位:北京交通大學(xué),青海大學(xué),清華大學(xué)
創(chuàng)新點
動態(tài)字典學(xué)習(xí)框架:提出顯式建模類ID嵌入的動態(tài)字典,通過迭代優(yōu)化解決傳統(tǒng)隱式表示學(xué)習(xí)在細(xì)粒度場景中的不足
多階段交替交叉注意機制:設(shè)計圖像特征與語義字典之間的漸進式交互更新機制,實現(xiàn)相互優(yōu)化
對比約束:在字典空間應(yīng)用對比損失,確保類內(nèi)緊湊性和類間可分離性
調(diào)制器設(shè)計:將靜態(tài)字典轉(zhuǎn)換為動態(tài)字典,根據(jù)輸入特定特征生成注意力圖
背景
遙感圖像分割在環(huán)境監(jiān)測、災(zāi)害評估和城市管理等關(guān)鍵應(yīng)用中發(fā)揮重要作用,但面臨著形態(tài)相似類別難以區(qū)分和場景變化適應(yīng)性差的核心挑戰(zhàn)。現(xiàn)有方法主要依賴隱式表示學(xué)習(xí)范式,無法根據(jù)上下文線索動態(tài)調(diào)整語義嵌入,導(dǎo)致在細(xì)粒度場景(如云層厚度區(qū)分、草地覆蓋度分級)中性能不佳。特別是當(dāng)遇到類內(nèi)異質(zhì)性高(如不同紋理的云層)和類間同質(zhì)性強(如農(nóng)田與草地)的情況時,傳統(tǒng)的注意力機制雖能捕獲全局上下文,但不能確保生成具有判別性的類別特定特征表示,容易在相近類別間產(chǎn)生混淆。因此,需要一種能夠顯式建模類別感知嵌入并根據(jù)輸入特征動態(tài)調(diào)整的新框架。
數(shù)據(jù)
粗粒度分割數(shù)據(jù)集(4個)
LoveDA:0.3m分辨率衛(wèi)星圖像,7類(建筑、道路、水體等)
UAVid:50m高度無人機圖像,8類(建筑、車輛、人等城市目標(biāo))
Potsdam:5cm分辨率無人機圖像,6類城市地物
Vaihingen:9cm分辨率無人機圖像,6類城市地物
細(xì)粒度分割數(shù)據(jù)集(2個)
Cloud:30m分辨率Landsat-8圖像,4類(清晰天空、厚云、薄云、云陰影)
Grass:8m分辨率高分衛(wèi)星圖像,5類草地覆蓋等級(低、中低、中、中高、高覆蓋度)
總體設(shè)計
本文提出的動態(tài)字典學(xué)習(xí)框架采用編碼器-字典生成器-解碼器的三模塊架構(gòu),訓(xùn)練時使用雙分支策略,推理時僅用動態(tài)分支。
編碼器
使用ConvNeXt-Base主干網(wǎng)絡(luò)提取多尺度特征,通過聚合器模塊將不同尺度特征統(tǒng)一維度并融合,輸出統(tǒng)一的特征表示。
字典生成器
靜態(tài)字典:為每個類別學(xué)習(xí)固定的嵌入向量,形成類別原型庫。
動態(tài)字典:通過調(diào)制器模塊根據(jù)輸入圖像特征調(diào)整靜態(tài)字典:
對高層特征進行全局平均池化和最大池化
兩個分支通過MLP處理后拼接
生成注意力圖來變換靜態(tài)字典
解碼器
設(shè)計了L=3階段的交替交叉注意機制:
第一步:字典查詢圖像特征
第二步:圖像特征查詢字典
交替進行,實現(xiàn)字典與特征的相互優(yōu)化
訓(xùn)練策略
雙分支訓(xùn)練:
靜態(tài)分支:使用固定字典,損失為交叉熵+Dice
動態(tài)分支:使用動態(tài)字典,額外加入對比損失(類內(nèi)緊湊+類間分離)
權(quán)重配比:靜態(tài)0.4,動態(tài)1.0
單分支推理:僅使用動態(tài)分支,利用學(xué)到的適應(yīng)性能力。
這種設(shè)計通過顯式的類別建模和輸入自適應(yīng)機制,有效解決了遙感圖像中相似類別難以區(qū)分的問題。
結(jié)果與分析
實驗結(jié)果表明,所提出的動態(tài)字典學(xué)習(xí)框架在所有六個遙感數(shù)據(jù)集上均達(dá)到了最先進的性能,特別是在細(xì)粒度分割任務(wù)中表現(xiàn)突出,證明了顯式類別建模和動態(tài)適應(yīng)機制的有效性。消融實驗驗證了各個組件的必要性,其中動態(tài)分支優(yōu)于靜態(tài)分支,對比損失顯著提升了類別區(qū)分能力,而三階段的交替交叉注意機制實現(xiàn)了最佳的特征-字典交互效果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.