夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

源自電路理論的即插即用方法讓視覺Transformer重獲高清細(xì)節(jié)

0
分享至



針對(duì)視覺 Transformer(ViT)因其固有 “低通濾波” 特性導(dǎo)致深度網(wǎng)絡(luò)中細(xì)節(jié)信息丟失的問題,我們提出了一種即插即用、受電路理論啟發(fā)的 頻率動(dòng)態(tài)注意力調(diào)制(FDAM)模塊。它通過巧妙地 “反轉(zhuǎn)” 注意力以生成高頻補(bǔ)償,并對(duì)特征頻譜進(jìn)行動(dòng)態(tài)縮放,最終在幾乎不增加計(jì)算成本的情況下,大幅提升了模型在分割、檢測(cè)等密集預(yù)測(cè)任務(wù)上的性能,并取得了 SOTA 效果。

該工作來(lái)自北京理工大學(xué)、RIKEN AIP和東京大學(xué)的研究團(tuán)隊(duì)。



  • 論文全文: https://arxiv.org/abs/2507.12006
  • 作者主頁(yè): https://linwei-chen.github.io
  • 實(shí)驗(yàn)室主頁(yè): https://ying-fu.github.io
  • 開源代碼: https://github.com/Linwei-Chen/FDAM

研究背景:為什么這是一個(gè)重要的問題?

視覺 Transformer(ViT)無(wú)疑是近年來(lái)計(jì)算機(jī)視覺領(lǐng)域最耀眼的明星。它憑借強(qiáng)大的全局建模能力,在圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割等眾多任務(wù)上刷新了紀(jì)錄。然而,當(dāng)我們構(gòu)建更深、更強(qiáng)大的 ViT 模型時(shí),一個(gè) “隱秘的角落” 里的問題逐漸浮出水面:模型看世界,怎么越來(lái)越模糊了?

這并非錯(cuò)覺。對(duì)于分割、檢測(cè)這類需要精確定位的 “密集預(yù)測(cè)” 任務(wù)而言,圖像的邊緣、紋理等高頻細(xì)節(jié)至關(guān)重要。但研究發(fā)現(xiàn),ViT 中的核心部件 —— 自注意力機(jī)制(Self-Attention),其本質(zhì)上像一個(gè)低通濾波器。這意味著每經(jīng)過一層注意力,圖像特征中的高頻細(xì)節(jié)就會(huì)被削弱一分,而平滑的低頻結(jié)構(gòu)則被保留和增強(qiáng)。當(dāng)我們將數(shù)十個(gè)這樣的 “濾波器” 堆疊起來(lái),災(zāi)難性的“頻率消失”(Frequency Vanishing)現(xiàn)象便發(fā)生了:網(wǎng)絡(luò)深層的特征幾乎完全丟失了細(xì)節(jié)信息,導(dǎo)致表征坍塌(Representation Collapse),最終輸出的預(yù)測(cè)結(jié)果自然也就模糊不清、邊界不準(zhǔn)。



正如上圖所示,在標(biāo)準(zhǔn)的 ViT 中,高頻信息隨著層數(shù)加深迅速衰減至零。解決這一根本性缺陷,釋放 ViT 在高清視覺任務(wù)上的全部潛力,是當(dāng)前領(lǐng)域亟待突破的關(guān)鍵瓶頸。

現(xiàn)有方法的局限性


此前,一些工作嘗試緩解 ViT 的 “過平滑” 問題,例如通過正則化或直接在頻域上對(duì)衰減的高頻信號(hào)進(jìn)行靜態(tài)補(bǔ)償(如 AttnScale, NeuTRENO 等)。這些方法起到了一定作用,但它們更像是 “亡羊補(bǔ)牢”—— 在細(xì)節(jié)丟失后進(jìn)行被動(dòng)修復(fù),而未能從根本上改變注意力機(jī)制的低通天性。它們?nèi)狈σ环N動(dòng)態(tài)、自適應(yīng)的能力,來(lái)根據(jù)不同圖像內(nèi)容和任務(wù)需求,靈活地處理全頻譜的視覺信息。

FDAM 的核心思想是什么?


既然問題出在注意力機(jī)制這個(gè) “元件” 上,我們能否重新設(shè)計(jì)這個(gè) “電路”?我們的核心思想,源于經(jīng)典的電路理論。

想象一下音響上的均衡器。標(biāo)準(zhǔn)注意力就像一個(gè)只有 “重低音”(Low-Pass)的旋鈕,它會(huì)濾掉清亮的高音。我們?nèi)绾螒{空造出一個(gè) “高音”(High-Pass)旋鈕呢?電路理論給了我們一個(gè)絕妙的啟示:高通濾波器 = 全通濾波器 - 低通濾波器。

這個(gè)簡(jiǎn)單的公式正是我們方法的核心 ——注意力反轉(zhuǎn)(Attention Inversion, AttInv)。

  • “全通濾波器”是什么?就是未經(jīng)處理的原始特征,它包含了所有頻率的信息。
  • “低通濾波器”是什么?就是標(biāo)準(zhǔn)注意力模塊處理后的特征,它只保留了低頻成分。

兩者相減,得到的 “殘差” 不就恰好是那些被濾掉的高頻細(xì)節(jié)么?



基于此,我們的 AttInv 模塊不再是單一的低通濾波器。在每一層,它都同時(shí)擁有了原始的 “低通” 路徑和我們創(chuàng)造的 “高通” 路徑。更關(guān)鍵的是,我們引入了一個(gè)輕量級(jí)的動(dòng)態(tài) “混音器”,讓模型能夠根據(jù)圖像上每個(gè)區(qū)域的特點(diǎn),自主學(xué)習(xí)是該更關(guān)注平滑的整體結(jié)構(gòu)(低頻),還是更聚焦于銳利的邊緣紋理(高頻)。當(dāng)這樣的模塊堆疊起來(lái),模型便擁有了 2^L 種(L 為層數(shù))復(fù)雜的頻率組合能力,能夠擬合出遠(yuǎn)比之前豐富多樣的頻率響應(yīng)。



方法的關(guān)鍵組成部分


當(dāng)然,僅有 “低音” 和 “高音” 兩個(gè)旋鈕對(duì)于專業(yè)音響師來(lái)說(shuō)還不夠。為了實(shí)現(xiàn)更精細(xì)的 “調(diào)音”,我們?cè)O(shè)計(jì)了第二個(gè)關(guān)鍵組件:頻率動(dòng)態(tài)縮放(Frequency Dynamic Scaling, FreqScale)。

FreqScale 就像一個(gè)多頻段圖形均衡器。它將特征圖轉(zhuǎn)換到頻域,將其劃分為多個(gè)頻段,并為每個(gè)頻段學(xué)習(xí)一個(gè)動(dòng)態(tài)的增益權(quán)重。這樣,模型不僅能區(qū)分高低頻,還能根據(jù)需要精確地 “增強(qiáng)” 或 “抑制” 某個(gè)特定頻段的信號(hào),例如,為分割任務(wù)特別增強(qiáng)中高頻的邊緣信號(hào)。

FDAM = AttInv (粗調(diào)高低頻) + FreqScale (精調(diào)各頻段)。兩者結(jié)合,構(gòu)成了一套完整、高效且自適應(yīng)的全頻譜解決方案。

實(shí)驗(yàn)效果有多驚艷?


我們的 FDAM 模塊是 “即插即用” 的,可以輕松集成到各種主流 ViT 架構(gòu)中,且?guī)?lái)的參數(shù)量和計(jì)算量開銷微乎其微。但效果的提升卻是實(shí)實(shí)在在的:

定量展示:

  • 在語(yǔ)義分割任務(wù)中,F(xiàn)DAM 為輕量的SegFormer-B0在 ADE20K 數(shù)據(jù)集上帶來(lái)了+2.4 mIoU的巨幅提升。對(duì)于強(qiáng)大的DeiT3-Base,F(xiàn)DAM 依然能穩(wěn)定提升+0.8 mIoU,達(dá)到了52.6%的 SOTA 性能。
  • 在目標(biāo)檢測(cè)與實(shí)例分割的 “兵家必爭(zhēng)之地” COCO 數(shù)據(jù)集上,F(xiàn)DAM 賦能Mask DINO,將檢測(cè) AP 提升了+1.6,分割 AP 提升了+1.4,效果顯著。
  • 在遙感圖像檢測(cè) DOTA 數(shù)據(jù)集上,我們的方法同樣取得了當(dāng)前單尺度設(shè)定的最優(yōu)成績(jī)。







定性展示:

  • “一圖勝千言”。從下方的特征圖對(duì)比中可以直觀地看到,標(biāo)準(zhǔn) DeiT 的特征圖(b)細(xì)節(jié)模糊,而經(jīng)過 FDAM 增強(qiáng)后的特征圖(c)輪廓清晰、紋理銳利,物體的結(jié)構(gòu)被完美地保留了下來(lái)。其對(duì)應(yīng)的頻譜圖(e)也證實(shí)了我們的方法保留了更豐富的高頻成分。



理論支撐:

  • 我們的方法不僅效果好,理論上也站得住腳。分析表明,F(xiàn)DAM 能有效抵抗表征坍塌,其 “有效秩”(Effective Rank)在網(wǎng)絡(luò)深層遠(yuǎn)高于基線模型,證明了特征的多樣性得到了更好的維持。



這項(xiàng)工作意味著什么?


FDAM 的價(jià)值不僅在于刷新了幾個(gè) SOTA 點(diǎn)數(shù),更在于:

1.提供了新視角:它成功地將經(jīng)典的電路理論思想引入到前沿的 Transformer 設(shè)計(jì)中,為解決深度學(xué)習(xí)中的基礎(chǔ)問題(如信息衰減)提供了一個(gè)全新的、符合第一性原理的思考框架。

2.解決了真問題:它精準(zhǔn)地定位并有效解決了 ViT 在密集預(yù)測(cè)任務(wù)中的一個(gè)核心痛點(diǎn) ——“頻率消失”,將 ViT 的潛力更充分地釋放出來(lái)。

3.兼具實(shí)用與優(yōu)雅:作為一個(gè)輕量、即插即用的模塊,F(xiàn)DAM 可以毫不費(fèi)力地為現(xiàn)有模型 “增壓”,在工業(yè)界和學(xué)術(shù)界都有著巨大的應(yīng)用潛力。

這項(xiàng)工作可能會(huì)推動(dòng)社區(qū)在需要高清細(xì)節(jié)的領(lǐng)域(如醫(yī)學(xué)影像分析、高分辨率遙感、自動(dòng)駕駛感知)中更廣泛地應(yīng)用和探索更深層的 ViT 模型。

未來(lái)可以探索的方向

FDAM 也為未來(lái)研究打開了新的大門。例如,我們是否可以設(shè)計(jì)一個(gè)完全在頻域中進(jìn)行動(dòng)態(tài)路由的全新網(wǎng)絡(luò)結(jié)構(gòu)?這種頻率調(diào)制的思想能否被拓展到視頻、三維點(diǎn)云甚至多模態(tài)數(shù)據(jù)中?這些都是激動(dòng)人心的未來(lái)方向。

歡迎在 ICCV 2025 現(xiàn)場(chǎng)與我們交流!

作者介紹:



付瑩是北京理工大學(xué)計(jì)算機(jī)學(xué)院的教授、博士生導(dǎo)師,入選國(guó)家高層次青年人才計(jì)劃。她的研究領(lǐng)域主要為人工智能、計(jì)算機(jī)視覺與計(jì)算攝像學(xué)。近五年,她在中科院一區(qū)期刊和 CCF A 類會(huì)議上發(fā)表了超過 50 篇論文。她的研究成果已應(yīng)用于 “嫦娥工程”、智慧城市建設(shè)等重要項(xiàng)目。她主編的《計(jì)算機(jī)視覺基礎(chǔ)》教材入選北京理工大學(xué) “十四五” 規(guī)劃教材。她獲得的榮譽(yù)包括 ICML 杰出論文獎(jiǎng)、日內(nèi)瓦國(guó)際發(fā)明展金獎(jiǎng),并入選中國(guó)圖象圖形學(xué)學(xué)會(huì)石青云青年女科學(xué)家獎(jiǎng)和中國(guó)電子學(xué)會(huì)青年科學(xué)家獎(jiǎng)等。此外,付教授還擔(dān)任 TIP 等期刊的編委,并擔(dān)任 CVPR、ICCV 等頂級(jí)會(huì)議的領(lǐng)域主席。



谷林(Lin Gu)是 RIKEN AIP(理化學(xué)研究所)的研究科學(xué)家,同時(shí)也是東京大學(xué)的特別研究員。他的研究重點(diǎn)是通過進(jìn)化方法開發(fā)新一代人工智能,旨在超越人腦的局限性。

谷林先生的研究涵蓋了計(jì)算機(jī)視覺、醫(yī)學(xué)成像、大型語(yǔ)言模型(LLM)、機(jī)器人技術(shù)甚至核聚變等多個(gè)領(lǐng)域。 他在 Nature Methods、PAMI、IJCV、AAAI 等頂級(jí)期刊和會(huì)議上發(fā)表了 60 多篇論文。此外,他還是 Pattern Recognition 期刊的副主編,并擔(dān)任 ICCV、ICML、NeurIPS 和 ICLR 等多個(gè)會(huì)議的領(lǐng)域主席。

目前,谷林先生是日本內(nèi)閣府監(jiān)督的國(guó)家級(jí)項(xiàng)目 “Moonshot Program” 的項(xiàng)目經(jīng)理,并擔(dān)任 RIKEN-MOST 項(xiàng)目的日本首席研究員(PI),該項(xiàng)目專注于通過人工智能技術(shù)對(duì)精神分裂癥進(jìn)行亞型分類和早期診斷。



陳林蔚,北京理工大學(xué)計(jì)算機(jī)學(xué)院博士。主要研究方向?yàn)橛?jì)算機(jī)視覺,重點(diǎn)關(guān)注圖像分割、目標(biāo)檢測(cè)、低光照?qǐng)D像增強(qiáng)與識(shí)別以及圖像生成等領(lǐng)域。截至目前,他已發(fā)表論文十余篇,其中多篇以第一作者身份發(fā)表在國(guó)際計(jì)算機(jī)視覺頂級(jí)期刊和會(huì)議(如 TPAMI、IJCV、CVPR、ICLR、ISPRS)上。在學(xué)術(shù)社區(qū)貢獻(xiàn)方面,他擔(dān)任 IJCV、TIP、CVPR、ICCV、NeurIPS、AAAI 等多個(gè)期刊會(huì)議的審稿人,并在國(guó)際計(jì)算機(jī)視覺會(huì)議 BMVC 中因?qū)I(yè)素養(yǎng)和貢獻(xiàn)被評(píng)為 "杰出審稿人"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
被西方拋棄的香港!

被西方拋棄的香港!

談芯說(shuō)科技
2025-12-23 18:55:00
烤雞少年承認(rèn)用“肉寶王”來(lái)調(diào)味,廠家人員:是已生產(chǎn)25年的合法調(diào)味料,不是添加劑

烤雞少年承認(rèn)用“肉寶王”來(lái)調(diào)味,廠家人員:是已生產(chǎn)25年的合法調(diào)味料,不是添加劑

極目新聞
2025-12-22 19:57:51
南京博物院越撕越深 當(dāng)年借畫不還的老領(lǐng)導(dǎo)太壞了

南京博物院越撕越深 當(dāng)年借畫不還的老領(lǐng)導(dǎo)太壞了

原某報(bào)記者
2025-12-22 22:09:34
中戲第一女神,百年難得一遇的美女,實(shí)在是太美了!

中戲第一女神,百年難得一遇的美女,實(shí)在是太美了!

草莓解說(shuō)體育
2025-12-24 07:15:43
影響力不輸Labubu的文化IP,憑什么能讓全球上癮?

影響力不輸Labubu的文化IP,憑什么能讓全球上癮?

鳳凰WEEKLY
2025-12-22 18:30:08
當(dāng)下收臺(tái)灣不是最重要的,只要俄羅斯不敗,中國(guó)將迎百年大變局。

當(dāng)下收臺(tái)灣不是最重要的,只要俄羅斯不敗,中國(guó)將迎百年大變局。

百態(tài)人間
2025-11-29 16:34:45
吳千語(yǔ)帶貨賣了1.5億,施伯雄摟著她慶祝,想親老婆卻被一把推開

吳千語(yǔ)帶貨賣了1.5億,施伯雄摟著她慶祝,想親老婆卻被一把推開

手工制作阿殲
2025-12-24 10:42:37
昨日拉到臨停,今日跌得心疼,有人已虧51%,曬收益的也消失了!

昨日拉到臨停,今日跌得心疼,有人已虧51%,曬收益的也消失了!

財(cái)經(jīng)智多星
2025-12-24 11:15:41
印度不敢買了,俄羅斯收入暴跌34%,大批油輪扎堆中國(guó)近海甩賣

印度不敢買了,俄羅斯收入暴跌34%,大批油輪扎堆中國(guó)近海甩賣

兵國(guó)大事
2025-12-23 18:02:33
張志新履新吉林省政府副秘書長(zhǎng)(正廳長(zhǎng)級(jí)),此前任省發(fā)改委主任

張志新履新吉林省政府副秘書長(zhǎng)(正廳長(zhǎng)級(jí)),此前任省發(fā)改委主任

澎湃新聞
2025-12-24 15:04:27
醫(yī)學(xué)博士:腫瘤越來(lái)越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學(xué)博士:腫瘤越來(lái)越高發(fā),我們究竟被隱瞞了什么?

深度報(bào)
2025-12-21 23:01:02
持續(xù)水逆,火箭輸球迎本賽季最大敗局,更衣室矛盾或成為最大危機(jī)

持續(xù)水逆,火箭輸球迎本賽季最大敗局,更衣室矛盾或成為最大危機(jī)

拾叁懂球
2025-12-24 15:20:12
國(guó)家出手!宮魯鳴打壓球員真相大白,幕后黑手被揪,王思雨太無(wú)辜

國(guó)家出手!宮魯鳴打壓球員真相大白,幕后黑手被揪,王思雨太無(wú)辜

做一個(gè)合格的吃瓜群眾
2025-12-24 10:05:37
龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報(bào)的真相太炸裂了

龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報(bào)的真相太炸裂了

小蜜情感說(shuō)
2025-12-24 12:21:12
0-2到4-2!亞冠史詩(shī)逆轉(zhuǎn):曼奇尼率隊(duì)補(bǔ)時(shí)連進(jìn)3球!替補(bǔ)前鋒戴帽

0-2到4-2!亞冠史詩(shī)逆轉(zhuǎn):曼奇尼率隊(duì)補(bǔ)時(shí)連進(jìn)3球!替補(bǔ)前鋒戴帽

球場(chǎng)沒跑道
2025-12-24 10:26:01
大批文件披露!愛潑斯坦豪宅有老虎標(biāo)本、大量角色扮演服、怪異雕塑,美司法部發(fā)聲

大批文件披露!愛潑斯坦豪宅有老虎標(biāo)本、大量角色扮演服、怪異雕塑,美司法部發(fā)聲

紅星新聞
2025-12-24 13:51:13
江西彭澤車禍落水致8人死,49歲幼兒園園長(zhǎng)也遇難

江西彭澤車禍落水致8人死,49歲幼兒園園長(zhǎng)也遇難

九方魚論
2025-12-24 12:37:55
星鏈訂戶突破900萬(wàn),重新度量全球影響力

星鏈訂戶突破900萬(wàn),重新度量全球影響力

三體引力波
2025-12-23 11:52:17
南博前副院長(zhǎng)別墅“劇終”謎底揭曉!《江南春》送拍有人浮出水面

南博前副院長(zhǎng)別墅“劇終”謎底揭曉!《江南春》送拍有人浮出水面

火山詩(shī)話
2025-12-24 12:13:36
獨(dú)家:俞敏洪選定東方甄選接班人!19年老將孫進(jìn)將擔(dān)任執(zhí)行總裁

獨(dú)家:俞敏洪選定東方甄選接班人!19年老將孫進(jìn)將擔(dān)任執(zhí)行總裁

鞭牛士
2025-12-24 13:21:11
2025-12-24 15:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11984文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國(guó)速度"!2026值得期待

頭條要聞

幼兒園8人墜塘園長(zhǎng)丈夫被調(diào)查 園內(nèi)有兩輛19座校車

頭條要聞

幼兒園8人墜塘園長(zhǎng)丈夫被調(diào)查 園內(nèi)有兩輛19座校車

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
本地
家居
房產(chǎn)

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

藝術(shù)要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

本地新聞

云游安徽|一川江水潤(rùn)安慶,一塔一戲一城史

家居要聞

法式大平層 智能家居添彩

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預(yù)期交付!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 91亚洲一线产区二线产区| 麻豆国产97在线 | 中文| 国产午夜精品无码一区二区| 大肉大捧一进一出好爽app| 精品囯产成人国产在线观看| 久无码久无码| 无码va在线观看| 在线观看 av香蕉| 亚洲av电影一区二区| 欧美性爱视频永久免费看| 免费a网站天堂久久| 国产成人av综合亚洲色欲| 九九肏人人操| 日本不卡三区| 中国少妇xxxx做受| 抱操大屁股熟女| 熟女性饥渴一区二区三区| 久久久亚洲欧洲日产国码二区| 强行18分钟处破痛哭av| 蜜臀av入口一区二区三区| 后入内射在线观看| 亚洲无码人妻| 极品人妻一区二区三区系列| 最新激情电影一区二区| 国产精品96久久久久久又黄又硬| 亚洲人成网站在线播放无码| 国产精品久久久久久久久妇女| 人人摸,人人操| 成人国内精品久久久久影院vr| 六月丁香婷婷五月天| 国产成人夜色91| 影院欧美日韩精品一区二区| 久热中文字幕在线| 亚洲AV综合日韩精品久久 | 爱爱免费无码视频| 国产精品亚洲精品日韩已满| 操逼网站欧美1| 亚洲欧美激情精品一区二区| 国产熟睡乱子伦午夜视频| 国产av一码二码三码无码| 少妇粗大进出白浆嘿嘿视频|