本文介紹一篇在立體匹配領(lǐng)域取得突破性進(jìn)展的論文 IGEV++ 。該研究通過一種新穎的深度網(wǎng)絡(luò)架構(gòu),有效解決了在病態(tài)區(qū)域(ill-posed regions)和巨大視差范圍下的匹配模糊性問題,在多個(gè)主流測(cè)試集上實(shí)現(xiàn)了當(dāng)前最佳性能(SOTA)。
IGEV++ 的核心思想是構(gòu)建 多范圍幾何編碼體(Multi-range Geometry Encoding Volumes, MGEV),它能夠?yàn)闊o紋理區(qū)域和巨大視差編碼粗粒度的幾何信息,同時(shí)為細(xì)節(jié)豐富區(qū)域和微小視差保留細(xì)粒度的幾何信息。這種設(shè)計(jì)使得網(wǎng)絡(luò)在處理各種復(fù)雜場景時(shí)都表現(xiàn)得游刃有余。
論文標(biāo)題: IGEV++: Iterative Multi-range Geometry Encoding Volumes for Stereo Matching
作者: Gangwei Xu, Xianqi Wang, Zhaoxing Zhang, Junda Cheng, Chunyuan Liao, Xin Yang
機(jī)構(gòu): 華中科技大學(xué);亮風(fēng)臺(tái)信息科技有限公司(HiScene Information Technology Co., Ltd)
論文地址: https://arxiv.org/pdf/2409.00638v3
項(xiàng)目地址:
https://github.com/gangweix/IGEV
https://github.com/gangweix/IGEV-plusplus
研究背景與意義
立體匹配是計(jì)算機(jī)視覺和機(jī)器人技術(shù)中的一個(gè)核心任務(wù),其目標(biāo)是從兩張或多張從不同視角拍攝的圖像中推斷出三維場景的幾何信息。這項(xiàng)技術(shù)在3D重建、自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域有著廣泛應(yīng)用。
盡管過去十年取得了顯著進(jìn)展,但立體匹配在處理以下挑戰(zhàn)時(shí)仍面臨困難:
病態(tài)區(qū)域: 如無紋理的墻面、重復(fù)性紋理的表面、反光或透明物體以及遮擋區(qū)域,這些區(qū)域的像素難以建立準(zhǔn)確的對(duì)應(yīng)關(guān)系。
巨大視差: 在高分辨率圖像、近距離物體或?qū)捇€相機(jī)設(shè)置中,左右圖像的像素位移(即視差)可能非常大,傳統(tǒng)的固定視差范圍方法難以應(yīng)對(duì)。
現(xiàn)有的主流方法大致可分為三類:
基于代價(jià)體濾波的方法: 如 PSMNet,通過構(gòu)建代價(jià)體并使用3D CNN進(jìn)行正則化來推斷視差。這類方法能有效利用幾何信息,但在預(yù)定義的視差范圍之外便無能為力,且構(gòu)建大范圍代價(jià)體計(jì)算成本極高。
基于迭代優(yōu)化的方法: 如 RAFT-Stereo,通過迭代更新視差圖來逐步逼近真實(shí)值。這類方法可以處理大視差,但由于缺乏代價(jià)體聚合過程,其原始代價(jià)信息缺少非局部幾何上下文,導(dǎo)致在病態(tài)區(qū)域表現(xiàn)不佳。
基于Transformer的方法: 如 GMStereo,利用自注意力機(jī)制來傳播信息。這類方法雖然能建模長距離依賴,但由于缺少顯式的代價(jià)體,在處理局部模糊性問題上仍有困難。
第1行:在場景流測(cè)試集上的大視差區(qū)域與最先進(jìn)的方法進(jìn)行視覺比較。PCWNet是一種基于體濾波的方法,DLNR]是一種迭代優(yōu)化的方法,GMStereo是一種變壓器的方法。它們都很難在近距離內(nèi)處理大型無紋理物體的巨大差異。 第2行:Middlebury上的零樣本泛化結(jié)果。IGEV++有效地處理了無紋理區(qū)域的巨大差異,也區(qū)分了復(fù)雜背景中的微妙細(xì)節(jié)。
IGEV++ 的提出正是為了融合基于濾波和基于迭代優(yōu)化兩類方法的優(yōu)點(diǎn),同時(shí)克服它們的局限性,從而在各種復(fù)雜場景下實(shí)現(xiàn)更準(zhǔn)確、更魯棒的立體匹配。
IGEV++ 的核心方法
IGEV++ 的網(wǎng)絡(luò)架構(gòu)如下圖所示,它巧妙地結(jié)合了多范圍幾何編碼、自適應(yīng)補(bǔ)丁匹配和迭代更新機(jī)制。
多范圍幾何編碼體 (MGEV)
這是 IGEV++ 的核心創(chuàng)新。與以往方法使用單一固定范圍的代價(jià)體不同,MGEV 并行構(gòu)建了三個(gè)不同視差范圍(小、中、大)的幾何編碼體(Geometry Encoding Volumes, GEV)。
小范圍GEV: 采用“點(diǎn)對(duì)點(diǎn)”的精細(xì)匹配方式,負(fù)責(zé)捕捉遠(yuǎn)處物體和圖像細(xì)節(jié)的精確幾何信息。
大/中范圍GEV: 采用“點(diǎn)對(duì)塊”的粗粒度匹配方式,即 自適應(yīng)補(bǔ)丁匹配(Adaptive Patch Matching, APM) 。這種方式能高效地計(jì)算大視差范圍的匹配代價(jià),專注于處理近處大物體和無紋理等病態(tài)區(qū)域。
通過一個(gè)輕量級(jí)的3D正則化網(wǎng)絡(luò)(基于3D U-Net),這些原始的代價(jià)關(guān)聯(lián)體被處理成包含豐富幾何上下文的 MGEV。MGEV 不僅編碼了場景的粗粒度幾何信息以應(yīng)對(duì)大視差和病態(tài)區(qū)域,也保留了細(xì)粒度信息以處理細(xì)節(jié)和小視差。
上圖直觀展示了不同范圍GEV的效果。小范圍GEV在小視差區(qū)域表現(xiàn)好,但在大視差區(qū)域誤差很大(頂部示例);大范圍GEV能處理大視差,但在細(xì)節(jié)上有所欠缺(底部示例)。而最終的MGEV(最右列)結(jié)合了各范圍的優(yōu)點(diǎn),取得了最佳的整體性能。
自適應(yīng)補(bǔ)丁匹配 (APM)
為了高效構(gòu)建大范圍GEV,論文提出了APM模塊。它使用較少的視差候選(disparity candidates)來表示一個(gè)大的視差范圍,并通過自適應(yīng)學(xué)習(xí)的權(quán)重來聚合一個(gè)“補(bǔ)丁”內(nèi)的匹配成本,這顯著降低了計(jì)算量和后續(xù)視差回歸的難度。
上圖對(duì)比了使用和不使用APM模塊的效果。無論是在合成數(shù)據(jù)還是真實(shí)數(shù)據(jù)上,APM都展現(xiàn)出更強(qiáng)的魯棒性,能更好地處理大的病態(tài)區(qū)域和巨大視差。
選擇性幾何特征融合與迭代更新
在獲得MGEV后,網(wǎng)絡(luò)首先通過soft argmin操作回歸出一個(gè)初始視差圖。然后,進(jìn)入迭代優(yōu)化階段。在每次迭代中:
選擇性幾何特征融合 (SGFF): 根據(jù)當(dāng)前的視差估計(jì),一個(gè)輕量級(jí)的融合模塊 (SGFF) 會(huì)自適應(yīng)地判斷當(dāng)前區(qū)域的特性(例如,是大視差區(qū)域還是細(xì)節(jié)區(qū)域),并據(jù)此為從MGEV中索引出的多范圍、多粒度的幾何特征分配權(quán)重,將它們?nèi)诤铣梢粋€(gè)全面的特征表示。
ConvGRU更新: 融合后的幾何特征被送入 卷積門控循環(huán)單元(ConvGRU) ,對(duì)視差圖進(jìn)行更新。
這個(gè)迭代過程使得視差估計(jì)能夠從一個(gè)良好的初始點(diǎn)出發(fā),并利用MGEV提供的豐富幾何信息快速、準(zhǔn)確地收斂。
上圖比較了不同方法的收斂速度。IGEV++ 不僅收斂得更快,而且最終達(dá)到的誤差(EPE)也遠(yuǎn)低于RAFT-Stereo和DLNR。
上圖展示了在少量迭代次數(shù)下,IGEV++ 與 RAFT-Stereo 的對(duì)比。即使在迭代次數(shù)很少(如1, 2, 3次)的情況下,IGEV++ 也能產(chǎn)生比RAFT-Stereo更精確的結(jié)果。
實(shí)驗(yàn)與結(jié)果分析
IGEV++ 在多個(gè)主流的立體匹配基準(zhǔn)測(cè)試中進(jìn)行了廣泛評(píng)估,并取得了卓越的性能。
在Scene Flow數(shù)據(jù)集上的表現(xiàn)
Scene Flow是一個(gè)大規(guī)模的合成數(shù)據(jù)集,包含巨大的視差范圍(最大可達(dá)768像素)。
如上圖左側(cè)所示,與Scene Flow測(cè)試集上不同視差范圍內(nèi)最先進(jìn)的立體方法的比較, IGEV++ 在所有視差范圍內(nèi)都保持了極高的精度,大幅領(lǐng)先于之前的方法。
上表中的量化數(shù)據(jù)進(jìn)一步證實(shí)了這一點(diǎn)。在最大的768像素視差范圍內(nèi),IGEV++ 的端點(diǎn)誤差(EPE)僅為 0.67,顯著優(yōu)于GMStereo (0.96) 和 RAFT-Stereo (0.98)。
上圖展示了與基于Transformer的SOTA方法GMStereo在病態(tài)區(qū)域的對(duì)比,IGEV++ 的結(jié)果明顯更完整、更準(zhǔn)確。
消融實(shí)驗(yàn)
為了驗(yàn)證各模塊的有效性,論文進(jìn)行了一系列消融研究。
上表結(jié)果顯示,從基線模型(RAFT-Stereo)開始,逐步添加單范圍GEV、多范圍MGEV、APM以及SGFF模塊后,模型的性能持續(xù)提升,證明了每個(gè)模塊都對(duì)最終的優(yōu)異性能做出了貢獻(xiàn)。
這張表格量化了不同范圍GEV的性能。可以看到,小范圍GEV在小視差下表現(xiàn)好,大范圍GEV在大視差下表現(xiàn)好,而最終的MGEV(多范圍)在所有視差范圍下都取得了最低的誤差。
在真實(shí)世界數(shù)據(jù)集上的表現(xiàn)
IGEV++ 不僅在合成數(shù)據(jù)上表現(xiàn)優(yōu)異,在KITTI、Middlebury、ETH3D等真實(shí)世界數(shù)據(jù)集上也取得了SOTA或極具競爭力的結(jié)果。
上表展示了在KITTI 2012和2015測(cè)試集上的結(jié)果。IGEV++ 在精度和實(shí)時(shí)性方面都名列前茅。其衍生出的實(shí)時(shí)版本 RT-IGEV 在實(shí)時(shí)方法中排名第一。
上圖是在Middlebury測(cè)試集上的視覺對(duì)比。得益于MGEV編碼的粗細(xì)粒度幾何信息,IGEV++ 能夠同時(shí)準(zhǔn)確估計(jì)近處無紋理區(qū)域的大視差、分辨背景中的精細(xì)細(xì)節(jié)(第二行),并預(yù)測(cè)出清晰的物體邊緣(第三行)。
上表展示了在Middlebury和ETH3D上的量化結(jié)果,IGEV++ 的多項(xiàng)指標(biāo)均達(dá)到最佳(粗體)或次佳(下劃線)。
在病態(tài)區(qū)域和泛化能力上的表現(xiàn)
論文還特別評(píng)估了模型在病態(tài)區(qū)域(如KITTI中的反光區(qū)域)的表現(xiàn)和零樣本泛化能力。
上表顯示,在KITTI 2012的反光區(qū)域,IGEV++ 的性能超越了所有先前方法。上圖是KITTI 2012測(cè)試集上的視覺效果,IGEV++ 在反光區(qū)域表現(xiàn)出色。
在零樣本泛化測(cè)試中(模型僅在合成的Scene Flow上訓(xùn)練,直接在真實(shí)的Middlebury V3數(shù)據(jù)集上測(cè)試),IGEV++ 的表現(xiàn)也超過了包括RAFT-Stereo、GMStereo在內(nèi)的所有方法,證明了其強(qiáng)大的泛化能力。
上圖展示了在醫(yī)療內(nèi)窺鏡數(shù)據(jù)集SCARED上的零樣本泛化結(jié)果,IGEV++ 在無紋理區(qū)域和組織邊緣預(yù)測(cè)上同樣表現(xiàn)優(yōu)異,展示了其在醫(yī)療等領(lǐng)域的應(yīng)用潛力。
上表比較了不同迭代次數(shù)下的性能,IGEV++ 僅用2次迭代就超過了RAFT-Stereo 32次迭代的結(jié)果,體現(xiàn)了其極高的效率。
上表是實(shí)時(shí)版本RT-IGEV與其他實(shí)時(shí)方法的比較,RT-IGEV在速度和精度上都取得了最佳的平衡。
上圖是在ETH3D測(cè)試集上的視覺對(duì)比,IGEV++在無紋理區(qū)域的表現(xiàn)優(yōu)于RAFT-Stereo和GMStereo。
總結(jié)與貢獻(xiàn)
論文提出的 IGEV++ 是一種新穎的立體匹配網(wǎng)絡(luò)架構(gòu),其主要貢獻(xiàn)可以總結(jié)為:
提出了一種融合架構(gòu): 巧妙地結(jié)合了基于濾波方法和基于迭代優(yōu)化方法的優(yōu)點(diǎn),既利用了前者強(qiáng)大的幾何上下文編碼能力,又具備了后者處理大視差和高效優(yōu)化的特性。
創(chuàng)新的MGEV: 提出了 多范圍幾何編碼體 (MGEV) 的概念,通過并行處理不同視差范圍,有效解決了在混合有大、小視差的復(fù)雜場景中進(jìn)行精確匹配的難題。
高效的模塊設(shè)計(jì): 引入了 自適應(yīng)補(bǔ)丁匹配 (APM) 和 選擇性幾何特征融合 (SGFF) 模塊,使得MGEV的構(gòu)建和使用都非常高效,并能實(shí)現(xiàn)快速收斂。
卓越的性能: 在Scene Flow、KITTI、Middlebury和ETH3D等多個(gè)極具挑戰(zhàn)性的基準(zhǔn)測(cè)試中取得了 SOTA 性能,尤其是在處理巨大視差和病態(tài)區(qū)域方面,優(yōu)勢(shì)尤為明顯。
開源貢獻(xiàn): 論文作者公開了代碼和預(yù)訓(xùn)練模型,為社區(qū)的研究和應(yīng)用提供了寶貴的資源。
總而言之,IGEV++ 為立體匹配領(lǐng)域提供了一個(gè)強(qiáng)大而高效的解決方案,其核心思想和技術(shù)細(xì)節(jié)對(duì)未來的研究具有重要的啟發(fā)意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.