夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

TPAMI 2025 | DiffMVS/CasDiffMVS:一種置信度感知的擴(kuò)散模型,實(shí)現(xiàn)輕量且準(zhǔn)確的多視圖立體三維重建

0
分享至

今天要介紹的論文是來自蘇黎世聯(lián)邦理工學(xué)院、南洋理工大學(xué)等機(jī)構(gòu)的研究者們發(fā)表在 IEEE TPAMI 2025 上的工作。該研究創(chuàng)新性地將近期在生成任務(wù)中大放異彩的 擴(kuò)散模型(Diffusion Model) 引入了多視圖立體(Multi-View Stereo, MVS)領(lǐng)域,提出了一種全新的 MVS 框架。

基于此框架,論文推出了兩種新方法:DiffMVSCasDiffMVS。這里的 "Diff" 代表 "Diffusion","Cas" 代表 "Cascade",表明了其技術(shù)核心。DiffMVS 旨在實(shí)現(xiàn)極致的效率,在運(yùn)行時(shí)間和 GPU 內(nèi)存方面達(dá)到業(yè)界頂尖水平;而 CasDiffMVS 則追求最高的精度,在多個(gè)主流 MVS 基準(zhǔn)測試(如 DTU, Tanks & Temples, ETH3D)上均取得了 SOTA(State-of-the-Art) 的性能。

這項(xiàng)工作通過將深度圖細(xì)化過程建模為條件擴(kuò)散過程,并設(shè)計(jì)了一系列創(chuàng)新模塊,成功地平衡了三維重建的效率與精度,為 MVS 領(lǐng)域帶來了新的思路和強(qiáng)大的基線模型。



  • 論文標(biāo)題: Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model

  • 作者: Fangjinhua Wang, Qingshan Xu, Yew-Soon Ong, Marc Pollefeys

  • 機(jī)構(gòu): 蘇黎世聯(lián)邦理工學(xué)院,南洋理工大學(xué),新加坡科技研究局(A*STAR),微軟

  • 論文地址: https://arxiv.org/abs/2509.15220

  • 代碼地址: https://github.com/cvg/diffmvs

  • 錄用信息: Accepted to IEEE TPAMI 2025

研究背景與意義

多視圖立體(MVS)技術(shù)旨在從不同視角的校準(zhǔn)圖像中重建場景的三維幾何,是機(jī)器人、自動(dòng)駕駛、虛擬/增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的關(guān)鍵技術(shù)。

傳統(tǒng)的學(xué)習(xí)式 MVS 方法通常采用“深度估計(jì)+深度圖融合”的流程。為了提高效率和精度,許多先進(jìn)方法采用“從粗到細(xì)”(coarse-to-fine)的策略:首先在低分辨率下估計(jì)一個(gè)粗略的深度圖,然后逐步在高分辨率下進(jìn)行細(xì)化。然而,這種策略高度依賴初始粗略深度圖的質(zhì)量,一旦初始估計(jì)出錯(cuò),后續(xù)的細(xì)化過程很難糾正,容易陷入局部最優(yōu)。


近年來,擴(kuò)散模型作為一種強(qiáng)大的生成模型,通過從隨機(jī)噪聲中迭代去噪來恢復(fù)數(shù)據(jù)樣本,在圖像生成等任務(wù)上取得了巨大成功。其引入隨機(jī)擾動(dòng)的特性,天然具有跳出局部最優(yōu)的能力。

作者受到啟發(fā),思考能否將擴(kuò)散模型的這種“去噪生成”范式引入 MVS 的深度細(xì)化過程,從而克服傳統(tǒng)方法的局限性。然而,將用于生成任務(wù)的擴(kuò)散模型應(yīng)用于具有判別性質(zhì)的深度估計(jì)任務(wù),面臨著三大挑戰(zhàn):

  1. 擴(kuò)散條件: 如何為擴(kuò)散過程提供有效的幾何約束和引導(dǎo)?

  2. 擴(kuò)散采樣: 如何在采樣過程中利用非局部信息以實(shí)現(xiàn)更精確的優(yōu)化?

  3. 擴(kuò)散效率: 如何在保證性能的同時(shí),避免經(jīng)典擴(kuò)散模型(如大型U-Net)帶來的高計(jì)算開銷?

本文正是為了解決這些挑戰(zhàn),提出了一套完整的基于條件擴(kuò)散模型的 MVS 框架。

核心方法

論文提出的新框架包含兩個(gè)核心模塊:深度初始化和基于擴(kuò)散的深度細(xì)化。整個(gè)流程分為單階段細(xì)化的 DiffMVS 和級(jí)聯(lián)細(xì)化的 CasDiffMVS。


深度初始化

與許多 MVS 方法類似,該框架首先在一個(gè)較低的分辨率(例如1/8)下生成一個(gè)初始的粗略深度圖。這一步通過構(gòu)建一個(gè)輕量級(jí)的 3D 代價(jià)體(Cost Volume),并使用一個(gè) 3D U-Net 進(jìn)行正則化來完成,為后續(xù)的細(xì)化提供一個(gè)起點(diǎn)。


基于擴(kuò)散的深度細(xì)化

這是本文最核心的創(chuàng)新。作者將深度圖的細(xì)化過程建模為一個(gè) 條件擴(kuò)散過程。它不是從純噪聲開始,而是從一個(gè)帶噪聲的粗略深度圖出發(fā),通過迭代去噪來預(yù)測深度殘差,從而逐步逼近真實(shí)的深度值。

為了實(shí)現(xiàn)高效且準(zhǔn)確的細(xì)化,作者設(shè)計(jì)了三個(gè)關(guān)鍵組件:

1. 條件編碼器(Condition Encoder)

為了讓擴(kuò)散模型理解幾何信息,作者設(shè)計(jì)了一個(gè)條件編碼器。它融合了三種關(guān)鍵信息作為引導(dǎo)擴(kuò)散過程的條件:

  • 幾何匹配信息: 從局部代價(jià)體中提取。

  • 深度上下文特征: 從當(dāng)前的深度假設(shè)中提取。

  • 圖像上下文特征: 從參考圖像中提取,提供場景的語義信息。

通過這種方式,擴(kuò)散模型不僅能感知局部像素的匹配程度,還能利用長距離的上下文信息,從而在弱紋理或遮擋區(qū)域做出更魯棒的估計(jì)。


2. 輕量級(jí)擴(kuò)散網(wǎng)絡(luò)

傳統(tǒng)的擴(kuò)散模型通常使用龐大的 U-Net 結(jié)構(gòu),計(jì)算成本高。為了提高效率,作者提出了一個(gè)新穎的擴(kuò)散網(wǎng)絡(luò),它巧妙地將一個(gè)輕量級(jí)的 2D U-Net卷積門控循環(huán)單元(Convolutional GRU, ConvGRU) 結(jié)合起來。ConvGRU 能夠以迭代的方式更新隱藏狀態(tài),有效捕捉時(shí)序(在本文中是迭代細(xì)化步驟)信息,從而在單個(gè)擴(kuò)散時(shí)間步內(nèi)實(shí)現(xiàn)多次細(xì)化更新。這種設(shè)計(jì)既提升了性能,又避免了堆疊多個(gè)大型 U-Net 帶來的高昂計(jì)算開銷。


3. 基于置信度的采樣策略

為了更智能地探索深度假設(shè)空間,作者提出了一種基于置信度的自適應(yīng)采樣策略。在每次細(xì)化迭代中,模型會(huì)預(yù)測當(dāng)前深度估計(jì)的置信度。

  • 對(duì)于 高置信度 的像素(通常是估計(jì)得比較準(zhǔn)的),采樣范圍會(huì)縮小,以進(jìn)行精細(xì)微調(diào)。

  • 對(duì)于 低置信度 的像素(可能估計(jì)錯(cuò)誤),采樣范圍會(huì)擴(kuò)大,以增加找到正確深度值的機(jī)會(huì)。

這種自適應(yīng)策略使得模型能夠?qū)⒂?jì)算資源集中在最需要的地方,有效地提供了優(yōu)化所需的一階信息,加速了收斂并提升了精度。


上圖展示了參考圖像、預(yù)測的深度圖、深度誤差圖和置信度圖??梢钥吹?,置信度圖(右下)能夠很好地反映深度誤差的分布(左下),高置信度區(qū)域(亮色)對(duì)應(yīng)著低誤差區(qū)域。

實(shí)驗(yàn)與結(jié)果分析

作者在三個(gè)主流的 MVS 數(shù)據(jù)集上對(duì)提出的 DiffMVS 和 CasDiffMVS 進(jìn)行了全面評(píng)估,并與當(dāng)前最先進(jìn)的方法進(jìn)行了比較。

在 DTU 數(shù)據(jù)集上的表現(xiàn)

DTU 是一個(gè)經(jīng)典的室內(nèi)場景 MVS 數(shù)據(jù)集。如下表所示,CasDiffMVS 在“Overall”指標(biāo)上取得了極具競爭力的結(jié)果,超越了許多經(jīng)典的 SOTA 方法。而 DiffMVS 作為一個(gè)單階段細(xì)化方法,其性能也超過了同樣是單階段細(xì)化的 IterMVS,并逼近許多更復(fù)雜的多階段方法。


在 Tanks & Temples 和 ETH3D 上的泛化能力

Tanks & Temples 和 ETH3D 是更具挑戰(zhàn)性的大規(guī)模真實(shí)世界場景數(shù)據(jù)集,用于測試模型的泛化能力。

在 Tanks & Temples 數(shù)據(jù)集上,CasDiffMVS 在中級(jí)和高級(jí)子集上均取得了 SOTA 性能,其 F-score 顯著優(yōu)于其他方法。


下圖展示了在 Tanks & Temples 上的定性比較,CasDiffMVS (Ours) 生成的三維點(diǎn)云(最右列)在完整性和細(xì)節(jié)上都優(yōu)于其他方法,例如在 "Horse" 場景中馬腿部分的重建以及 "Temple" 場景中廊柱的完整性。


在同樣具有挑戰(zhàn)性的 ETH3D 數(shù)據(jù)集上,CasDiffMVS 再次展現(xiàn)了其卓越的性能,在訓(xùn)練集和測試集上的 F1-score 均達(dá)到了 SOTA 水平。


下圖為 ETH3D 上的定性結(jié)果,無論是在室內(nèi) "Relief" 場景還是室外 "Terrace" 場景,CasDiffMVS 的重建結(jié)果(最右列)都更加準(zhǔn)確和完整。


效率對(duì)比

效率是 MVS 方法在實(shí)際應(yīng)用中的一個(gè)關(guān)鍵考量。如下圖所示,DiffMVS 在運(yùn)行時(shí)間(橫軸)和 GPU 內(nèi)存消耗(縱軸)方面表現(xiàn)出 最佳 的效率,遠(yuǎn)超其他 SOTA 方法。即使是追求高精度的 CasDiffMVS,其效率也與 PatchmatchNet 相當(dāng),但性能卻遙遙領(lǐng)先。


下圖進(jìn)一步分析了不同方法在各個(gè)模塊上的耗時(shí)。可以看到,CasDiffMVS 在特征提取和深度推斷階段都比基于 Transformer 或 3D CNN 的方法(如 TransMVSNet, CasMVSNet)快得多,這得益于其輕量化的網(wǎng)絡(luò)設(shè)計(jì)。


消融實(shí)驗(yàn)

作者通過一系列消融實(shí)驗(yàn)驗(yàn)證了各個(gè)設(shè)計(jì)模塊的有效性。

  • 擴(kuò)散模型的有效性: 移除擴(kuò)散過程后,模型性能在 DTU 和 ETH3D 上分別下降了 3.2% 和 5.6%,證明了擴(kuò)散機(jī)制的核心貢獻(xiàn)。

  • 擴(kuò)散條件的有效性: 移除代價(jià)體、深度上下文或圖像上下文等任何一個(gè)條件,都會(huì)導(dǎo)致性能顯著下降,說明了多信息融合引導(dǎo)的重要性。

  • 置信度采樣的有效性: 與單樣本或固定范圍采樣相比,基于置信度的自適應(yīng)采樣策略能帶來明顯的性能提升。

  • 網(wǎng)絡(luò)結(jié)構(gòu)的有效性: 與單個(gè) U-Net 或堆疊 U-Nets 相比,本文提出的 U-Net+ConvGRU 結(jié)構(gòu)在性能和效率之間取得了最佳平衡。

此外,實(shí)驗(yàn)還表明,模型對(duì) DDIM 采樣步數(shù)、噪聲尺度和隨機(jī)種子等超參數(shù)具有較好的魯棒性。




總結(jié)與貢獻(xiàn)

本文 首次 將擴(kuò)散模型成功引入多視圖立體(MVS)領(lǐng)域,并提出了一個(gè)新穎、高效、準(zhǔn)確的深度估計(jì)框架。

主要貢獻(xiàn)可以總結(jié)為:

  1. 提出新框架: 提出了一個(gè)基于條件擴(kuò)散模型的 MVS 框架,將深度細(xì)化表述為去噪過程,有效避免了傳統(tǒng)方法的局部最優(yōu)問題。

  2. 提出兩種新方法:

    • DiffMVS: 實(shí)現(xiàn)了 SOTA 級(jí)別的運(yùn)行效率和低內(nèi)存占用,適用于對(duì)實(shí)時(shí)性要求高的場景。

    • CasDiffMVS: 在多個(gè)主流 MVS 基準(zhǔn)上取得了 SOTA 的重建精度。

  3. 設(shè)計(jì)新模塊: 提出了輕量級(jí)的條件編碼器和擴(kuò)散網(wǎng)絡(luò)(U-Net + ConvGRU),以及置信度感知的自適應(yīng)采樣策略,共同保證了模型的高性能和高效率。

  4. 開源貢獻(xiàn): 論文 已經(jīng)開源了代碼 ,為社區(qū)提供了強(qiáng)大的新基線,將推動(dòng) MVS 領(lǐng)域的進(jìn)一步發(fā)展。

總而言之,這項(xiàng)工作不僅在性能上取得了突破,更重要的是為 MVS 領(lǐng)域探索了一個(gè)全新的、富有潛力的技術(shù)方向。CV君認(rèn)為,將生成模型思想與判別任務(wù)相結(jié)合的思路非常值得借鑒,未來可能會(huì)有更多工作沿著這個(gè)方向展開。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國三大長壽食物,紅薯排第3,第1很多人想不到,建議中老年常吃

中國三大長壽食物,紅薯排第3,第1很多人想不到,建議中老年常吃

牛鍋巴小釩
2025-09-25 05:32:56
凌晨,三地連發(fā)地震!網(wǎng)友:被搖醒

凌晨,三地連發(fā)地震!網(wǎng)友:被搖醒

山西晚報(bào)
2025-10-17 12:57:21
風(fēng)口浪尖!850萬大規(guī)模人群研究,新冠疫苗增加 6 種癌癥風(fēng)險(xiǎn)!文章能發(fā),也是勇氣可嘉!

風(fēng)口浪尖!850萬大規(guī)模人群研究,新冠疫苗增加 6 種癌癥風(fēng)險(xiǎn)!文章能發(fā),也是勇氣可嘉!

芒果師兄
2025-10-11 07:34:02
小縣城的留守婦女,到底有多缺錢?

小縣城的留守婦女,到底有多缺錢?

英軍眼
2025-07-30 14:55:01
科爾:巴特勒明天大概率缺戰(zhàn)快船,穆迪無緣常規(guī)賽揭幕戰(zhàn)

科爾:巴特勒明天大概率缺戰(zhàn)快船,穆迪無緣常規(guī)賽揭幕戰(zhàn)

雷速體育
2025-10-17 06:31:13
許昕Xuperman公司被起訴

許昕Xuperman公司被起訴

雷達(dá)財(cái)經(jīng)
2025-10-17 10:48:45
娃小宗,胎死腹中

娃小宗,胎死腹中

大案九處
2025-10-14 10:37:35
小米成都撞車的真相來了,不要再造謠了,車主更要特別注意…

小米成都撞車的真相來了,不要再造謠了,車主更要特別注意…

慧翔百科
2025-10-15 09:31:10
吳清將發(fā)表主旨演講!證監(jiān)會(huì)披露金融街論壇資本市場領(lǐng)域四大看點(diǎn)

吳清將發(fā)表主旨演講!證監(jiān)會(huì)披露金融街論壇資本市場領(lǐng)域四大看點(diǎn)

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-10-17 13:55:06
托蒂:退役后我連續(xù)哭了三周,羅馬當(dāng)時(shí)的行為讓我失望

托蒂:退役后我連續(xù)哭了三周,羅馬當(dāng)時(shí)的行為讓我失望

懂球帝
2025-10-17 04:47:47
好險(xiǎn)!網(wǎng)友差點(diǎn)拿40萬接盤小區(qū)超市,評(píng)論區(qū)高手仗義挽救一個(gè)家庭

好險(xiǎn)!網(wǎng)友差點(diǎn)拿40萬接盤小區(qū)超市,評(píng)論區(qū)高手仗義挽救一個(gè)家庭

另子維愛讀史
2025-10-11 22:40:25
網(wǎng)盤中的加密文件,二十年后依然回味無窮

網(wǎng)盤中的加密文件,二十年后依然回味無窮

街機(jī)時(shí)代
2025-04-27 16:10:02
緬北軍閥明學(xué)昌:殘殺我方臥底,霸占母女花,臥虎山莊藏60名情婦

緬北軍閥明學(xué)昌:殘殺我方臥底,霸占母女花,臥虎山莊藏60名情婦

歷史八卦社
2023-11-13 18:56:07
印尼購買殲-10戰(zhàn)機(jī),這次合作創(chuàng)造了三個(gè)新紀(jì)錄 | 京釀館

印尼購買殲-10戰(zhàn)機(jī),這次合作創(chuàng)造了三個(gè)新紀(jì)錄 | 京釀館

新京報(bào)
2025-10-17 12:37:12
通便大王被發(fā)現(xiàn),不是香蕉而是它!遇到使勁吃,全身舒服輕松

通便大王被發(fā)現(xiàn),不是香蕉而是它!遇到使勁吃,全身舒服輕松

三毛看世界
2025-10-15 19:46:17
丟人!中國大學(xué)生日本窮游,搶小孩吃食、辱罵當(dāng)?shù)厝?,被日媒曝?>
    </a>
        <h3>
      <a href=探源歷史
2025-10-16 18:05:35
10場狂轟14球!姆巴佩:希望有一天,自己可以像C羅一樣

10場狂轟14球!姆巴佩:希望有一天,自己可以像C羅一樣

雷速體育
2025-10-17 15:56:07
美國郵輪因拒交費(fèi)用,取消掛靠中國港口,反制措施開始生效

美國郵輪因拒交費(fèi)用,取消掛靠中國港口,反制措施開始生效

老沮系戲精北鼻
2025-10-17 16:30:43
歷史上著名的“餿主意”有哪些?網(wǎng)友分享真實(shí)事例,笑麻了

歷史上著名的“餿主意”有哪些?網(wǎng)友分享真實(shí)事例,笑麻了

軒逸阿II
2025-10-10 09:15:35
《再見愛人5》剛播熱度破7000,口碑出爐,觀眾評(píng)價(jià)出奇的一致

《再見愛人5》剛播熱度破7000,口碑出爐,觀眾評(píng)價(jià)出奇的一致

糊咖娛樂
2025-10-16 18:32:34
2025-10-18 02:07:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5172文章數(shù) 64593關(guān)注度
往期回顧 全部

科技要聞

對(duì)話投資人李強(qiáng):硅谷AI創(chuàng)業(yè)者走“窄門”

頭條要聞

黃仁勛:英偉達(dá)中國份額從95%降至0%

頭條要聞

黃仁勛:英偉達(dá)中國份額從95%降至0%

體育要聞

灰熊不可能梭哈,安安穩(wěn)穩(wěn)過日子才是真

娛樂要聞

這5位明星,他們還能靠演技翻紅嗎?

財(cái)經(jīng)要聞

許家印家族財(cái)富隔離神話是如何破滅的?

汽車要聞

2026款海豹07 DM-i 功能全面升級(jí)/還有激光雷達(dá)

態(tài)度原創(chuàng)

健康
家居
房產(chǎn)
數(shù)碼
教育

內(nèi)分泌科專家破解身高八大謠言

家居要聞

因異而生 古今文脈交融

房產(chǎn)要聞

珠江畔再啟新章!未來方洲二期亮相,為廣州定制“一生幸福之城”

數(shù)碼要聞

iPhone Air開啟無卡時(shí)代 一圖看懂手機(jī)eSIM

教育要聞

1w+個(gè)崗位!武漢光谷職業(yè)學(xué)院舉行2026畢業(yè)生秋季大型供需見面會(huì)

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品天干天干综合网| 四虎久久免费网站| 五月综合激情婷婷六月色窝| free欧美HD高潮迭起| 国产v在线最新观看视频| 日本亚洲色大成网站www久久| 久久久久久久久无码av| 国产精品一区二区性色av| 美女乱日毛片| 亚洲免费二区| 国产在线无码免费视频2021| 韩国一区一区| 全部丰满孕妇孕交| 国语憿情少妇无码av| 成人H动漫在线看| 欧美变态口味重另类app| 久久波多野结衣av| 军人自慰网站| 亚洲AV无码久久精品久久久天| 亚洲va欧美va天堂v国产综合 | 久久中文字幕人妻丝袜| 亚洲精品视频在线| 日韩人妻无码精品-专区| 国内免费av| 日韩av高清无码| 麻豆一区二区三区蜜桃免费| 国产又粗又猛又黄又爽无遮挡 | 极品少妇xxxx精品少妇偷拍| 男人天堂AV电影在线观看| 成人精品| 欧美熟妇丰满乱XXZZXXZZ| 国产AV剧情吊死精品变态| 大香蕉网站99| 人人操人人曰| 碰人人模人人澡| 粗大黑人巨精大战欧美成人| 亚洲欧洲av一区二区| 天堂草原电视剧在线观看图片高清| 成AV人片一区二区三区久久 | 最新高清毛片| 一个人看的免费视频www中文字幕|