夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

StereoAdapter:北大首提自監(jiān)督,適配水下雙目深度估計

0
分享至


新智元報道

編輯:LRST

【新智元導讀】水下機器人在復雜環(huán)境中導航和建模,需解決深度感知難題。研究人員提出StereoAdapter框架,結(jié)合單目和雙目視覺,利用自監(jiān)督學習,在無水下真實深度標簽下,高效適配視覺基礎(chǔ)模型,實現(xiàn)高精度深度估計,顯著提升水下機器人導航和目標檢測能力。

水下環(huán)境中的深度感知對水下機器人自主導航、目標檢測和三維重建等任務(wù)至關(guān)重要。

相比單目方法,雙目視覺可以通過雙目相機直接獲得具有度量尺度的3D深度,避免了單目深度固有的尺度不確定性。

然而,將現(xiàn)有視覺算法直接應(yīng)用于水下場景會遇到顯著挑戰(zhàn)。

水下成像因光學特性差異引入嚴重的域偏移:水對不同波長光的吸收導致顏色和亮度隨距離衰減,水體中的懸浮顆粒會產(chǎn)生前向/后向散射,攝像機與水的界面產(chǎn)生復雜折射。

這些因素違背了陸地視覺中常用的光度一致性假設(shè),使得在水下獲得可靠的雙目匹配變得更加困難。

在此背景下,目前的方法面臨兩大挑戰(zhàn)

  • 如何參數(shù)高效地將龐大的視覺基礎(chǔ)模型(如在海量陸地數(shù)據(jù)上訓練的單目深度編碼器)適配到水下域,而不依賴大量有標注的水下數(shù)據(jù);

  • 如何將全局一致但存在尺度模糊單目深度先驗局部精確但光度敏感雙目匹配約束緊密融合,在自監(jiān)督條件下充分發(fā)揮雙方優(yōu)勢。

此前一些研究嘗試從不同角度結(jié)合單目和雙目信息,例如TiO-Depth提出了「二合一」的單目-雙目聯(lián)合框架,Stereo Anywhere利用視覺基礎(chǔ)模型提供的單目先驗來增強雙目匹配,實現(xiàn)了在低紋理或反光場景下的零樣本泛化能力。

但在水下場景,劇烈的域差異依然使這些方法效果受限。

針對上述難題,北京大學等機構(gòu)的研究人員提出了全新的StereoAdapter框架,監(jiān)督學習為基礎(chǔ),在不需要水下真實深度標簽的情況下,將強大的單目深度基礎(chǔ)模型與雙目幾何有機結(jié)合。


論文鏈接:https://arxiv.org/pdf/2509.16415

具體來說,研究人員通過低秩適配(LoRA)技術(shù),將預訓練的單目深度模型高效地微調(diào)到水下域;然后以其輸出的單目深度作為全局先驗,結(jié)合一個循環(huán)迭代細化的雙目匹配模塊,在逐步優(yōu)化中融合單目與雙目的優(yōu)勢。

這樣既保證了深度預測的全局合理性,又利用雙目約束糾正了單目先驗可能存在的尺度和細節(jié)誤差。整個設(shè)計注重參數(shù)效率訓練效率,使模型能夠以較小開銷完成水下域的適配和部署。


論文作者張澤宇是Richard Hartley教授和Ian Reid教授指導的本科研究員。他的研究興趣扎根于計算機視覺領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個研究領(lǐng)域擁有豐富的經(jīng)驗,積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進展。

唐浩現(xiàn)任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優(yōu)秀自費留學生獎學金,連續(xù)兩年入選斯坦福大學全球前 2% 頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯(lián)邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領(lǐng)域的研究,在國際頂級期刊與會議發(fā)表論文 100 余篇,相關(guān)成果被引用超過10000次。曾獲ACM Multimedia最佳論文提名獎,現(xiàn)任ACL 2025、EMNLP 2025、ACM MM 2025領(lǐng)域主席及多個人工智能會議和期刊審稿人。

LoRA適配與雙階段框架

StereoAdapter采用了雙階段結(jié)構(gòu),包括單目深度估計階段和雙目深度細化階段。


如圖所示,第一階段使用預訓練的Depth Anything V2單目深度模型作為基礎(chǔ)。研究人員在其Transformer編碼器中插入LoRA模塊進行水下域適配,只需增加極少量參數(shù),就能讓模型學習水下圖像的特有特征,而原有的大量權(quán)重保持凍結(jié)。

通過這種方式,模型保留了預訓練過程中學到的通用幾何先驗,同時針對水下場景進行了調(diào)整。在編碼器輸出的多尺度特征(金字塔分辨率從1/4到1/32)基礎(chǔ)上,研究人員引入SDFA模塊逐級融合相鄰尺度特征,以兼顧局部細節(jié)和全局上下文。

接著,單目階段的解碼器生成一個稠密視差體積(離散采樣多個視差假設(shè))并輸出初始的粗略視差圖

由于Depth Anything V2具備很強的跨數(shù)據(jù)集泛化能力,這個初始視差預測在水下也具有全局一致的深度結(jié)構(gòu)但精度較粗。

第二階段,StereoAdapter利用第一階段提供的視差作為初始值,結(jié)合雙目圖像進行循環(huán)匹配細化。

研究人員構(gòu)建了一個基于GRU的遞歸雙目匹配模塊。首先,從左、右圖像提取特征金字塔并計算多尺度相關(guān)體積——這類似于生成不同尺度下的代價空間,用于表示視差假設(shè)的匹配代價。

與此同時,將第一階段得到的初始視差轉(zhuǎn)換為深度,并與稀疏雙目匹配得到的可靠深度點進行比對:通過特征匹配獲取一些高置信度的對應(yīng)點,計算出對應(yīng)的真實尺度深度,然后與單目深度進行比較。

如果發(fā)現(xiàn)單目預測的整體尺度存在偏差,研究人員會估計一個尺度和偏移校正項來調(diào)整單目深度;同時,根據(jù)這些錨點對局部誤差進行插值傳播,以細化初始深度圖。

這一混合尺度對齊過程確保進入循環(huán)細化模塊的初始深度既保持單目先驗的全局尺度,又在局部盡可能貼近真實度量值。

接下來,經(jīng)過尺度校正的初始視差送入迭代細化單元。循環(huán)模塊借鑒RAFT-Stereo等方法,引入ConvGRU網(wǎng)絡(luò)來多次更新視差。

具體而言,在每次迭代中,根據(jù)當前視差估計從多尺度相關(guān)體積中提取一組匹配特征(類似「lookup」操作),并與當前迭代的隱藏狀態(tài)、單目上下文特征一起輸入GRU單元。

這里,研究人員使用一種融合上下文編碼器:一方面直接復用單目階段適配后的Transformer特征(即基礎(chǔ)模型在水下調(diào)優(yōu)后的多尺度特征),另一方面引入一個輕量級CNN提取左圖像的局部細節(jié)特征。

Transformer提供高層語義和全局信息,CNN提供局部紋理和邊緣,二者經(jīng)過通道對齊后逐元素相加融合,形成多尺度的上下文特征集合。這些特征用于初始化GRU的隱藏狀態(tài),并在每次迭代中與相關(guān)體積特征一起為GRU提供指導。GRU每迭代輸出一個視差增量Δd,將其加到當前視差估計上,實現(xiàn)逐步細化。

在多次循環(huán)更新后,可以獲得精細的視差預測,并通過上采樣恢復到原始分辨率,最終轉(zhuǎn)換為深度圖。

這種循環(huán)匹配機制使StereoAdapter能夠反復優(yōu)化匹配誤差,逐步逼近高精度的結(jié)果:它利用單目提供的全局先驗引導每次匹配搜索,從而在低紋理或存在散射的區(qū)域也能逐漸收斂到正確的視差。

值得一提的是,雙目模塊充分復用了單目階段的基礎(chǔ)模型編碼器。通過在雙目階段繼續(xù)使用融合了LoRA權(quán)重的Depth Anything編碼器,避免了訓練和部署額外的大型網(wǎng)絡(luò),既節(jié)省了參數(shù)又確保兩階段特征表述的一致性。

配合小型CNN補充局部信息,這種設(shè)計在保證精度的同時控制了計算開銷,使得StereoAdapter具備實際部署的輕量性。

自監(jiān)督訓練策略

研究人員采用監(jiān)督學習來訓練StereoAdapter的兩階段網(wǎng)絡(luò),從而擺脫對水下真值深度數(shù)據(jù)的依賴。在單目階段,借鑒Monodepth等經(jīng)典方法,利用左右視圖的一致性構(gòu)造訓練信號。

具體來說,讓單目網(wǎng)絡(luò)預測左圖的視差后,將右圖向左重建,得到合成的左圖像,并與真實左圖進行比較。這種光度重建損失由加權(quán)的像素強度差異(如L1范數(shù))和結(jié)構(gòu)相似性(SSIM)組成,用以度量重建圖像和原始左圖之間的差距。

與此同時,添加一個多尺度邊緣感知的平滑損失,約束視差圖在紋理較平坦區(qū)域的平滑性,同時保持深度邊緣與圖像梯度對齊。單目階段的總損失即為重建損失和平滑項的加權(quán)和。

訓練時,僅優(yōu)化LoRA模塊和解碼器等新增參數(shù),預訓練的編碼器權(quán)重仍然凍結(jié)不動。通過這種方式,第一階段實現(xiàn)了對水下域的自適應(yīng):LoRA模塊調(diào)整基礎(chǔ)模型的特征提取使其適應(yīng)水下圖像分布,而網(wǎng)絡(luò)通過與右圖的重建對比學會輸出合理的視差。

雙目細化階段,研究人員設(shè)計了多項自監(jiān)督損失共同優(yōu)化。

首先是雙目重建損失,類似單目階段,用最終迭代得到的視差將右圖向左拼合,得到重建的左圖像?L,并與真實左圖進行光度一致性約束(L1+SSIM)。

考慮到雙目視差無法在遮擋區(qū)域重建出左圖有效像素,研究人員利用單目初始視差估計遮擋掩膜

對于判定為右目不可見的區(qū)域,不強行讓去逼近真實左圖,而是引入單目預測的左視圖重建來填補,形成混合重建圖

這樣在有遮擋的像素位置采用單目重建,避免了雙目重建誤差。

這種遮擋處理策略提高了訓練穩(wěn)定性,使網(wǎng)絡(luò)不用在無效的對應(yīng)關(guān)系上浪費精力。

其次,框架中引入視差引導損失,鼓勵最終精細視差與初始單目視差保持一致的結(jié)構(gòu)趨勢。

具體包括兩部分:

1)初始和最終視差圖的梯度(水平和垂直方向)差異損失,保證細化后的深度邊緣不要偏離單目先驗提供的主要輪廓;

2)對未發(fā)生視差投影錯誤的像素,直接約束初始與最終視差的差值,防止網(wǎng)絡(luò)過度偏離單目提供的合理值。

最后,同樣在最終視差上施加邊緣感知的平滑正則化,以消除局部噪聲。雙目階段的總損失是上述重建項、平滑項和引導項的加權(quán)和。

通過單目階段的全局引導雙目階段的局部校正相結(jié)合,StereoAdapter實現(xiàn)了一個純自監(jiān)督的訓練流程。在訓練初期,單目先驗為雙目匹配提供了良好的起點;隨著迭代優(yōu)化,雙目細化模塊又不斷提升局部精度。值得強調(diào)的是,研究人員還引入了動態(tài)LoRA機制來進一步提升訓練效果和模型的持續(xù)適應(yīng)能力。

動態(tài)LoRA機制

傳統(tǒng)LoRA方法為每層預先設(shè)定一個固定的低秩r,通過增加

來微調(diào)預訓練權(quán)重,其中

然而,不同網(wǎng)絡(luò)層在適配水下時所需的容量各異,固定秩可能要么限制高層次特征的調(diào)整(秩過低),要么浪費參數(shù)引入冗余(秩過高)

為此,研究人員設(shè)計了動態(tài)LoRA策略,讓每層的有效秩由數(shù)據(jù)自適應(yīng)決定。做法是為每個低秩分量引入一個可學習的重要性權(quán)重,替代簡單的BA相加。

具體地,LoRA的權(quán)重增量被改寫為

初始時所有隨機賦值,訓練過程中,在損失中加入L1范數(shù)正則來促使權(quán)重產(chǎn)生稀疏化。

通過軟閾值迭代等近端優(yōu)化方法,每次更新后將小于閾值的權(quán)重壓至0,從而逐漸裁剪掉貢獻不顯著的秩分量。

訓練前期從0緩慢提高,讓模型先充分探索各個秩方向的作用,再逐步加大稀疏力度避免重要方向過早被裁掉。

此外,研究人員采取「兩階段」訓練:先進行一定比例(例如45%)的迭代不應(yīng)用閾值操作(密集階段),再在剩余迭代中開啟稀疏正則(稀疏階段)。這樣保證模型先在完整秩空間學習,再精簡。

訓練完成后,將剩余的非零低秩分量合并回主干權(quán)重——也就是直接將作為新的編碼器權(quán)重。

這意味著在推理時無需額外的LoRA分支,模型已將水下知識無縫融合入基礎(chǔ)模型中,不增加任何計算開銷。

動態(tài)LoRA實現(xiàn)了自動秩選擇:讓模型自行決定每層需要多大調(diào)整容量,同時保證最終模型的參數(shù)量和推理效率幾乎不受影響。

該機制對跨域持續(xù)學習尤為有效,在不同水下數(shù)據(jù)集上持續(xù)自監(jiān)督訓練時,編碼器能夠不斷調(diào)整各層的秩來適應(yīng)新場景,使單目先驗和雙目細化模塊始終協(xié)同工作。

UW-StereoDepth-40K 合成數(shù)據(jù)集

由于水下真實雙目數(shù)據(jù)匱乏,研究人員構(gòu)建了一個大規(guī)模合成水下雙目數(shù)據(jù)集UW-StereoDepth-40K,以支持模型預訓練和驗證其泛化性。

借助Unreal Engine 5 (UE5)的高保真渲染能力,研究人員創(chuàng)建了逼真的水下虛擬環(huán)境,并嚴格保證左右相機的幾何一致性。

具體而言,設(shè)計了四種多樣的水下場景:珊瑚礁工業(yè)結(jié)構(gòu)(如水下管道設(shè)施)、沉船以及自然海床等,每個場景都使用了豐富的3D素材(高精度掃描的珊瑚和海洋植物、水下機器人模型、沉積物和巖石、各種水下人造結(jié)構(gòu)等)進行細節(jié)填充。

與基于生成模型的方法不同,UE5渲染確保了左右視圖像素級對齊,杜絕了由隨機差異引起的偽匹配問題。在此基礎(chǔ)上,研究人員對環(huán)境進行了多方面的隨機化和多樣化

相機基線在4cm、10cm、20cm、40cm等多個距離中隨機取值,涵蓋從小型觀測ROV的窄基線到大型作業(yè)ROV的寬基線配置。這樣確保模型可適應(yīng)不同平臺的雙目相機參數(shù)。

光照和介質(zhì)模擬真實的焦散效應(yīng)(水面波動形成的光斑)、漂浮粒子(附帶物理運動)、以及與深度相關(guān)的色偏和霧化。這些效果逼真地再現(xiàn)了陽光照射、水體懸浮物和水色隨深度變化等現(xiàn)象,使數(shù)據(jù)涵蓋各種典型水下視覺退化情形。

數(shù)據(jù)集通過在每個場景中沿連續(xù)軌跡移動雙目相機采樣獲得。每隔固定距離截取一對立體圖像,共計獲得40,000對高分辨率(1280×960)圖像及其對應(yīng)的真值深度圖語義分割掩膜。為保證數(shù)據(jù)質(zhì)量,實行了嚴格的篩選和質(zhì)檢:自動濾除紋理過于貧乏或深度范圍異常(>50米)超出一般水下操作距離的幀;

計算左右圖像的結(jié)構(gòu)相似度以確保立體一致性,并由領(lǐng)域?qū)<胰斯z查圖像的逼真度、剔除可能的渲染瑕疵。最終的UW-StereoDepth-40K涵蓋多種環(huán)境和條件,從明亮的淺海到幽暗的深水,都具有高度逼真的視覺效果和準確的深度標簽。

這為水下雙目深度估計提供了一個大型高質(zhì)量的訓練資源,有助于在無真實數(shù)據(jù)時提高模型對水下域的適應(yīng)性。

在StereoAdapter中,首先在UW-StereoDepth-40K上進行預訓練,使模型先掌握水下場景的一般幾何和視覺特性。由于合成數(shù)據(jù)提供了充足的跨視角、跨條件樣本,模型能夠?qū)W到魯棒的特征表示,為后續(xù)在真實水下場景中的零樣本遷移打下基礎(chǔ)。

實驗表明,在該合成數(shù)據(jù)上預訓練,再在下游任務(wù)上微調(diào)或直接評估,顯著優(yōu)于不利用該數(shù)據(jù)集的情形,證明了UW-StereoDepth-40K在彌合模擬與真實差距方面的重要作用。


仿真實驗結(jié)果

研究人員在仿真環(huán)境真實數(shù)據(jù)上對StereoAdapter進行了全面評測,結(jié)果顯示出明顯優(yōu)勢。首先,在仿真數(shù)據(jù)集上,選用TartanAir數(shù)據(jù)集中的水下子集和SQUID水下數(shù)據(jù)集作為基準。

TartanAir水下子集包含22段模擬水下航行序列,共13,583對立體圖像;SQUID數(shù)據(jù)集由4個不同真實水下場景下采集的57對立體圖像組成。評測采用標準的深度估計指標:絕對相對誤差(REL)、均方根誤差(RMSE)以及δ<1.25精準度(A1)等。

TartanAir水下集上,StereoAdapter在零樣本設(shè)置(僅用合成數(shù)據(jù)訓練,未在TartanAir上微調(diào))下就超越了現(xiàn)有所有方法,取得了最優(yōu)的精度。

該模型實現(xiàn)了最低的RMSE ~2.89,REL也僅有0.0527,同時準確率A1達94.67%,均為該基準下的最佳表現(xiàn)。

相比之下,傳統(tǒng)雙目網(wǎng)絡(luò)如RAFT-Stereo等在同樣未微調(diào)情況下RMSE約在4.0以上;即便結(jié)合基礎(chǔ)模型的Stereo Anywhere,其RMSE也有3.16,A1為94.42%。

該方法顯著降低了誤差。例如相對于此前性能最好的Stereo Anywhere,RMSE降低了約6.1%。這證明了單目先驗+LoRA適配+循環(huán)細化的設(shè)計在水下環(huán)境下具備卓越的泛化能力。

將StereoAdapter在TartanAir上進行微調(diào)后,性能進一步提升:RMSE降至2.78,A1提高到95.12%

這進一步表明,合成預訓練 + 真實微調(diào)可以協(xié)同發(fā)揮作用,使模型在目標域達到更高精度。

SQUID數(shù)據(jù)集上,該方法同樣表現(xiàn)優(yōu)異。SQUID場景更接近真實拍攝,很多傳統(tǒng)方法在零樣本遷移時誤差較大。

然而StereoAdapter在未見過SQUID的情況下,取得了僅1.88的RMSE和0.0806的REL,以及94.13%的A1準確率,全面領(lǐng)先于其他對比方法

例如,著名的RAFT-Stereo(在Scene Flow上訓練)在SQUID上的RMSE約1.96,Selective IGEV在微調(diào)后RMSE也有1.93,而文中提出的方法在零樣本就達到1.88的水平。若再加上TartanAir數(shù)據(jù)微調(diào),RMSE進一步降至1.86,A1達94.28%

總體來看,StereoAdapter在仿真環(huán)境(TartanAir)真實靜態(tài)數(shù)據(jù)(SQUID)上均取得新的SOTA成績:相較之前最好的結(jié)果,RMSE分別降低約6.11%和5.12%。

這些結(jié)果也凸顯了合成數(shù)據(jù)預訓練的價值——模型在UW-StereoDepth-40K上學到的表示使其在陌生真實場景中也能保持低誤差。

除了定量指標,研究人員還比較了深度圖的可視化效果。如圖5所示,StereoAdapter輸出的深度圖在遠距離區(qū)域的尺度預測更準確,且整體連貫性和細節(jié)保真度均優(yōu)于基準方法。


例如,在一些水下弱紋理的背景區(qū)域,該方法依然生成了清晰平滑的深度,而某些對比方法要么深度噪聲很大要么直接無法給出合理值。這進一步驗證了該框架在困難視覺條件下的魯棒性。

實際部署與水下測試表現(xiàn)

研究人員將StereoAdapter部署在實際的水下機器人平臺上,驗證其在真實環(huán)境中的效果和速度。

研究人員使用BlueROV2水下機器人搭載ZED 2i雙目相機,在一個室內(nèi)水池環(huán)境中進行了測試。


機器人搭載了NVIDIA Jetson Orin NX(16GB)嵌入式計算模塊用于在線深度估計。

為了評估算法精度,研究人員在實驗前獲取了測試場景的高精度三維重建:通過在水池中放置AprilTag定位板,使用體感相機和多視幾何方法離線生成了場景的帶度量尺度的三維網(wǎng)格。

運行過程中,機器人在水池中分別設(shè)置的三種障礙布局(稀疏分散、并排排列、密集聚集)下執(zhí)行九段不同軌跡,攝像頭捕獲同步的雙目視頻。

研究人員利用先驗標記的位置將每幀相機姿態(tài)對準預構(gòu)建的場景網(wǎng)格,并渲染出對應(yīng)視角下的「參考深度」(作為近似真值)。這樣就獲得了每幀圖像的評估基準,用于計算REL、RMSE等指標,以衡量各方法在真實水下的表現(xiàn)。

實驗結(jié)果(表III)表明,StereoAdapter在真實水下環(huán)境中依然保持了最佳性能。


與兩個具有代表性的最新方法相比(Stereo Anywhere和FoundationStereo),提出的方法誤差更低、準確度更高:StereoAdapter的RMSE約1.97,A1準確率94.78%,而Stereo Anywhere的RMSE為2.51(A1=91.20%),F(xiàn)oundationStereo的RMSE為2.14(A1=89.61%)

相比之下,TiO-Depth在該場景下表現(xiàn)不佳,RMSE高達6.76,說明缺乏雙目幾何約束的單目方法在水下極易失效。

該方法對各種玻璃杯和巖石障礙都生成了清晰準確的深度映射,在物體邊緣和無紋理水區(qū)域都顯著優(yōu)于對比方法。


值得關(guān)注的是,StereoAdapter不僅精度高,而且推理速度快、適合部署。在Jetson Orin NX上,將輸入分辨率調(diào)整為640×360并進行了實時測試,各方法的單幀處理時延如表VII所示:FoundationStereo平均每幀需約1815毫秒,Stereo Anywhere約1440毫秒,而StereoAdapter僅約1113毫秒


也就是說,該方法在同樣硬件上比Stereo Anywhere快約327ms,比FoundationStereo快約702ms。

這一速度優(yōu)勢源自對基礎(chǔ)模型的高效利用和架構(gòu)優(yōu)化:StereoAdapter只使用了Depth Anything的小型基座版本(B模型)且僅在單目階段前向一次,就提供先驗和特征,隨后輕量的GRU模塊進行迭代 refinements;

而Stereo Anywhere需要兩次調(diào)用大型Depth Anything-L模型并額外進行3D卷積融合,F(xiàn)oundationStereo則使用了沉重的Transformer和3D成本體積處理。

因此,該方法在保證精度領(lǐng)先的同時,將計算量時延控制在了嵌入設(shè)備可接受的范圍。

這對于實際水下機器人在線避障和導航來說是非常關(guān)鍵的。

BlueROV2上的實驗充分展示了StereoAdapter在真實條件下的魯棒性和實用性:它能夠以接近實時的速度提供穩(wěn)定可靠的深度估計,為水下機器人的環(huán)境感知提供了有力支持。

消融分析與效率對比

為深入理解各組件的作用,研究人員進行了多組消融實驗。

循環(huán)細化模塊配置

嘗試改變GRU的層數(shù)、隱藏維度和迭代次數(shù),以觀察對精度和效率的影響。

結(jié)果發(fā)現(xiàn),增加GRU深度(從2層增至3層再到4層)可以持續(xù)降低誤差,例如4層128隱單元32迭代的配置取得了RMSE 2.614的最好成績。但考慮到部署效率,最終選擇了3層128維32步的配置,在精度(RMSE ~2.78)和速度之間取得平衡。

若將隱藏維度增大到256雖有輕微精度提升(RMSE ~2.62),但計算量也顯著增加。另外,研究人員發(fā)現(xiàn)過多迭代(如64步)反而可能造成收斂不穩(wěn)定并損傷效果,因此32次迭代已足夠。

動態(tài)LoRA策略

驗證了動態(tài)秩調(diào)整的有效性。

對比固定秩的LoRA,該方法能以更少參數(shù)達到更高精度。研究人員嘗試了不同的動態(tài)LoRA超參數(shù)組合,包括基秩大小(16或32)、稀疏閾值κ(如0.005或0.01)以及密集訓練比例(50%或45%)等。

消融結(jié)果表明,當前采用的配置(秩16、閾值0.01、45%密集迭代)取得了最優(yōu)的REL 0.049和RMSE 2.783,優(yōu)于其他設(shè)定。這說明使用動態(tài)LoRA能夠自動找到合適的秩, 比如在模型中每層平均有效秩最終大大低于16,使參數(shù)更精簡卻不損失精度。

如果不使用動態(tài)策略而是固定較高秩(如32),雖然也能適配水下域,但參數(shù)量增加且未顯著提升精度;相反固定過低秩又會限制性能。因此動態(tài)LoRA在參數(shù)效率和效果上取得了良好折中。

訓練超參數(shù)


研究人員也考察了訓練過程中的關(guān)鍵超參數(shù)設(shè)置,如batch size、學習率和單雙階段的訓練epoch分配。

實驗顯示,中等批大?。?或16)要比小批量(4)穩(wěn)定且效果更好;學習率1×10^(-4)比2×10^(-4)收斂更平穩(wěn),后者可能引入震蕩。

此外,將總訓練分成階段一20輪+階段二40輪這種比例可以取得最佳結(jié)果——首先20個epoch專注單目先驗學習,然后40個epoch在雙目任務(wù)上細化,使模型先打好單目基礎(chǔ)再充分調(diào)整雙目模塊。

這種多階段訓練策略明顯優(yōu)于讓模型同時訓練單目和雙目任務(wù)或者縮短某一階段的情況。

最終,最佳組合為:batch=8,lr=1e-4,階段一20輪+階段二40輪,對應(yīng)REL約0.051,RMSE約2.783。

這一消融分析驗證了各設(shè)計選擇的合理性:循環(huán)GRU深度、動態(tài)LoRA兩階段訓練均對StereoAdapter的高性能有重要貢獻。

同時,通過優(yōu)化設(shè)計,研究人員確保了模型在推理效率上的優(yōu)勢:如前述,該方法在嵌入平臺上的推理速度快于其他方案(1113ms vs 1440ms/1815ms),體現(xiàn)了參數(shù)高效微調(diào)輕量級細化模塊帶來的整體效率收益。

綜合來看,StereoAdapter在保持領(lǐng)先精度的同時做到了模型小、速度快,非常適合實際應(yīng)用。

未來展望

盡管StereoAdapter取得了良好效果,研究人員也認識到當前工作中仍有一些局限,值得在未來進一步探索。

首先,模型局部匹配的局限雙目細化模塊基于RAFT風格的GRU迭代,更偏重短距離、局部的逐步匹配記憶。

極端惡劣的水下條件下(例如嚴重渾濁導致可視距離極短、大范圍高亮反射或者大片無紋理區(qū)域),僅靠當前的局部遞歸可能難以捕獲全局線索。

換言之,當水下圖像質(zhì)量極差或場景缺乏可辨識特征時,網(wǎng)絡(luò)可能仍會遇到困難。這提示我們在模型架構(gòu)上可以引入更長程依賴的機制,結(jié)合局部匹配與全局推理來提升魯棒性。

其次,模擬數(shù)據(jù)域隙盡管精心構(gòu)建了UW-StereoDepth-40K,并已覆蓋許多水下現(xiàn)象,但畢竟虛擬數(shù)據(jù)的分布相對有限且理想化

現(xiàn)實海洋環(huán)境的復雜度更高:例如多次散射、偏振光效應(yīng)、動態(tài)水體顆粒濃度變化、相機傳感器的特定噪聲(滾動快門失真、鏡頭畸變)等等,這些在UE5中僅被部分建模或根本無法完全還原。

因此,該模型在實際部署中可能遇到某些未見過的分布偏差。盡管BlueROV2實驗已證明了一定的泛化性,但拓展數(shù)據(jù)源以進一步彌合模擬-真實差距仍然非常必要。

為應(yīng)對上述問題,未來研究人員計劃在數(shù)據(jù)和模型兩方面改進

數(shù)據(jù)層面,將探索更豐富的訓練數(shù)據(jù)生成方案。

一方面,在UE仿真中引入更多樣的隨機化和更逼真的物理模型:例如結(jié)合程序化生成手段,擴大場景和環(huán)境效果的覆蓋范圍,

引入粒子光學模型以模擬多路徑散射、根據(jù)真實水質(zhì)光譜校準渲染參數(shù)等。

另一方面,考慮利用無標注的真實水下視頻對模型進行自適應(yīng)訓練:通過自訓練(self-training)策略,讓模型在真實序列上進行推斷并根據(jù)高置信度預測更新自身,從而逐步提升對真實域特性的適應(yīng)能力。配合必要的置信度篩選和約束,這將有望大幅減少剩余的域差異影響。

模型層面,計劃引入多任務(wù)學習更長時空上下文來增強模型能力。

一方面,可以嘗試讓模型同時學習預測深度、法向、語義等多種輸出,使其在訓練中吸收更豐富的幾何和語義信息,從而提升對場景的理解深度。

另一方面,在架構(gòu)上探索具有更長依賴的高效解碼器,例如近期提出的線性時間序列模型(如Mamba或RWKV等),以捕獲更廣域的匹配關(guān)系。

同時,還考慮拓展到時間序列和多視角的輸入,讓模型利用連續(xù)幀或多相機的數(shù)據(jù)獲取時序/多視圖約束,提高在動態(tài)場景或更大范圍場景中的穩(wěn)定性,并輸出不確定度估計幫助判斷哪些區(qū)域深度不可靠。

最后,在部署方面,將研究模型壓縮和量化技術(shù),使StereoAdapter更好地適應(yīng)嵌入式平臺的資源限制。

通過上述改進方向,研究人員希望進一步提高StereoAdapter在更加多變的真實水下環(huán)境中的表現(xiàn)和效率,使之成為水下機器人可靠可信的視覺模塊。

總的來說,StereoAdapter的提出展示了將視覺基礎(chǔ)模型自監(jiān)督雙目幾何相結(jié)合的巨大潛力。

隨著數(shù)據(jù)和模型的不斷完善,此類方法將在自主水下導航、基礎(chǔ)設(shè)施巡檢、海洋生態(tài)監(jiān)測等領(lǐng)域發(fā)揮關(guān)鍵作用,推動水下機器人技術(shù)向前發(fā)展。

參考資料:

https://arxiv.org/pdf/2509.16415

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
紀念臺灣光復80周年大會在京召開

紀念臺灣光復80周年大會在京召開

新京報政事兒
2025-10-25 17:32:43
越來越多的人查出腸癌!醫(yī)生苦勸:冰箱久置的這5物,不要再吃了

越來越多的人查出腸癌!醫(yī)生苦勸:冰箱久置的這5物,不要再吃了

小童歷史
2025-10-11 10:50:42
你和同事干過最曖昧的事是啥?網(wǎng)友:大家公司都這么精彩的嗎

你和同事干過最曖昧的事是啥?網(wǎng)友:大家公司都這么精彩的嗎

解讀熱點事件
2025-10-06 00:10:03
NBA官方:比盧普斯和羅齊爾已被勒令立即離開所屬球隊

NBA官方:比盧普斯和羅齊爾已被勒令立即離開所屬球隊

懂球帝
2025-10-24 00:30:45
美國已完全陷入中國的圈套! 紐約時報: 特朗普正在領(lǐng)導超級大國自殺

美國已完全陷入中國的圈套! 紐約時報: 特朗普正在領(lǐng)導超級大國自殺

朗威游戲說
2025-10-25 11:55:10
利物浦400 萬甩賣!如今進球超埃托奧,當年的“水貨”活成傳奇

利物浦400 萬甩賣!如今進球超埃托奧,當年的“水貨”活成傳奇

慕承
2025-10-25 13:12:59
1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

小影的娛樂
2025-10-24 08:04:06
3488元!華為新機官宣:10月24日,全新開售

3488元!華為新機官宣:10月24日,全新開售

科技堡壘
2025-10-24 11:33:10
周受資,晉升一位90后女將

周受資,晉升一位90后女將

華爾街見聞官方
2025-10-25 19:18:15
八路軍三個師領(lǐng)導配置,最強不是中央紅軍組成的115師,而是129師

八路軍三個師領(lǐng)導配置,最強不是中央紅軍組成的115師,而是129師

鶴羽說個事
2025-10-25 11:55:44
65年陳誠病逝,三條遺言引發(fā)國民黨質(zhì)疑,周總理:陳誠是愛國的人

65年陳誠病逝,三條遺言引發(fā)國民黨質(zhì)疑,周總理:陳誠是愛國的人

大運河時空
2025-09-30 19:35:41
陜西高二女生午休時操場產(chǎn)子,調(diào)查后發(fā)現(xiàn),孩子父親身份不簡單

陜西高二女生午休時操場產(chǎn)子,調(diào)查后發(fā)現(xiàn),孩子父親身份不簡單

蘇大強專欄
2024-07-18 20:34:57
門興vs拜仁半場數(shù)據(jù):控球率19%-81%,射門0-8

門興vs拜仁半場數(shù)據(jù):控球率19%-81%,射門0-8

雷速體育
2025-10-25 22:54:08
塵埃落定!彩禮全退,跳河新郎表姐曝當天差點打起來,網(wǎng)友態(tài)度徹底反轉(zhuǎn)

塵埃落定!彩禮全退,跳河新郎表姐曝當天差點打起來,網(wǎng)友態(tài)度徹底反轉(zhuǎn)

冬天來旅游
2025-10-25 14:14:22
臺灣光復日,蔡正元:早該這樣!館長將來北京,島內(nèi)眾星態(tài)度不同

臺灣光復日,蔡正元:早該這樣!館長將來北京,島內(nèi)眾星態(tài)度不同

丁丁鯉史紀
2025-10-25 13:04:25
西安一保時捷行駛途中突然起火,車被燒成空架,“車輛未涉及碰撞”!專家:新能源車火災(zāi)發(fā)生概率與燃油車相差不大,但強度更高

西安一保時捷行駛途中突然起火,車被燒成空架,“車輛未涉及碰撞”!專家:新能源車火災(zāi)發(fā)生概率與燃油車相差不大,但強度更高

每日經(jīng)濟新聞
2025-10-25 20:37:07
外媒:基輔遭彈道導彈襲擊

外媒:基輔遭彈道導彈襲擊

參考消息
2025-10-25 20:06:26
李一桐這身材真的太好了,35歲的年紀,不大不小,成熟穩(wěn)重又可愛

李一桐這身材真的太好了,35歲的年紀,不大不小,成熟穩(wěn)重又可愛

TVB的四小花
2025-10-25 15:15:29
第18個賽季!37歲的小喬丹,油箱里還有多少油?

第18個賽季!37歲的小喬丹,油箱里還有多少油?

籃球?qū)嶄?/span>
2025-10-25 23:16:20
千億巨頭獎勵員工21枚黃金鍵帽,空格鍵重35克,價值近4萬元!公司股價已大漲492%,90后創(chuàng)始人:員工價值總和決定企業(yè)價值

千億巨頭獎勵員工21枚黃金鍵帽,空格鍵重35克,價值近4萬元!公司股價已大漲492%,90后創(chuàng)始人:員工價值總和決定企業(yè)價值

每日經(jīng)濟新聞
2025-10-25 15:17:35
2025-10-26 00:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13706文章數(shù) 66222關(guān)注度
往期回顧 全部

科技要聞

傳特斯拉人形機器人再延期,雙手只能用6周

頭條要聞

普京態(tài)度180度大轉(zhuǎn)彎警告特朗普 流露出相當強硬的威脅

頭條要聞

普京態(tài)度180度大轉(zhuǎn)彎警告特朗普 流露出相當強硬的威脅

體育要聞

從2400人小島打進NBA 他才是"上喬下科"?

娛樂要聞

《水龍吟》《天地劍心》一棄一追

財經(jīng)要聞

貴州茅臺換帥!70后陳華接任新掌門

汽車要聞

插混皮卡爭霸戰(zhàn),誰能笑到最后?

態(tài)度原創(chuàng)

家居
數(shù)碼
教育
本地
公開課

家居要聞

寵物友好 溫馨社交空間

數(shù)碼要聞

蘋果準備在印度擴大AirPods生產(chǎn)規(guī)模

教育要聞

沒有家教的家庭,比貧窮更可怕!

本地新聞

這個秋天,一起來粉上漓渚!所有風景只為等你

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 国产熟女aa级毛片| 色婷婷啪啪| 国产乱码日韩一区二区三区| 欧美乱码伦视频免费| 传媒在线播放天美传媒| 51妺嘿嘿午夜福利| 日本最新免费二区三区| 日韩精品一卡二卡在线观看| 亚洲性爱无码在线观看| 亚洲一区二区三区久久成人用品| 亚洲成人精品| 18禁看片网站| 国内精品久久久久久久久久久 | 国产娇妻视频| 无码人妻的获取方式| 免费无遮挡在线观看网站| 丰满的已婚人妻中文字幕| 亚洲国产良家在线观看| 国产精品 亚洲一区二区三区| 疯狂做受xxxx高潮不断| 亚洲歐美日不卡一區二區三區 | 久久发布国产伦子伦精品| 精品无码人妻1区 2区 3区 | 色AV色AV色AV| 在线观看日本亚洲一区| 极品主播精品视频97久久| 人人。妻人人操| 人人干人人看| 国产精品538一区二区在线| 精品国产一区二区三区av 性色| 大学生久久香蕉国产线看观看| 成在人线av无码免观看午夜网| 性爱一区在线| 澳门噜色噜噜| 亚洲国产精品线久久| 人妻不卡视频| 六月丁香久久五月丁香| 成熟人妻换XXXX被迫| 人人操人人骑| 精品一区无码| 国产乱码精品一区二区上|