夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VGGT4D:無需訓練,挖掘3D基礎模型潛力,實現(xiàn)4D動態(tài)場景重建

0
分享至



如何讓針對靜態(tài)場景訓練的 3D 基礎模型(3D Foundation Models)在不增加訓練成本的前提下,具備處理動態(tài) 4D 場景的能力?

來自香港科技大學(廣州)與地平線 (Horizon Robotics) 的研究團隊提出了 VGGT4D。該工作通過深入分析 Visual Geometry Transformer (VGGT) 的內部機制,發(fā)現(xiàn)并利用了隱藏在注意力層中的運動線索。



作為一種無需訓練 (Training-free) 的框架,VGGT4D 在動態(tài)物體分割、相機位姿估計及長序列 4D 重建等任務上均取得了優(yōu)異性能。



  • 論文標題: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
  • 論文鏈接:https://arxiv.org/abs/2511.19971
  • 項目主頁: https://3dagentworld.github.io/vggt4d/
  • 代碼鏈接:https://github.com/3DAgentWorld/VGGT4D

研究背景

近年來,以 VGGT、DUSt3R 為代表的 3D 基礎模型在靜態(tài)場景重建中表現(xiàn)出色。然而,面對包含移動物體(如行人、車輛)的動態(tài) 4D 場景時,這些模型的性能往往顯著下降。動態(tài)物體的運動不僅干擾背景幾何建模,還會導致嚴重的相機位姿漂移。

現(xiàn)有的解決方案通常面臨兩類挑戰(zhàn):

  • 計算或訓練成本高:依賴繁重的測試時優(yōu)化 (Test-time Optimization) 或需要在大規(guī)模 4D 數(shù)據(jù)集上進行微調。
  • 依賴外部先驗:通常需要引入光流、深度估計或語義分割等額外模塊,增加了系統(tǒng)的復雜性。

VGGT4D 的核心設想:能否在不進行額外訓練的前提下,直接從預訓練的 3D 基礎模型中挖掘出 4D 感知能力?

核心洞察:VGGT 內部的潛在運動線索

研究人員對 VGGT 的注意力機制進行了可視化分析,觀察到一個關鍵現(xiàn)象:VGGT 的不同網(wǎng)絡層對動態(tài)區(qū)域表現(xiàn)出截然不同的響應模式。

  • 淺層網(wǎng)絡:傾向于捕捉語義上顯著的動態(tài)物體。
  • 深層網(wǎng)絡:則逐漸抑制幾何不一致的區(qū)域。



這一發(fā)現(xiàn)表明,VGGT 雖然是基于靜態(tài)假設訓練的,但其內部實際上已經 隱式編碼 了豐富的動態(tài)線索。



方法論:潛在運動線索的挖掘與解耦

VGGT4D 的核心貢獻在于提出了一套無需訓練的注意力特征挖掘與掩膜精修機制。該方法深入特征流形內部,利用 Gram 矩陣和梯度流實現(xiàn)了高精度的動靜分離。



跨越投影間隙:基于 Gram 相似度的特征挖掘







基于投影雅可比矩陣的梯度流精修

為了解決 Attention Map 分辨率不足導致的邊界模糊問題,VGGT4D 引入了 投影梯度感知精修 (Projection Gradient-aware Refinement)。





分布內早期掩膜策略(In-Distribution Early-Stage Masking)

在推理階段,直接的全層掩膜(Full Masking)會將模型推向分布外(OOD)狀態(tài),導致性能下降。

VGGT4D 提出了一種早期階段干預策略:僅在淺層抑制動態(tài) Token 的 Key 向量。這種設計既在早期切斷了動態(tài)信息對深層幾何推理的影響,又保證了深層 Transformer Block 依然在其預訓練的特征流形上運行,從而保證了位姿估計的魯棒性。

實驗驗證

研究團隊針對動態(tài)物體分割、相機位姿估計和 4D 點云重建三大核心任務,在六個基準數(shù)據(jù)集上進行了詳盡的定量和定性評估。

核心組件評估:動態(tài)物體分割性能

實驗首先評估了該方法的核心組件:動態(tài)物體分割。





定性分析:定性結果清晰地展示了基線方法的不足:Easi3R 的掩碼較為粗糙且遺漏細節(jié);DAS3R 傾向于過度分割并滲入靜態(tài)背景;MonST3R 則常常分割不足。相比之下,VGGT4D 生成的掩碼更加準確,且邊界更加清晰。這些結果有力地驗證了研究團隊的假設:VGGT 的 Gram 相似度統(tǒng)計信息中嵌入了豐富的、可提取的運動線索。



魯棒性驗證:相機位姿估計

強大的基線與持續(xù)改進:數(shù)據(jù)表明,原始 VGGT 已經是一個非常強大的基線,其自身就優(yōu)于 MonST3R、DAS3R 等許多專門的 4D 重建方法。這表明 VGGT 的預訓練隱式地使其對動態(tài)物體具有一定的魯棒性。然而,這種魯棒性并不完美。 VGGT4D 在所有數(shù)據(jù)集上均持續(xù)改進了這一強大的 VGGT 基線。例如在 VKITTI 數(shù)據(jù)集上,VGGT4D 的 ATE 僅為 0.164,而 MonST3R 高達 2.272。



長序列魯棒性突破:在極具挑戰(zhàn)性的長序列 Point Odyssey 基準測試中,VGGT4D 在所有指標上均取得了最佳結果,同時保持了高度效率。許多其他 4D 方法由于內存不足(OOM)錯誤甚至無法在該 500 幀序列上運行。這表明 VGGT4D 提出的顯式、無需訓練的動態(tài) - 靜態(tài)分離方法成功地識別并消除了由運動引起的殘余位姿不一致性,從而實現(xiàn)了更穩(wěn)定、更準確的相機軌跡,尤其是在長且復雜的序列上。



最終目標:4D 點云重建質量實驗

在 DyCheck 數(shù)據(jù)集上的評估顯示,VGGT4D 在所有重建指標(準確度、完整度和距離)上均取得了最佳性能。與 VGGT 基線相比,中位準確度誤差從 0.009 降低到 0.004,平均距離從 0.150 降低到 0.123。這證明了該方法不僅實現(xiàn)了精準的動靜分離,更能實質性提升幾何重建質量。





結語

VGGT4D 提出了一種無需訓練的新范式,成功將 3D 基礎模型的能力擴展至 4D 動態(tài)場景。該工作證明了通過合理挖掘模型內部的 Gram 相似度統(tǒng)計特性,可以有效解耦動態(tài)與靜態(tài)信息。這不僅為低成本的 4D 重建提供了新思路,也展示了基礎模型在零樣本遷移任務中的潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
臺媒:臺北捷運發(fā)生隨機砍人事件已致9人受傷,嫌犯墜樓

臺媒:臺北捷運發(fā)生隨機砍人事件已致9人受傷,嫌犯墜樓

界面新聞
2025-12-19 19:38:33
你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

你無意中發(fā)現(xiàn)過別人哪些秘密?網(wǎng)友:這不是我一個單身狗能看的

帶你感受人間冷暖
2025-12-18 00:10:08
剛提車不久撞人致死!保險公司解讀新車保險生效時間與理賠規(guī)則,“車主可要求商業(yè)險即時生效”

剛提車不久撞人致死!保險公司解讀新車保險生效時間與理賠規(guī)則,“車主可要求商業(yè)險即時生效”

極目新聞
2025-12-20 12:57:46
“不要再查了,再查我怕過兩天南京博物院庫房就要著火了!”

“不要再查了,再查我怕過兩天南京博物院庫房就要著火了!”

迷世書童H9527
2025-12-18 10:00:25
日本加息落地:暴跌沒有,麻煩在后頭

日本加息落地:暴跌沒有,麻煩在后頭

吳曉波頻道
2025-12-20 08:31:19
央視開播!24集大劇來襲!胡歌、張頌文領銜,我想說:收視要爆了

央視開播!24集大劇來襲!胡歌、張頌文領銜,我想說:收視要爆了

草本紀年
2025-12-19 12:04:58
40歲大哥早年花120萬投股票,時隔10年如今急用錢,他記起這件事

40歲大哥早年花120萬投股票,時隔10年如今急用錢,他記起這件事

卡西莫多的故事
2025-12-15 10:30:03
連夜下架!楊冪代言的“無頭大衣”嚇哭全網(wǎng)

連夜下架!楊冪代言的“無頭大衣”嚇哭全網(wǎng)

廣告案例精選
2025-12-19 16:17:40
張本智和錯誤言論曝光!日本留學生:他不是中國人,別對他有期望

張本智和錯誤言論曝光!日本留學生:他不是中國人,別對他有期望

念洲
2025-12-20 07:29:33
深圳16歲“烤雞少年”火出圈,每天能賣兩三百只烤雞,靠努力實現(xiàn)逆襲人生

深圳16歲“烤雞少年”火出圈,每天能賣兩三百只烤雞,靠努力實現(xiàn)逆襲人生

瀟湘晨報
2025-12-17 22:00:17
明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

長風文史
2025-12-18 15:00:28
實探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

實探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

樓市滅霸
2025-12-19 19:11:22
人均消費過萬!如今誰還在為KTV買單?老板們直呼“苦不堪言”

人均消費過萬!如今誰還在為KTV買單?老板們直呼“苦不堪言”

音樂時光的娛樂
2025-12-14 00:12:34
今晚開播!央視+湖南+江蘇衛(wèi)視8部大劇扎堆,你追哪一部?

今晚開播!央視+湖南+江蘇衛(wèi)視8部大劇扎堆,你追哪一部?

手工制作阿殲
2025-12-20 13:44:53
馬未都為龐家后人發(fā)聲,犀利點出關鍵,揭開南京博物院“遮羞布”

馬未都為龐家后人發(fā)聲,犀利點出關鍵,揭開南京博物院“遮羞布”

好賢觀史記
2025-12-19 16:40:00
韓國海警舉旗沖鋒蘇巖礁!強拆中方設施反被圍,中方貼臉開大了

韓國海警舉旗沖鋒蘇巖礁!強拆中方設施反被圍,中方貼臉開大了

觀察者小海風
2025-12-18 19:48:04
原南京博物院院長“姚遷自殺事件”始末

原南京博物院院長“姚遷自殺事件”始末

清五郎
2025-12-19 17:22:33
明日冬至!無論有錢沒錢,牢記:1不去,2不曬,3多吃,安穩(wěn)過冬

明日冬至!無論有錢沒錢,牢記:1不去,2不曬,3多吃,安穩(wěn)過冬

今日美食分享
2025-12-20 12:43:03
2-0!2-0!U15東亞杯次輪:日本+中國澳門2連勝,最新積分如下

2-0!2-0!U15東亞杯次輪:日本+中國澳門2連勝,最新積分如下

大秦壁虎白話體育
2025-12-20 13:07:01
又一個省會城市!辦了證的網(wǎng)約車,65%不活躍了!

又一個省會城市!辦了證的網(wǎng)約車,65%不活躍了!

網(wǎng)約車焦點
2025-12-19 17:27:38
2025-12-20 16:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

91歲老人欲把亡妻房子過戶給50歲女友:這是我的權利

頭條要聞

91歲老人欲把亡妻房子過戶給50歲女友:這是我的權利

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

戚薇女兒大變樣,10歲就進入“尷尬期”

財經要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

健康
旅游
時尚
本地
游戲

這些新療法,讓化療不再那么痛苦

旅游要聞

多項交通便利化舉措助力冬季旅游市場升溫

今年冬天流行的“露襪”穿法,時髦又減齡!

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風骨

《絕區(qū)零》2.5更新12月30日上線 新角色衣裝玩法等

無障礙瀏覽 進入關懷版 操肥逼X一区| 国产精品剧情亚洲二区| 国产成人精品999视频| 日韩欧美丰满熟妇人妻潮喷| 不卡一区二区在线视频| 无码精品第一页| 日本久久久久久久久久加勒比| 日本少妇高潮正在线播放| 午夜福利在线观看6080| 欧美人人操人人摸| av无码东京热亚洲男人的天堂| 久久久久久亚洲综合影院| 色综合久久久久综合体桃花网| 久久精品国产亚洲AV无码十区 | 久久久久久久久久夜夜夜夜夜夜| 老色99久久九九爱精品| 欧美一区二区三区区成人影院欧美 | 亚欧伦片99久久| 肏屄黄色视频| 国产好大好爽久久久久久久| 久久九九性爱视频| 小毛片免费看| 懂色av粉嫩av色欲av| 国产自产c区| 中国熟妇色XXXX欧美老妇多毛| 粉嫩人妻日韩亚瑟久久| 激情av一区二区| 在线无码视频| 欧美日韩免费专区在线| 国产av国片精品一区二区| 中文字幕在线观看视频精品在线观看视频精品 | 久久久精品久久久久久96| 正在播放美女少妇午夜福利| 国产av日韩精品一区二区| 国产精品粉嫩嫩的| 国产在线观看香蕉视频网| 欧美综合激情| 骚逼熟女蜜桃冒白浆| 东京道一本热中文字幕| 桃色网站在线播放| 国产精品无码DVD在线观看|