僅憑一張照片,能否讓行人繼續(xù)行走、汽車?yán)^續(xù)飛馳、云朵繼續(xù)流動(dòng),并讓你從任意視角自由觀賞?
南洋理工大學(xué) S-Lab 攜手上海人工智能實(shí)驗(yàn)室,給出肯定答案 ——4DNeX。作為全球首個(gè)僅依賴單張輸入即可直接輸出 4D 動(dòng)態(tài)場(chǎng)景的前饋(feed-forward) 框架,4DNeX 擺脫了游戲引擎與合成數(shù)據(jù)的束縛,首次大規(guī)模利用真實(shí)世界動(dòng)態(tài)影像進(jìn)行訓(xùn)練,實(shí)現(xiàn)「時(shí)空視頻」的高效、多視角、高保真渲染。
在多項(xiàng)基準(zhǔn)測(cè)試中,4DNeX 以顯著優(yōu)勢(shì)超越 Free4D、4Real 等當(dāng)前最佳方法,真正把「一張圖生成四維世界」的科幻概念帶進(jìn)了現(xiàn)實(shí)。
- 論文鏈接:https://4dnex.github.io/4DNeX.pdf
- 項(xiàng)目主頁(yè):https://4dnex.github.io/
1. 研究背景
世界模型正成為 AI 研究的高頻熱詞。 Google DeepMind 近期迭代的 Genie 3 已能在高質(zhì)量游戲數(shù)據(jù)上生成長(zhǎng)達(dá)數(shù)分鐘的交互式視頻,但目前尚且缺乏在諸多真實(shí)場(chǎng)景上的驗(yàn)證。
世界模型發(fā)展的一個(gè)重要拐點(diǎn)在于:讓模型學(xué)會(huì)刻畫我們身處的動(dòng)態(tài) 3D 世界,并服從其物理定律。 唯有如此,生成的內(nèi)容才能既逼真又可導(dǎo),進(jìn)而支持「反事實(shí)」推演 —— 在虛擬中重放、預(yù)測(cè)甚至改寫現(xiàn)實(shí)。這一能力不僅可構(gòu)成下一代 AR/VR 與具身智能的重要研究基石,更是邁向可信 AGI 的必經(jīng)之路。
構(gòu)建 4D 世界模型的關(guān)鍵能力,在于能否持續(xù)產(chǎn)出高保真、可擴(kuò)展的 4D 內(nèi)容,其主要在于以下三個(gè)方面的研究:
- 數(shù)據(jù)– 相較于游戲等引擎合成的數(shù)據(jù),真實(shí)采集的數(shù)據(jù)雖能保留物理屬性,卻難以大量獲取,更難標(biāo)注;
- 表征- 如何兼顧不同模態(tài)(如材質(zhì)和幾何等)特性,設(shè)計(jì)選取高效的 3D/4D 表征仍是學(xué)界長(zhǎng)久未竟的科研命題;
- 架構(gòu)– 當(dāng)前的不同生成模型架構(gòu)互有優(yōu)劣,如何更好地繼承現(xiàn)有模型先驗(yàn),保障高質(zhì)量仍需探索。
鑒于此,「真實(shí)高效」的 4D 世界模型構(gòu)建非常重要,也充滿挑戰(zhàn)。
2. 4DNeX-10M Dataset
近千萬(wàn)幀帶 4D 標(biāo)注的視頻集
為破解高質(zhì)量真實(shí) 4D 數(shù)據(jù)稀缺的瓶頸,4DNeX 首度發(fā)布4DNeX-10M—— 近千萬(wàn)幀、多場(chǎng)景、帶偽標(biāo)簽的超大規(guī)模 4D 視頻數(shù)據(jù)集。其覆蓋室內(nèi)外環(huán)境、自然景觀與人體運(yùn)動(dòng)等多元主題,尤以海量「以人為中心」的 4D 數(shù)據(jù)為特色,囊括豐富的物理屬性、動(dòng)態(tài)細(xì)節(jié)與交互行為,為 4D 世界模型的構(gòu)建奠定堅(jiān)實(shí)基礎(chǔ)。
圖 1 4DNeX-10M Dataset 包含了不同來(lái)源且豐富多樣的動(dòng)態(tài)數(shù)據(jù)
為支撐 4DNeX-10M 的構(gòu)建,研究者們同步設(shè)計(jì)了一條全自動(dòng)的數(shù)據(jù)–標(biāo)注管線(見(jiàn)下圖)。
- 數(shù)據(jù)源:?jiǎn)文繉?shí)拍視頻數(shù)據(jù),其中動(dòng)態(tài)場(chǎng)景取自 Pexels、Vimeo 等公開視頻庫(kù);靜態(tài)場(chǎng)景則整合 RealEstate-10K、DL3DV 等。
- 首輪清洗:基于光流一致性、亮度統(tǒng)計(jì)、運(yùn)動(dòng)強(qiáng)度及 OCR 文字檢測(cè),剔除低質(zhì)片段。
- 標(biāo)簽制作:
- 內(nèi)容:LLaVA-Next Video 給視頻片段打標(biāo)。
- 幾何:靜態(tài)場(chǎng)景使用 Dust3R 三維重建,動(dòng)態(tài)場(chǎng)景使用 Monst3R / MegaSam 四維重建,輸出 Semi-Dense 3D/4D 點(diǎn)云圖、幾何標(biāo)簽。
- 質(zhì)量把關(guān):聯(lián)合置信度(MCV、HCPR 等)與運(yùn)動(dòng)平滑度等多重閾值,篩除幾何漂移或動(dòng)態(tài)異常序列。
最終打標(biāo)完成的 4DNeX-10M 數(shù)據(jù)集構(gòu)成如圖右下角統(tǒng)計(jì)所示。
圖 2 4DNeX-10M 構(gòu)建管線以及數(shù)據(jù)統(tǒng)計(jì)情況
3. 4DNeX 方法架構(gòu)
表征選取
在 4D 內(nèi)容生成中,傳統(tǒng)「4D」指 3D 空間幾何外加時(shí)間軸;而在世界模型的語(yǔ)境下,RGB 視頻攜帶的材質(zhì)、光照與語(yǔ)義信息同樣關(guān)鍵。4DNeX 因而提出 6D 統(tǒng)一表征:以 RGB 序列刻畫外觀(3 維)并以 XYZ 序列編碼幾何(3 維)。該設(shè)計(jì)無(wú)需顯式相機(jī)控制,即可同步生成多模態(tài)內(nèi)容,兼顧真實(shí)感與物理一致性。
圖 3 不同的 RGB 和 XYZ 模態(tài)融合策略
算法框架
4DNeX 框架的技術(shù)突破在于「寬度融合」這一關(guān)鍵策略:系統(tǒng)比較五種方案后,研究者們發(fā)現(xiàn)將 RGB 與 XYZ 在 token 寬度維度直接拼接,可將跨模態(tài)距離壓到最低。 相比之下,通道融合會(huì)擾亂預(yù)訓(xùn)練分布,批處理融合又無(wú)法保證對(duì)齊。
圖 4 不同的空間融合策略對(duì)比
網(wǎng)絡(luò)骨架沿用 Wan2.1 視頻擴(kuò)散模型,通過(guò)輕量級(jí) LoRA 微調(diào)完成適配,主要的策略包括有:
- 輸入端以斜坡深度初始化,先驗(yàn)地逼近自然場(chǎng)景的深度梯度;
- XYZ 坐標(biāo)經(jīng)歸一化校正,徹底消除 VAE 潛在空間的分布錯(cuò)位;
- 軟掩碼機(jī)制在擴(kuò)散過(guò)程中動(dòng)態(tài)約束幾何細(xì)節(jié),引導(dǎo)結(jié)構(gòu)收斂;
- 旋轉(zhuǎn)位置編碼維持像素級(jí) RGB-XYZ 對(duì)齊。
最后,僅需一次輕量重投影即可反算出相機(jī)參數(shù),確保輸出在物理層面嚴(yán)密自洽。
圖 5 4DNeX 框架總覽
4. 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)驗(yàn)證顯示 4DNeX 在效率與質(zhì)量上實(shí)現(xiàn)雙重突破:VBench 測(cè)試中,其動(dòng)態(tài)幅度達(dá) 100%(超越 Free4D 的 40.1%),時(shí)空一致性 96.8% 領(lǐng)先業(yè)界。用戶研究(23 人評(píng)估)更顯示 85% 用戶偏好其生成效果,尤其在運(yùn)動(dòng)幅度與真實(shí)感方面優(yōu)勢(shì)顯著。
生成效果可視化證明模型能力 —— 單圖輸入可輸出連貫動(dòng)態(tài)點(diǎn)云序列(圖 5),新視角合成在真實(shí)場(chǎng)景(in-the-wild)中保持幾何一致性(下圖 6);與 Animate124、4Real 等基線對(duì)比(下圖 7),4DNeX 在樹葉搖曳幅度、人體動(dòng)作自然度等細(xì)節(jié)表現(xiàn)更優(yōu)。
圖 6 4DNeX 生成的視頻效果(RGB & Point Map)
圖 7 4DNeX 生成未經(jīng)訓(xùn)練真實(shí)世界視頻的新視角視頻
圖 8 4DNeX 對(duì)比其他方法的生成效果
User Study 用戶調(diào)研結(jié)果顯示 4DNeX 生成的效果優(yōu)于 Free4D、4Real、Animate124、GenXD 方法。
表格 1 User Study 結(jié)果對(duì)比
消融實(shí)驗(yàn)
研究者們還對(duì)比了五種融合 RGB 以及 XYZ 的策略,以發(fā)現(xiàn)最佳的多模態(tài)融合策略。實(shí)驗(yàn)一步證實(shí)寬度融合策略的關(guān)鍵作用,消除其他方案(如通道融合)的噪聲或?qū)R失敗問(wèn)題。
圖 9 不同融合策略的結(jié)果可視化展示
文中視頻鏈接:https://mp.weixin.qq.com/s/_e4C5H6JzqlA1SHKip4USg
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.