夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊 ARC Lab 胡文博:“如何實(shí)現(xiàn)三維感知的視頻世界模型,這非常值得探索”|GAIR 2025

0
分享至


我們正在努力創(chuàng)建一個(gè)具備三維感知能力的視頻世界模型。

作者丨齊鋮湧

編輯丨馬曉寧


世界模型的研究尚處于起步階段,共識(shí)尚未形成,有關(guān)該領(lǐng)域的研究形成了無數(shù)支流,過去一年多,Sora為代表的視頻生成模型,成為繼大語(yǔ)言模型(LLM)后新的學(xué)術(shù)熱點(diǎn)。本質(zhì)上講,當(dāng)下火爆的視頻生成模型,是一種世界模型,其核心目的是生成一段逼真、連貫的視頻。

要達(dá)到這樣的目的,模型必須在一定程度上理解這個(gè)世界的運(yùn)作方式(比如水往低處流、物體碰撞后的運(yùn)動(dòng)、人的合理動(dòng)作等)。

胡文博正是世界模型研究領(lǐng)域近兩年的絕對(duì)新銳。

在剛剛結(jié)束的 GAIR 2025,騰訊ARC Lab高級(jí)研究員胡文博,在雷峰網(wǎng)舉辦的GAIR大會(huì)現(xiàn)場(chǎng)帶來了非常有見解的演講:《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )。

以下是具體內(nèi)容,AI科技評(píng)論做了不改變?cè)獾木庉嫼驼怼?/p>

感謝邀請(qǐng)和介紹,我今天分享的題目是《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models)。

之所以講這個(gè),是因?yàn)镾ora在2024年初出來時(shí),給大家?guī)砗艽笳鸷场1热缢傻囊曨l,雖然看起來是二維的,但已經(jīng)具備一定的3D一致性。不過從我們做三維重建的角度看,比如嘗試把它重建出來,會(huì)發(fā)現(xiàn)墻面與地面的垂直性、平整度等都還不夠好。


基于這個(gè)觀察,領(lǐng)域內(nèi)認(rèn)為視頻擴(kuò)散模型有潛力作為世界模型的一種表示方式,但視頻本身仍是二維的,而我們的世界是三維的。

所以我們思考:如何實(shí)現(xiàn)一個(gè)具備三維感知能力的視頻世界模型?

為了實(shí)現(xiàn)這種三維感知,我們主要做了兩方面工作,今天重點(diǎn)講第二方面。

第一方面是如何從二維觀測(cè)中重建三維信息,這部分和前面彭老師講的內(nèi)容比較接近。第二方面是如何將重建得到的三維信息融入到生成過程中,使二維空間的視頻擴(kuò)散模型具備三維感知特性。

我先簡(jiǎn)單介紹一下第一方面的工作:如何在開放世界環(huán)境中,從二維視頻中重建三維信息。

我們做了一系列工作,例如video depth (DepthCrafter)(2024年10月掛在arXiv上,現(xiàn)在效果可能已經(jīng)不是最新的了)。


除了video depth (DepthCrafter),我們進(jìn)一步思考:既然video depth還是2.5維的信息,能否直接從視頻中估計(jì)點(diǎn)云。這就是GeometryCrafter,有了點(diǎn)云,我們就能做類似4D重建的任務(wù),把各幀融合到同一坐標(biāo)系中。


再進(jìn)一步,我們還估計(jì)了運(yùn)動(dòng)信息,這部分我們最新的工作叫Holi4D,可以從單目視頻中重建運(yùn)動(dòng)。最后一塊是表面法線估計(jì)NormalCrafter,與前幾項(xiàng)相比,法線包含更多高頻細(xì)節(jié),因?yàn)樗俏恢玫囊浑A偏導(dǎo)數(shù)?;诜ň€我們可以做重打光、材質(zhì)編輯等任務(wù)。

總的來說,目前從任意開放世界二維視頻中重建三維信息的技術(shù)已經(jīng)發(fā)展得不錯(cuò),我們能得到比較好的三維重建結(jié)果了。

接下來重點(diǎn)講第二方面:如何將三維信息用在視頻擴(kuò)散過程中,使模型具備三維感知能力。我們首先探索了靜態(tài)場(chǎng)景下的生成任務(wù):輸入一張單圖,希望模型能根據(jù)任意指定的相機(jī)位姿,生成對(duì)應(yīng)的觀測(cè)圖像。這樣我們就能像玩游戲一樣,通過控制相機(jī),實(shí)現(xiàn)對(duì)靜態(tài)場(chǎng)景的探索。

這個(gè)工作叫ViewCrafter,2024年10月公開,后來被PAMI接收。


方法上,我們借助重建能力:給定一張圖,先重建出一個(gè)粗糙的三維點(diǎn)云,形成場(chǎng)景的“骨架”。然后基于這個(gè)點(diǎn)云進(jìn)行漫游渲染,渲染結(jié)果雖然粗糙(可能有空洞),但視角變換關(guān)系非常準(zhǔn)確。

這些空洞正好由擅長(zhǎng)內(nèi)容生成的視頻擴(kuò)散模型來填補(bǔ)。我們將渲染的點(diǎn)云作為條件,控制視頻擴(kuò)散過程,從而生成既逼真又符合指定視角變換的圖像。

更重要的是,生成的新圖像可以反過來用于多視角重建,更新點(diǎn)云,從而實(shí)現(xiàn)迭代式、更大范圍的場(chǎng)景探索。這其實(shí)與世界模型中的記憶機(jī)制相關(guān):三維點(diǎn)云作為一種記憶,通過新探索內(nèi)容更新點(diǎn)云,再?gòu)闹胁樵冃畔⒆鳛闂l件,支持更遠(yuǎn)的探索。


我們展示一些結(jié)果:左側(cè)是指定的相機(jī)軌跡,右側(cè)是從單圖出發(fā)生成的探索結(jié)果。

效果還不錯(cuò),不僅支持單圖輸入,也支持稀疏多視圖輸入。從兩張圖出發(fā)的話,探索范圍會(huì)大很多。探索得到的多視圖圖像可以直接用于重建三維高斯?jié)姙R模型(3D Gaussian Splatting),實(shí)現(xiàn)實(shí)時(shí)渲染。


剛才講的是靜態(tài)場(chǎng)景探索,接下來是如何對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行探索。這是我們發(fā)表在ICCV 2025上的Oral工作TrajectoryCrafter。


核心思想是:用戶輸入一段單目視頻(它是四維世界的二維投影),模型應(yīng)允許用戶對(duì)其背后的四維世界進(jìn)行探索,即同時(shí)指定相機(jī)位姿和時(shí)間點(diǎn),生成對(duì)應(yīng)的動(dòng)態(tài)觀測(cè)。

方法延續(xù)之前的思路:核心是如何將重建的三維信息注入生成過程。輸入是一段視頻,我們通過視頻重建方法將其提升為三維空間中的動(dòng)態(tài)點(diǎn)云。然后像ViewCrafter一樣,基于指定位姿渲染點(diǎn)云。

不同之處在于,動(dòng)態(tài)探索對(duì)生成質(zhì)量要求更高,因此我們除了注入點(diǎn)云信息外,還將原始視頻(質(zhì)量最高)也作為條件注入擴(kuò)散模型,從而在精準(zhǔn)控制相機(jī)位姿的同時(shí)實(shí)現(xiàn)高質(zhì)量生成。



結(jié)果展示:左側(cè)是原始動(dòng)態(tài)視頻,右側(cè)是依據(jù)新指定相機(jī)位姿生成的動(dòng)態(tài)視頻。例如左上角第一個(gè)例子,甚至可以繞到人物背后觀看,光影反射效果也不錯(cuò)。



模型還能實(shí)現(xiàn)“子彈時(shí)間”特效:固定時(shí)間點(diǎn),旋轉(zhuǎn)相機(jī)。另外也能模擬“Dolly Zoom”特效(電影常用手法:邊推移相機(jī)邊調(diào)整焦距,使主體大小不變而背景變化),我們的模型可以從原始固定相機(jī)視頻出發(fā),同時(shí)修改相機(jī)內(nèi)參和外參,復(fù)現(xiàn)這種效果。

以上兩個(gè)工作分別實(shí)現(xiàn)了對(duì)靜態(tài)和動(dòng)態(tài)場(chǎng)景的探索。

對(duì)于世界模型,除了探索,下一步是實(shí)現(xiàn)交互:如何對(duì)場(chǎng)景中多個(gè)物體進(jìn)行交互?這是我們最新工作VerseCrafter(即將公開)。


仍從單圖輸入出發(fā),重建幾何信息,并將可移動(dòng)物體用高斯球標(biāo)注出來。相機(jī)和物體軌跡可在Blender中編輯:用戶可以交互式設(shè)計(jì)相機(jī)和每個(gè)物體的運(yùn)動(dòng)軌跡。然后,我們的模型能根據(jù)這些交互結(jié)果,生成逼真的觀測(cè)視頻。也就是說,相機(jī)和所有物體的運(yùn)動(dòng)都是可交互的。


實(shí)現(xiàn)方案上,我們構(gòu)建了一個(gè)“4D控制視頻世界模型”:從單圖出發(fā),基于重建和分割方法,重建出部分三維場(chǎng)景,并標(biāo)注可移動(dòng)物體。這樣就在Blender中得到一個(gè)粗糙的、可交互的三維(或四維)世界。雖然粗糙,但易于交互。交互結(jié)果作為條件,輸入到我們?cè)O(shè)計(jì)的視頻擴(kuò)散模型中,生成最終逼真的觀測(cè)。


這個(gè)方案的關(guān)鍵在于如何構(gòu)建訓(xùn)練數(shù)據(jù)。我們建立了一套完整的訓(xùn)練數(shù)據(jù)標(biāo)注流程,核心基于重建算法和視覺語(yǔ)言模型(VLM)進(jìn)行標(biāo)注與過濾。最終我們獲得了約35K個(gè)高質(zhì)量視頻片段的數(shù)據(jù)集。



基于這個(gè)模型,我們可以做很多事情:固定相機(jī)只移動(dòng)物體、固定物體只移動(dòng)相機(jī)、同時(shí)移動(dòng)相機(jī)和物體。我們對(duì)比了現(xiàn)有方案,很多方法只能處理特定類別(如僅限人體),而我們的方法在運(yùn)動(dòng)符合度和生成質(zhì)量上都有不錯(cuò)表現(xiàn)。我們還測(cè)試了多玩家聯(lián)機(jī)探索場(chǎng)景的能力:用兩個(gè)人各自拍攝的照片作為Player A和Player B的視角,讓他們?cè)谕粋€(gè)場(chǎng)景中同時(shí)探索與交互,模型能分別生成各自的視角視頻。


總結(jié)一下,今天主要關(guān)注第二方面——三維感知視頻世界模型,但這部分非常依賴第一方面的開放世界三維重建技術(shù)(包括深度、點(diǎn)云、運(yùn)動(dòng)、法線等重建)。

在三維感知視頻世界模型方面,我們實(shí)現(xiàn)了靜態(tài)場(chǎng)景探索模型、動(dòng)態(tài)場(chǎng)景探索模型,以及支持在四維場(chǎng)景中同時(shí)進(jìn)行探索與交互的模型。

這就是今天想和大家分享的內(nèi)容,謝謝。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深夜官宣!CBA第4位主帥下課!接替者是名帥,曾任國(guó)家隊(duì)教練

深夜官宣!CBA第4位主帥下課!接替者是名帥,曾任國(guó)家隊(duì)教練

老吳說體育
2025-12-25 22:18:45
日本首富孫正義的女兒在干什么

日本首富孫正義的女兒在干什么

徐靜波靜說日本
2025-12-26 09:17:10
ICE公布:在加州高速公路抓了101名卡車司機(jī),全是非法移民

ICE公布:在加州高速公路抓了101名卡車司機(jī),全是非法移民

大洛杉磯LA
2025-12-26 00:35:18
宛平南路600號(hào)出“病床版”筆記本了!與本子界“愛馬仕”聯(lián)名!280元一本!你想記什么?

宛平南路600號(hào)出“病床版”筆記本了!與本子界“愛馬仕”聯(lián)名!280元一本!你想記什么?

新民晚報(bào)
2025-12-25 15:51:19
A股:周五,突然跳水,發(fā)生了什么?原因可能有兩點(diǎn)!

A股:周五,突然跳水,發(fā)生了什么?原因可能有兩點(diǎn)!

明心
2025-12-26 12:23:05
李湘哈爾濱-30°穿貂皮紗裙太胖疑呼吸困難

李湘哈爾濱-30°穿貂皮紗裙太胖疑呼吸困難

新時(shí)代精神
2025-12-26 09:03:28
16GB+1TB!新機(jī)官宣:12月27日,正式開售!

16GB+1TB!新機(jī)官宣:12月27日,正式開售!

科技堡壘
2025-12-26 11:49:26
馬光遠(yuǎn):為人民幣單邊升值歡呼是無腦表現(xiàn)

馬光遠(yuǎn):為人民幣單邊升值歡呼是無腦表現(xiàn)

新浪財(cái)經(jīng)
2025-12-26 07:21:51
每秒移動(dòng)0.2米,慢到極致的樹懶,為什么沒有被天敵滅絕?

每秒移動(dòng)0.2米,慢到極致的樹懶,為什么沒有被天敵滅絕?

半解智士
2025-12-25 20:06:45
今天起遼寧氣溫反彈明后天升溫迅速 后天部分地區(qū)或現(xiàn)降雪

今天起遼寧氣溫反彈明后天升溫迅速 后天部分地區(qū)或現(xiàn)降雪

北青網(wǎng)-北京青年報(bào)
2025-12-26 11:47:04
藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購(gòu)買的

藏不住了,當(dāng)年陸挺的《江南春》,是從徐湘江手里購(gòu)買的

吃瓜盟主
2025-12-24 15:26:30
中產(chǎn)學(xué)霸娃的風(fēng)向變了,廣東的這三所大學(xué)火出天際

中產(chǎn)學(xué)霸娃的風(fēng)向變了,廣東的這三所大學(xué)火出天際

Dr小魚
2025-12-26 08:44:37
多名聯(lián)合國(guó)專家譴責(zé)美國(guó)對(duì)委內(nèi)瑞拉的封鎖

多名聯(lián)合國(guó)專家譴責(zé)美國(guó)對(duì)委內(nèi)瑞拉的封鎖

財(cái)聯(lián)社
2025-12-24 21:09:06
笑死!全網(wǎng)最炸裂阿貝貝合集,家長(zhǎng):我真的要瘋了

笑死!全網(wǎng)最炸裂阿貝貝合集,家長(zhǎng):我真的要瘋了

夜深愛雜談
2025-12-03 20:26:34
演員陳偉霆回應(yīng)官宣生子:我不能連第一步當(dāng)爸的勇氣都沒有;并稱13歲喪父敏感自卑,有兒子后重新審視自己

演員陳偉霆回應(yīng)官宣生子:我不能連第一步當(dāng)爸的勇氣都沒有;并稱13歲喪父敏感自卑,有兒子后重新審視自己

魯中晨報(bào)
2025-12-26 10:33:03
溫州“85后”干部王奔,已跨市履新

溫州“85后”干部王奔,已跨市履新

溫百君
2025-12-26 11:18:31
大動(dòng)作來了,三大部門聯(lián)手“發(fā)錢”!這次能否打動(dòng)你的心?

大動(dòng)作來了,三大部門聯(lián)手“發(fā)錢”!這次能否打動(dòng)你的心?

李云飛Afey
2025-12-15 22:03:51
錢小豪“毀滅史”,他的故事比你想得更惡劣

錢小豪“毀滅史”,他的故事比你想得更惡劣

比利
2025-12-21 11:26:52
山楂樹下真的急了?竟找山東美女打廣告?本人回應(yīng)太剛了

山楂樹下真的急了?竟找山東美女打廣告?本人回應(yīng)太剛了

朗威談星座
2025-12-24 10:28:24
孫中山臨終哭著要睡冰地板,宋慶齡想不通,香港一老太卻懂了:這是欠了30年的債啊

孫中山臨終哭著要睡冰地板,宋慶齡想不通,香港一老太卻懂了:這是欠了30年的債啊

寄史言志
2025-12-26 13:16:08
2025-12-26 14:35:00
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7026文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天深夜道歉,只字未提五月天阿信

財(cái)經(jīng)要聞

資管江湖的人事“寒冬”

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

健康
家居
親子
數(shù)碼
公開課

這些新療法,讓化療不再那么痛苦

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

親子要聞

2026年,幼兒園關(guān)停潮已經(jīng)來了

數(shù)碼要聞

顯卡選自帶線還是電源線:九大品牌回復(fù) 觀點(diǎn)各異!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品久久久久无码av色戒| 国产成人精品一区二区视频| 在线免费观看国产好屌| 夜夜高潮无码| 亚洲精品午夜久久久伊人| 亚洲人成电影网站色www| 色噜噜Aⅴ在线| 亚洲日韩中文字幕在线播放| 国产乱码精品1区2区3区| 亚州丰满老熟妇AAAA片| 2020国产成人精品视频| 色在线 | 国产| 野花香社区在线观看| 亚洲高清揄拍自拍| 制服丝袜先锋影音| 中国59XXXXX| 精品国产三级在线观看| 79国产美女久久久| 欧美作爱视频| 肉色丝袜脚交视频一区二区| 无码无遮挡又大又爽又黄的视频 | 精品久久久久久国产牛牛| 无码人妻斩一区二区三区| 宅男99网站| 国产V亚洲V天堂A无码| 国产欧美va天堂在线观看视频| 亚洲丰满人妻无码| 午夜蜜桃模特| 亚洲欧美中文日韩V日本| 日韩射逼人妻| 永久免费av无码入口国语片| 永久国产盗摄一区二区色欲| 久9视频这里只有精品8| 美女午夜免费福利视频| 无码 制服 丝袜 国产 另类| xxxxx69中国片| 国产午夜福利小视频合集| 主播福利视频合集网页影院| www.一区二区三区在线 | 中国| 高跟丝袜良家91| 日本乱码伦视频免费播放 |