夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

登上NeurIPS,Genesis開創(chuàng)無需OCC引導(dǎo)的多模態(tài)生成新范式

0
分享至



由華中科技大學(xué)與小米汽車提出了業(yè)內(nèi)首個(gè)無需 OCC 引導(dǎo)的多模態(tài)的圖像 - 點(diǎn)云聯(lián)合生成框架Genesis。該算法只需基于場(chǎng)景描述和布局(包括車道線和 3D 框),就可以生成逼真的圖像和點(diǎn)云視頻。



  • 論文題目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
  • 論文鏈接:https://arxiv.org/abs/2506.07497
  • Github 鏈接:xiaomi-research/genesis

Genesis 采用兩階段架構(gòu):第一階段基于透視圖投影的布局和場(chǎng)景描述等條件,利用基于 DiT 的擴(kuò)散模型學(xué)習(xí) 3D 變分自編碼器編碼的環(huán)視圖特征; 第二階段將第一階段多視角視頻序列轉(zhuǎn)到鳥瞰圖的特征空間,并結(jié)合場(chǎng)景描述和布局等條件,學(xué)習(xí) 2D 自編碼器編碼的點(diǎn)云特征。

為了以結(jié)構(gòu)化語義引導(dǎo)生成過程,本文引入了 DataCrafter (一個(gè)基于 VLM 的數(shù)據(jù)標(biāo)注模塊),可提供場(chǎng)景級(jí)與實(shí)例級(jí)的信息描述。在 nuScenes 基準(zhǔn)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,Genesis 在視頻與激光雷達(dá)指標(biāo)上均達(dá)到了當(dāng)前 SOTA 水平。



本文的主要貢獻(xiàn)總結(jié)如下:

  • 統(tǒng)一的多模態(tài)生成架構(gòu)。Genesis 采用統(tǒng)一的 pipeline,視頻和 LiDAR 分支都在共享相同的條件輸入,包括場(chǎng)景描述和布局等,這確保了生成的多模態(tài)數(shù)據(jù)的一致性。為進(jìn)一步保證點(diǎn)云和圖像背景的信息一致性,我們將 RGB 透視圖轉(zhuǎn)到鳥瞰圖視角下的特征下,并把該特征作為條件輸入到基于點(diǎn)云擴(kuò)散模型中,從而加強(qiáng)兩種模態(tài)的一致性,該過程無需依賴 occupancy 或體素等中間體。
  • 通過 DataCrafter 進(jìn)行結(jié)構(gòu)化語義信息提取。為了提高語義可控性,本文引入了 DataCrafter,這是一個(gè)基于視覺語言模型構(gòu)建的 caption 數(shù)據(jù)處理模塊。它提取多視圖、場(chǎng)景級(jí)和實(shí)例級(jí)描述,這些描述融合到密集的語言引導(dǎo)式先驗(yàn)中。這些 caption 數(shù)據(jù)為視頻和 LiDAR 生成器提供了詳細(xì)的語義指導(dǎo),從而產(chǎn)生不僅逼真而且可解釋和可控的輸出。

引言

在自動(dòng)駕駛技術(shù)向高階邁進(jìn)的進(jìn)程中,構(gòu)建多樣化、高擬真度的駕駛場(chǎng)景數(shù)據(jù)集,已成為不可或缺的關(guān)鍵環(huán)節(jié)。合成數(shù)據(jù)因?yàn)槠淇删庉嫞追夯奶攸c(diǎn)得到了廣泛的關(guān)注?,F(xiàn)有研究雖在視頻生成、LiDAR 序列合成領(lǐng)域取得顯著進(jìn)展,但如何實(shí)現(xiàn)視覺與幾何模態(tài)間的深度協(xié)同與一致性表達(dá),仍屬亟待攻克的前沿課題。

如圖 1,當(dāng)前主流的駕駛場(chǎng)景生成方案,多聚焦于 RGB 視頻或 LiDAR 點(diǎn)云的單模態(tài)數(shù)據(jù)生成。這些方法雖極大推動(dòng)了場(chǎng)景生成技術(shù)的發(fā)展,卻未能充分挖掘多模態(tài)融合的協(xié)同優(yōu)勢(shì)。在處理 RGB 視頻與其他傳感器數(shù)據(jù)時(shí),模態(tài)間的對(duì)齊精度不足,導(dǎo)致生成結(jié)果難以滿足實(shí)際應(yīng)用需求。許多方法采用基于 BEV 地圖或 3D 框的 “布局 - 數(shù)據(jù)” 單步生成模式,這種依賴粗略空間先驗(yàn)的架構(gòu),在捕捉復(fù)雜交通動(dòng)態(tài)與精細(xì)語義細(xì)節(jié)時(shí)存在天然缺陷。

盡管 UniScene 等研究嘗試引入占用網(wǎng)格實(shí)現(xiàn)多模態(tài)生成,但實(shí)際自動(dòng)駕駛場(chǎng)景中 OCC 標(biāo)簽的獲取是非常昂貴的,這嚴(yán)重限制了生成模型在工業(yè)界的應(yīng)用。另外,現(xiàn)有多模態(tài)生成方案多依賴粗略標(biāo)簽或通用標(biāo)題模型提供語義標(biāo)簽,未能有效利用現(xiàn)代視覺語言模型(VLM)的細(xì)粒度語義解析能力。這種語義標(biāo)簽的缺失,直接影響生成場(chǎng)景的真實(shí)性、可控性,以及時(shí)空邏輯的連貫性。



具體工作



DataCrafter 模塊



本文提出 DataCrafter, 一個(gè)專為多視角自動(dòng)駕駛視頻設(shè)計(jì)的 Caption 數(shù)據(jù)生成模塊,旨在實(shí)現(xiàn)以下兩項(xiàng)核心功能:

(1) 訓(xùn)練階段數(shù)據(jù)篩選:借助預(yù)訓(xùn)練視覺語言模型的圖像理解能力,對(duì)原始訓(xùn)練片段進(jìn)行評(píng)估,僅篩選高質(zhì)量片段用于訓(xùn)練。(2) 結(jié)構(gòu)化語義提?。豪靡曈X語言模型對(duì)多視角視頻片段提取細(xì)粒度語義信息,為多模態(tài)生成任務(wù)提供豐富的結(jié)構(gòu)化語義條件。







評(píng)分體系涵蓋三類關(guān)鍵視覺屬性:(1) 圖像清晰度:如模糊、畸變、臟污等;(2) 結(jié)構(gòu)合理性:如遮擋程度、結(jié)構(gòu)混亂、場(chǎng)景完整性等;(3) 美學(xué)特性:如逆光、過暗過亮、曝光異常、色彩偏差等。







視頻生成模型

如圖 2 中 camera_branch,Genesis 的視頻生成模塊以 DiT 為骨干,引入 3D-VAE 編碼與結(jié)構(gòu)化語義先驗(yàn),構(gòu)建出具備時(shí)空一致性的生成架構(gòu)。Camera 分支將場(chǎng)景布局信息與語言描述通過注意力機(jī)制深度耦合,使生成的視頻不僅具備視覺真實(shí)感,更能遵循語義邏輯。

我們發(fā)現(xiàn),目前自動(dòng)駕駛場(chǎng)景視頻生成的疼點(diǎn)在于行人難以清晰地生成,為此,我們創(chuàng)新性地利用 YOLOv8x-Pose 檢測(cè)行人姿態(tài)并投影到各視角,以此增強(qiáng)動(dòng)態(tài)場(chǎng)景的語義表達(dá)。

具體實(shí)現(xiàn)上,我們首先構(gòu)建包含車道段和 3D 邊界框的結(jié)構(gòu)化場(chǎng)景布局,將其投影到各視角 2D 圖像平面形成語義控制圖,再通過 Control-DiT 模塊的交叉注意力機(jī)制在每個(gè)去噪時(shí)間步融入這些結(jié)構(gòu)化先驗(yàn),實(shí)現(xiàn)對(duì)生成過程的引導(dǎo)。

在隱空間編碼方面,借助 3D VAE 將多幀 BEV 圖壓縮為隱空間表示,解碼器從去噪詞元中重建 BEV 語義。訓(xùn)練目標(biāo)函數(shù)為:







最后,模塊集成的語義對(duì)齊控制 Transformer 通過控制注意力將語義特征注入擴(kuò)散塊早期階段,并結(jié)合空間自注意力、跨視角注意力和時(shí)間注意力機(jī)制,全面保障多視角視頻生成的時(shí)空連貫性與語義保真度。



激光雷達(dá)生成模型

如圖 2 中 lidar_branch,激光雷達(dá)生成模塊致力于生成幾何精確且時(shí)空連貫的點(diǎn)云序列,通過點(diǎn)云自動(dòng)編碼器與時(shí)空擴(kuò)散模塊的協(xié)同設(shè)計(jì),結(jié)合跨模態(tài)語義條件實(shí)現(xiàn)多傳感器數(shù)據(jù)的一致性生成。

如圖 4,首先,點(diǎn)云自動(dòng)編碼器將稀疏點(diǎn)云體素化為 BEV 網(wǎng)格,利用 Swin Transformer 骨干網(wǎng)絡(luò)壓縮為隱空間特征,再通過 Swin 解碼器與 NeRF 渲染模塊重建點(diǎn)云,過程中采用空間跳躍算法減少空網(wǎng)格誤差,并通過深度 L1 損失、占用損失和表面正則化損失優(yōu)化訓(xùn)練,同時(shí)引入后處理過濾噪聲點(diǎn)。

時(shí)空擴(kuò)散模塊以自動(dòng)編碼器的隱空間特征為基礎(chǔ),采用雙 DiT 網(wǎng)絡(luò)結(jié)合 ControlNet 架構(gòu),集成場(chǎng)景描述、道路圖等語義條件,以及 3D 邊界框幾何條件;為保證跨模態(tài)一致,通過 LSS 算法將視頻分支的 RGB 圖像轉(zhuǎn)為 BEV 特征,與道路圖特征拼接后輸入 ControlNet。擴(kuò)散過程中,隱空間詞元通過交叉注意力融合語義與幾何嵌入,交叉注意力操作的公式為:





實(shí)驗(yàn)結(jié)果

視頻生成結(jié)果







在無首幀條件設(shè)定下,本文的方法實(shí)現(xiàn)了 83.10 的多幀 FVD 和 14.90 的多幀 FID,優(yōu)于 DriveDreamer-2 等先前的工作。在有首幀條件設(shè)定下,本文的方法進(jìn)一步提升至 16.95 的 FVD 和 4.24 的 FID,與 MiLA 相比展現(xiàn)出具有競(jìng)爭(zhēng)力的結(jié)果,同時(shí)保持了時(shí)間一致性和結(jié)構(gòu)保真度。在有噪聲隱空間設(shè)定下,在 6019 個(gè)樣本上實(shí)現(xiàn)了 67.87 的 FVD 和 6.45 的 FID,超過了 UniScene 報(bào)告的先前最佳結(jié)果。

LiDAR 生成結(jié)果



表 2 展現(xiàn)了先前最先進(jìn)的方法與本文提出的 Genesis 框架在激光雷達(dá)序列生成性能方面的定量比較。評(píng)估標(biāo)準(zhǔn)遵循 HERMES 的設(shè)定進(jìn)行,在水平面 [?51.2, 51.2] 米以及高度 [?3, 5] 米的空間范圍內(nèi),使用 Chamfer distance 作為主要指標(biāo)。在短期和長期預(yù)測(cè)方面,Genesis 始終優(yōu)于現(xiàn)有方法。在預(yù)測(cè)時(shí)長為 1 秒時(shí),它的 Chamfer distance 達(dá)到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在預(yù)測(cè)時(shí)長為 3 秒時(shí),優(yōu)勢(shì)擴(kuò)大到相對(duì)減少 45%(從 1.17 降至 0.633)。

下游任務(wù)實(shí)驗(yàn)



本文的方法在多個(gè)下游感知任務(wù)上評(píng)估了生成數(shù)據(jù)的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目標(biāo)檢測(cè)中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文評(píng)估了生成數(shù)據(jù)在 BEVFusion 3D 目標(biāo)檢測(cè)框架上的有效性。在所有設(shè)置中,本文的方法都取得了一致的改進(jìn),mAP 從 66.87 提高到 67.78,NDS 從 69.65 提高到 71.13。攝像頭和激光雷達(dá)模態(tài)的聯(lián)合生成實(shí)現(xiàn)了的最高增益(+0.91 mAP / +1.48 NDS),證明了多模態(tài)生成的互補(bǔ)優(yōu)勢(shì)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
公務(wù)員錄用體檢標(biāo)準(zhǔn)放寬

公務(wù)員錄用體檢標(biāo)準(zhǔn)放寬

政知新媒體
2025-11-14 21:48:35
戴旭:中國從來沒有單獨(dú)徹底戰(zhàn)勝過日本,未來一戰(zhàn)永絕后患

戴旭:中國從來沒有單獨(dú)徹底戰(zhàn)勝過日本,未來一戰(zhàn)永絕后患

boss外傳
2025-11-01 12:00:03
干練與松弛如何共存?深棕色背心搭瑜伽褲,小姐姐一看就是女強(qiáng)人

干練與松弛如何共存?深棕色背心搭瑜伽褲,小姐姐一看就是女強(qiáng)人

小喬古裝漢服
2025-11-11 13:22:57
放棄庫里,安德瑪斷臂求生

放棄庫里,安德瑪斷臂求生

體育產(chǎn)業(yè)生態(tài)圈
2025-11-14 19:16:44
香港知名男星低調(diào)再婚,棄影從商做紙板生意,移居內(nèi)地生活20多年

香港知名男星低調(diào)再婚,棄影從商做紙板生意,移居內(nèi)地生活20多年

胡一舸南游y
2025-11-14 19:10:21
臺(tái)獨(dú)急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺(tái)辦一句話戳破真相

臺(tái)獨(dú)急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺(tái)辦一句話戳破真相

文史旺旺旺
2025-11-13 20:17:18
“詩與遠(yuǎn)方”圓夢(mèng),林高遠(yuǎn)/劉詩雯摘得全運(yùn)會(huì)乒乓球混雙金牌

“詩與遠(yuǎn)方”圓夢(mèng),林高遠(yuǎn)/劉詩雯摘得全運(yùn)會(huì)乒乓球混雙金牌

澎湃新聞
2025-11-14 23:34:28
27歲靠一首歌火遍全國,37歲高齡產(chǎn)子,和前夫離婚后如今她怎樣了

27歲靠一首歌火遍全國,37歲高齡產(chǎn)子,和前夫離婚后如今她怎樣了

冷紫葉
2025-11-13 16:37:48
原價(jià)1.8萬的華為折疊屏,如今1折都不要!搭載麒麟9000芯片

原價(jià)1.8萬的華為折疊屏,如今1折都不要!搭載麒麟9000芯片

閑搞機(jī)
2025-11-13 11:06:43
人心大快!小S被曝已沒收入,節(jié)目嘉賓罷錄,遭反噬代言全掉光

人心大快!小S被曝已沒收入,節(jié)目嘉賓罷錄,遭反噬代言全掉光

八星人
2025-11-14 10:47:02
經(jīng)典黑白配還能這么穿?小姐姐的白背心黑瑜伽褲,成熟嫵媚又舒適

經(jīng)典黑白配還能這么穿?小姐姐的白背心黑瑜伽褲,成熟嫵媚又舒適

小喬古裝漢服
2025-11-10 13:44:01
全運(yùn)會(huì)最新金牌獎(jiǎng)牌榜15日賽程,山東一日無金,江浙狂飆緊追廣東

全運(yùn)會(huì)最新金牌獎(jiǎng)牌榜15日賽程,山東一日無金,江浙狂飆緊追廣東

天涯遠(yuǎn)行人
2025-11-15 01:40:20
4-1!550萬人口小國沸騰了:世預(yù)賽7戰(zhàn)全勝領(lǐng)跑!近乎直通世界杯

4-1!550萬人口小國沸騰了:世預(yù)賽7戰(zhàn)全勝領(lǐng)跑!近乎直通世界杯

球場(chǎng)沒跑道
2025-11-14 09:00:30
剛威脅驅(qū)逐中國外交官,日本就收到"大禮":隱身無人機(jī)攜殲20現(xiàn)身

剛威脅驅(qū)逐中國外交官,日本就收到"大禮":隱身無人機(jī)攜殲20現(xiàn)身

一個(gè)有靈魂的作者
2025-11-14 20:35:41
游樂場(chǎng)里寶媽走光了自己卻沒察覺?這場(chǎng)景看著尷尬

游樂場(chǎng)里寶媽走光了自己卻沒察覺?這場(chǎng)景看著尷尬

沒有偏旁的常慶
2025-10-31 07:20:21
死得絕望!搖滾女歌手阿珍離世,長得漂亮!遭座椅擠壓,肋骨斷裂

死得絕望!搖滾女歌手阿珍離世,長得漂亮!遭座椅擠壓,肋骨斷裂

鋭娛之樂
2025-11-14 13:51:56
美預(yù)言家朱迪再爆猛料:美日中命運(yùn)已定,此島將首遭災(zāi)

美預(yù)言家朱迪再爆猛料:美日中命運(yùn)已定,此島將首遭災(zāi)

心靈短笛
2025-05-15 15:12:03
官方披露:夏某受境外組織派遣,以“提供醫(yī)療援助”等名義為掩護(hù),深入我西南山區(qū),暗中搜集軍事管理區(qū)數(shù)據(jù)

官方披露:夏某受境外組織派遣,以“提供醫(yī)療援助”等名義為掩護(hù),深入我西南山區(qū),暗中搜集軍事管理區(qū)數(shù)據(jù)

魯中晨報(bào)
2025-11-13 15:59:03
上海已確認(rèn):又一區(qū)發(fā)"房票"+15%補(bǔ)貼!市民期盼

上海已確認(rèn):又一區(qū)發(fā)"房票"+15%補(bǔ)貼!市民期盼

看看新聞Knews
2025-11-14 18:32:08
我業(yè)績第一年終獎(jiǎng)5000,同事摸魚拿5萬,我辭職走人后主管傻眼了

我業(yè)績第一年終獎(jiǎng)5000,同事摸魚拿5萬,我辭職走人后主管傻眼了

農(nóng)村情感故事
2025-11-08 15:18:49
2025-11-15 06:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11720文章數(shù) 142505關(guān)注度
往期回顧 全部

科技要聞

京東“失去的五年”后,找到新增長了嗎?

頭條要聞

中方連發(fā)六張雙語海報(bào)@高市早苗 媒體:總該看懂了吧

頭條要聞

中方連發(fā)六張雙語海報(bào)@高市早苗 媒體:總該看懂了吧

體育要聞

7-0狂勝!15萬人口小島離世界杯只差1分

娛樂要聞

王家衛(wèi)讓古二替秦雯寫劇情主線?

財(cái)經(jīng)要聞

財(cái)政部:加強(qiáng)逆周期和跨周期調(diào)節(jié)

汽車要聞

小鵬X9超級(jí)增程動(dòng)態(tài)評(píng)測(cè)全網(wǎng)首發(fā) 高速實(shí)測(cè)車內(nèi)65分貝

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
游戲
公開課
軍事航空

數(shù)碼要聞

小米發(fā)布Xiaomi Miloco,探索大模型驅(qū)動(dòng)全屋智能生活

藝術(shù)要聞

中國唯一建在溫泉上的城市,常年22℃,銀杏美了千年

遲遲沒有Switch2版!這三款任天堂第一方游戲太可惜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

國防部:日方若膽敢鋌而走險(xiǎn)必將碰得頭破血流

無障礙瀏覽 進(jìn)入關(guān)懷版 国产一区二区三区乱码在线观看| 国产乱妇乱子在线视频| 久久精品国产九一九九九| 入屄视频 欧美| 亚洲一区在线观看av| 欧美一区二区人人喊爽| Av观看网址| 岛国岛国免费v片在线观看| 东北嫖妓老熟妇| 美女爽到高潮嗷嗷嗷叫免费网站 | 久久久久久成人毛片免费看| 色窝窝m3u8| 国产亚洲高潮精品| 国产成人a人亚洲精品无码| 亚洲av毛片一区二区三区| 玩弄少妇肉体到高潮动态图| 人人草人人干人人草| 欲求不満の人妻松下纱荣子| 婷婷社区五月丁香| 六月天色婷婷| 99精品国产一区二区三区| 啪啪啪视频免费| 久久久久久国产精品无码下载| 国产熟女高潮露脸| 国产精品制服丝袜无码| www视频爽| 亚洲综合成人av一区在线观看 | 中文字字幕在线一区二区三区| 男女真实毛片视频图片| 国产精品麻豆va在线播放 | 精品无码人妻夜人多侵犯18 | 亚洲狠狠色丁香婷婷综合| 日韩精品成人亚洲专区在线电影 | 亚洲AV成人无码久久精品在现| 国产成人午夜精华液| 欧美日韩性爱视频| 国产精成人品日日拍夜夜| 一个人看的视频www在线观看免费 国产精品爽爽久久久久久 | 亚洲天堂资源一区| 超碰人妻护士| 久久久久久久,九七|