夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICCV 2025 | HERMES:首個統(tǒng)一3D場景理解與生成的世界模型

0
分享至



本文第一作者周鑫、共同第一作者梁定康,均為華中科技大學博士生,導師為白翔教授。合作者包括華中科技大學涂思凡,曠視科技丁宜康,邁馳智行陳習武、譚飛楊,香港大學趙恒爽助理教授。



在復雜的城市場景中,HERMES 不僅能準確預(yù)測未來三秒的車輛與環(huán)境動態(tài)(如紅圈中標注的貨車),還能對當前場景進行深度理解和問答(如準確識別出 “星巴克” 并描述路況)。



  • 論文標題:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
  • 論文地址:https://arxiv.org/abs/2501.14729
  • 代碼地址:https://github.com/LMD0311/HERMES
  • 項目主頁:https://LMD0311.github.io/HERMES/

研究背景與動機

近年來,自動駕駛技術(shù)取得了令人矚目的進展。要讓智能汽車安全高效地行駛在復雜的真實道路上,車輛必須具備兩大核心能力:對當前環(huán)境的深刻理解(例如識別交通參與者、理解交通規(guī)則、推理場景語義)以及對未來場景的準確預(yù)測(如預(yù)測行人、車輛的運動,提前規(guī)避風險)。

目前,學術(shù)界和工業(yè)界的主流方案往往將 “理解” 和 “生成” 分開處理:



  • 世界模型(Driving World Model, DWM)側(cè)重于未來場景的生成與預(yù)測,但缺乏對當前環(huán)境的細致語義理解,難以回答 “現(xiàn)在是什么情況?”、“駕駛員該如何決策?” 等問題。

  • 大語言模型(LLM)及視覺 - 語言模型(VLM)則在場景理解、問答和描述方面表現(xiàn)優(yōu)異,但通常只能 “看懂”,卻難以 “想象” 未來場景的演化。

然而,現(xiàn)實中的自動駕駛決策,恰恰需要這兩種能力的深度融合。例如,車輛不僅要能描述 “前方有行人正在通過斑馬線”,還要能預(yù)測 “3 秒后這位行人將到達路中央,需提前減速”。

構(gòu)建這樣一個統(tǒng)一的模型面臨著諸多挑戰(zhàn):

首先,如何將多達六路的高分辨率環(huán)視圖像高效地輸入給有 token 長度限制的 LLM,并保持空間信息不失真?

其次,如何在一個模型內(nèi),讓 “理解” 和 “生成” 這兩個看似獨立的任務(wù)能夠相互促進,而非相互干擾?如何將強大的世界知識與前瞻性的場景預(yù)測無縫集成到一個統(tǒng)一的框架中,成為亟需突破的難點。

方法:HERMES 的統(tǒng)一框架

面對上述挑戰(zhàn),HERMES 提出了一個統(tǒng)一框架,其核心設(shè)計思想是通過一個共享的 LLM,同時驅(qū)動理解與生成兩大任務(wù)。

HERMES 的核心設(shè)計



鳥瞰圖(BEV)特征統(tǒng)一空間

HERMES 采用 Bird’s-Eye View(BEV,鳥瞰圖)作為統(tǒng)一的場景表達。它首先通過一個 BEV Tokenizer 將六路環(huán)視圖像高效地編碼并投影到一個緊湊的俯視視角表征中。這種做法不僅有效解決了 LLM 輸入長度的限制,更重要的是保留了多視圖圖像之間的精確空間幾何關(guān)系和豐富的語義細節(jié)。無論后續(xù)任務(wù)是理解還是生成,模型都能在同一套高質(zhì)量的 BEV 特征空間中自由切換,為后續(xù)的統(tǒng)一處理奠定了堅實基礎(chǔ)。

世界查詢與 “當前 - 未來” 連接

為了打破理解與生成之間的壁壘,HERMES 引入了世界查詢(World Queries)機制。這是一組從 BEV 特征中通過自適應(yīng)采樣(如最大池化)提取出的、代表場景核心信息的可學習 Token。其工作流程如下:

1.知識注入:將 BEV 特征通過自適應(yīng)采樣(如最大池化)轉(zhuǎn)化為一組表達世界知識的查詢向量,再把世界查詢與 BEV 特征、用戶文本指令一同被送入 LLM。在 LLM 處理語言理解任務(wù)(如回答問題)的過程中,世界查詢通過因果注意力機制(causal attention)吸收和編碼了關(guān)于當前場景的豐富世界知識和上下文信息。

2.知識傳遞:經(jīng)過 LLM 處理后,這些富含知識的世界查詢被一個 “當前 - 未來” 連接模塊(Current to Future Link)所使用。該模塊通過交叉注意力將世界查詢中蘊含的 “理解” 成果,有效地注入到對未來場景的預(yù)測中,引導模型生成未來多幀的 BEV 特征。

3.統(tǒng)一輸出:最終,一個共享的渲染器(Shared Render)將當前和未來的 BEV 特征解碼為 3D 點云序列,同時完成對當前場景的理解和對未來場景的生成。

聯(lián)合訓練與優(yōu)化

HERMES 的訓練過程同樣體現(xiàn)了其統(tǒng)一性。模型通過兩個目標進行聯(lián)合優(yōu)化:

1.語言建模損失:采用標準的 Next Token Prediction 損失函數(shù),優(yōu)化模型在場景理解、問答和描述任務(wù)上的能力。

2.點云生成損失:采用 L1 損失函數(shù),監(jiān)督模型生成的當前及未來點云與真實點云之間的差異,優(yōu)化生成精度。

通過這種端到端的聯(lián)合訓練,HERMES 得以在兩個任務(wù)之間找到最佳平衡點,實現(xiàn)性能的協(xié)同提升。

實驗結(jié)果與可視化分析

多任務(wù)對比實驗



HERMES 在 nuScenes、OmniDrive-nuScenes 數(shù)據(jù)集上,評測了場景理解和未來生成兩大任務(wù)。

  • 在未來生成任務(wù)上,Chamfer Distance 顯著優(yōu)于 ViDAR,3 秒未來點云誤差降低 32.4%,僅用當前幀即可實現(xiàn)更高精度的未來預(yù)測。與同類模型相比,HERMES 無需歷史序列,推理更高效,泛化能力更強。

  • 在場景描述、視覺問答等理解任務(wù)上,HERMES 在 CIDEr、METEOR、ROUGE 等主流自然語言生成指標上超越了 OmniDrive 等理解專用模型,CIDEr 提升 8%。

  • HERMES 與 “分離式理解 + 生成” 模型(即簡單共享特征,但理解和生成模塊獨立)對比,生成精度提升顯著,理解能力無損,充分驗證了統(tǒng)一建模的有效性與優(yōu)越性。

可視化

HERMES 不僅能夠生成時序連貫且?guī)缀尉_的未來點云,還能對駕駛場景的細節(jié)進行精準描述。無論是預(yù)測動態(tài)物體的移動,還是識別路邊的商家,HERMES 都展現(xiàn)出強大的綜合能力。更多可視化結(jié)果請訪問項目主頁。



總結(jié)與未來展望

HERMES 為自動駕駛世界模型提供了一個簡潔、有效且統(tǒng)一的新范式。它通過利用 BEV 表征和世界查詢,成功彌合了 3D 場景理解與未來生成之間的鴻溝,為開發(fā)更智能、更可靠的自動駕駛系統(tǒng)邁出了堅實的一步。

未來,期望在此框架下進一步探索更復雜的感知任務(wù),向著能夠全面認知物理世界的通用駕駛大模型的目標不斷邁進。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
越南找誰修高鐵,不必演給中國看,100%技術(shù)轉(zhuǎn)讓,日韓誰愛誰接盤

越南找誰修高鐵,不必演給中國看,100%技術(shù)轉(zhuǎn)讓,日韓誰愛誰接盤

華山穹劍
2025-08-15 20:34:44
小米空調(diào)太嚇人了

小米空調(diào)太嚇人了

通信老柳
2025-08-15 21:43:37
又一巨頭離場!索尼官宣退出中國,外企撤離加速,央媒發(fā)出警告

又一巨頭離場!索尼官宣退出中國,外企撤離加速,央媒發(fā)出警告

毒sir財經(jīng)
2025-08-15 13:36:25
“3女帶4孩續(xù)面”老板刪除相關(guān)視頻,本人回應(yīng)店面700余條差評,并稱本周六將最后一天給帶孩子的顧客免費續(xù)面

“3女帶4孩續(xù)面”老板刪除相關(guān)視頻,本人回應(yīng)店面700余條差評,并稱本周六將最后一天給帶孩子的顧客免費續(xù)面

極目新聞
2025-08-15 18:27:02
美俄領(lǐng)導人即將會晤之際,俄烏兩軍緣何大打出手?

美俄領(lǐng)導人即將會晤之際,俄烏兩軍緣何大打出手?

澎湃新聞
2025-08-15 21:46:34
鏈家網(wǎng)隱藏了上海所有二手房成交價,顯然是為了緩解房東的恐慌情緒

鏈家網(wǎng)隱藏了上海所有二手房成交價,顯然是為了緩解房東的恐慌情緒

樂居財經(jīng)官方
2025-08-14 14:33:33
剛剛,多家知名制造、出口企業(yè)發(fā)出停業(yè)、解散及清算通知

剛剛,多家知名制造、出口企業(yè)發(fā)出停業(yè)、解散及清算通知

壹航運
2025-08-15 15:06:41
謝謝趙露思,貢獻出25年內(nèi)娛的第一個笑話!

謝謝趙露思,貢獻出25年內(nèi)娛的第一個笑話!

八卦南風
2025-08-14 15:49:18
特朗普狂挖中國墻角,巴鐵不斷向美靠攏,對半個世界發(fā)出核威脅

特朗普狂挖中國墻角,巴鐵不斷向美靠攏,對半個世界發(fā)出核威脅

空天力量
2025-08-15 17:16:24
娃哈哈集團涉嫌國有資產(chǎn)流失調(diào)查報告/涉嫌國資損失或超400億元

娃哈哈集團涉嫌國有資產(chǎn)流失調(diào)查報告/涉嫌國資損失或超400億元

新浪財經(jīng)
2025-08-16 00:08:54
深圳千人大廠解散,社保一年2千萬!員工聲討維權(quán) 要求賠償解散費

深圳千人大廠解散,社保一年2千萬!員工聲討維權(quán) 要求賠償解散費

行者聊官
2025-08-14 14:43:47
兩年前的一篇文章,關(guān)于養(yǎng)老金,是真敢說啊

兩年前的一篇文章,關(guān)于養(yǎng)老金,是真敢說啊

小蘿卜絲
2025-08-15 20:04:50
外媒:特朗普將以最高禮遇接待普京

外媒:特朗普將以最高禮遇接待普京

參考消息
2025-08-15 21:45:10
宣布退網(wǎng)!中國男子在巴鐵8年,花千萬扶貧,妻兒出事后無奈回國

宣布退網(wǎng)!中國男子在巴鐵8年,花千萬扶貧,妻兒出事后無奈回國

新語愛八卦
2025-08-13 15:00:49
2桿147!奧沙利文6-3韋克林晉級沙特大師賽決賽

2桿147!奧沙利文6-3韋克林晉級沙特大師賽決賽

懂球帝
2025-08-16 04:35:10
相繼送走9旬父母后,才65歲的我,做出了一個決定:以后不養(yǎng)老了

相繼送走9旬父母后,才65歲的我,做出了一個決定:以后不養(yǎng)老了

小馬達情感故事
2025-08-15 17:55:03
四年賠光64億,華誼兄弟的倒臺,從背刺周星馳的時候,就早有預(yù)兆

四年賠光64億,華誼兄弟的倒臺,從背刺周星馳的時候,就早有預(yù)兆

查爾菲的筆記
2025-08-15 13:25:33
外賣大戰(zhàn),潮汕幫的一次大潰敗

外賣大戰(zhàn),潮汕幫的一次大潰敗

智谷趨勢
2025-08-15 19:37:18
國防部要求菲方立即停止侵權(quán)挑釁言行

國防部要求菲方立即停止侵權(quán)挑釁言行

環(huán)球網(wǎng)資訊
2025-08-15 15:06:11
祝好!32歲中超隊主力遭車禍 頭部骨折+暫無生命危險 曾入選國奧

祝好!32歲中超隊主力遭車禍 頭部骨折+暫無生命危險 曾入選國奧

我愛英超
2025-08-15 20:06:13
2025-08-16 07:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11096文章數(shù) 142418關(guān)注度
往期回顧 全部

科技要聞

人形機器人400米決賽:宇樹冠軍 天工第2第3

頭條要聞

美俄總統(tǒng)阿拉斯加小范圍會談結(jié)束

頭條要聞

美俄總統(tǒng)阿拉斯加小范圍會談結(jié)束

體育要聞

戰(zhàn)勝韓國后,隊長趙睿吐露心聲

娛樂要聞

于正爆《前任》導演潛規(guī)則!

財經(jīng)要聞

90后新首富撒錢慶功 A股900億巨頭致歉

汽車要聞

半年營收首破1500億 吉利的下一站:突擊海外

態(tài)度原創(chuàng)

教育
親子
數(shù)碼
公開課
軍事航空

教育要聞

瞠目結(jié)舌!農(nóng)村小學教師選調(diào)縣城初中,1分都能入圍

親子要聞

“啊~”萌娃看姥爺切西瓜,每一刀都有甜甜的回應(yīng)?? #睡個好覺

數(shù)碼要聞

不到200元,華為平板、智能手表等新品開啟預(yù)售

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒:蘇-57與F-22或在阿拉斯加空域首次正面相遇

無障礙瀏覽 進入關(guān)懷版 邻居少妇张开腿让我爽了在线观看| 亚在线观看免费视频入口| 国产大屁股视频免费区| 1000部国产高清在线观看视频| 波多野结衣免费一区视频| 国产精品二线| 啊,舔的好舒服视频| 东北丰满少妇多毛大隂户| 日本三级图片网址| 久久性狠干影院| 亚洲日韩精品欧美中文字幕| 国内少妇高潮嗷嗷叫正在播放| 亚洲无码一二三| 欧美人与动牲交zooz3d| 亚训成人AV一区| 亚欧成人精品一区二区乱| 国产无遮挡裸体免费视频| 中文字幕AV不卡电影网| 久久精品国产99久久久| 亚洲成av人在线观看网站| 天天亚洲综合| 无码av毛片一区二区三区| 国产区一区二区| 精品国产电影久久九九| 日本丰满大乳人妻| 国产激情在观看| 亚洲综合一二三区| 樱桃视频大全免费高清版观看下载| 久久久亚洲AV波多野结衣苍井空| 久久五月精品中文字幕| 日韩欧美猛交xxxxx无码| 精品国产午夜福利在线观看| 欧美变态口味重另类在线视频| 欧美熟妇的荡欲未删减版电影 | 娇妻被交换粗又大又硬视频| 2022无码| 久久国产亚洲AV无码四区色欲| 无码人妻少妇久久中文字幕蜜桃| 亚洲成人无码下载区| 永久免费观看的毛片视频| 亚洲视频99|