網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

ICCV 2025 | HERMES：首個統(tǒng)一3D場景理解與生成的世界模型

2025-08-14 17:21:51　來源: 機器之心Pro

內(nèi)蒙古舉報

分享至

本文第一作者周鑫、共同第一作者梁定康，均為華中科技大學博士生，導師為白翔教授。合作者包括華中科技大學涂思凡，曠視科技丁宜康，邁馳智行陳習武、譚飛楊，香港大學趙恒爽助理教授。

在復雜的城市場景中，HERMES 不僅能準確預(yù)測未來三秒的車輛與環(huán)境動態(tài)（如紅圈中標注的貨車），還能對當前場景進行深度理解和問答（如準確識別出 “星巴克” 并描述路況）。

論文標題：HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
論文地址：https://arxiv.org/abs/2501.14729
代碼地址：https://github.com/LMD0311/HERMES
項目主頁：https://LMD0311.github.io/HERMES/

研究背景與動機

近年來，自動駕駛技術(shù)取得了令人矚目的進展。要讓智能汽車安全高效地行駛在復雜的真實道路上，車輛必須具備兩大核心能力：對當前環(huán)境的深刻理解（例如識別交通參與者、理解交通規(guī)則、推理場景語義）以及對未來場景的準確預(yù)測（如預(yù)測行人、車輛的運動，提前規(guī)避風險）。

目前，學術(shù)界和工業(yè)界的主流方案往往將 “理解” 和 “生成” 分開處理：

世界模型（Driving World Model, DWM）側(cè)重于未來場景的生成與預(yù)測，但缺乏對當前環(huán)境的細致語義理解，難以回答 “現(xiàn)在是什么情況？”、“駕駛員該如何決策？” 等問題。
大語言模型（LLM）及視覺 - 語言模型（VLM）則在場景理解、問答和描述方面表現(xiàn)優(yōu)異，但通常只能 “看懂”，卻難以 “想象” 未來場景的演化。

然而，現(xiàn)實中的自動駕駛決策，恰恰需要這兩種能力的深度融合。例如，車輛不僅要能描述 “前方有行人正在通過斑馬線”，還要能預(yù)測 “3 秒后這位行人將到達路中央，需提前減速”。

構(gòu)建這樣一個統(tǒng)一的模型面臨著諸多挑戰(zhàn)：

首先，如何將多達六路的高分辨率環(huán)視圖像高效地輸入給有 token 長度限制的 LLM，并保持空間信息不失真？

其次，如何在一個模型內(nèi)，讓 “理解” 和 “生成” 這兩個看似獨立的任務(wù)能夠相互促進，而非相互干擾？如何將強大的世界知識與前瞻性的場景預(yù)測無縫集成到一個統(tǒng)一的框架中，成為亟需突破的難點。

方法：HERMES 的統(tǒng)一框架

面對上述挑戰(zhàn)，HERMES 提出了一個統(tǒng)一框架，其核心設(shè)計思想是通過一個共享的 LLM，同時驅(qū)動理解與生成兩大任務(wù)。

HERMES 的核心設(shè)計

鳥瞰圖（BEV）特征統(tǒng)一空間

HERMES 采用 Bird’s-Eye View（BEV，鳥瞰圖）作為統(tǒng)一的場景表達。它首先通過一個 BEV Tokenizer 將六路環(huán)視圖像高效地編碼并投影到一個緊湊的俯視視角表征中。這種做法不僅有效解決了 LLM 輸入長度的限制，更重要的是保留了多視圖圖像之間的精確空間幾何關(guān)系和豐富的語義細節(jié)。無論后續(xù)任務(wù)是理解還是生成，模型都能在同一套高質(zhì)量的 BEV 特征空間中自由切換，為后續(xù)的統(tǒng)一處理奠定了堅實基礎(chǔ)。

世界查詢與 “當前 - 未來” 連接

為了打破理解與生成之間的壁壘，HERMES 引入了世界查詢（World Queries）機制。這是一組從 BEV 特征中通過自適應(yīng)采樣（如最大池化）提取出的、代表場景核心信息的可學習 Token。其工作流程如下：

1.知識注入：將 BEV 特征通過自適應(yīng)采樣（如最大池化）轉(zhuǎn)化為一組表達世界知識的查詢向量，再把世界查詢與 BEV 特征、用戶文本指令一同被送入 LLM。在 LLM 處理語言理解任務(wù)（如回答問題）的過程中，世界查詢通過因果注意力機制（causal attention）吸收和編碼了關(guān)于當前場景的豐富世界知識和上下文信息。

2.知識傳遞：經(jīng)過 LLM 處理后，這些富含知識的世界查詢被一個 “當前 - 未來” 連接模塊（Current to Future Link）所使用。該模塊通過交叉注意力將世界查詢中蘊含的 “理解” 成果，有效地注入到對未來場景的預(yù)測中，引導模型生成未來多幀的 BEV 特征。

3.統(tǒng)一輸出：最終，一個共享的渲染器（Shared Render）將當前和未來的 BEV 特征解碼為 3D 點云序列，同時完成對當前場景的理解和對未來場景的生成。

聯(lián)合訓練與優(yōu)化

HERMES 的訓練過程同樣體現(xiàn)了其統(tǒng)一性。模型通過兩個目標進行聯(lián)合優(yōu)化：

1.語言建模損失：采用標準的 Next Token Prediction 損失函數(shù)，優(yōu)化模型在場景理解、問答和描述任務(wù)上的能力。

2.點云生成損失：采用 L1 損失函數(shù)，監(jiān)督模型生成的當前及未來點云與真實點云之間的差異，優(yōu)化生成精度。

通過這種端到端的聯(lián)合訓練，HERMES 得以在兩個任務(wù)之間找到最佳平衡點，實現(xiàn)性能的協(xié)同提升。

實驗結(jié)果與可視化分析

多任務(wù)對比實驗

HERMES 在 nuScenes、OmniDrive-nuScenes 數(shù)據(jù)集上，評測了場景理解和未來生成兩大任務(wù)。

在未來生成任務(wù)上，Chamfer Distance 顯著優(yōu)于 ViDAR，3 秒未來點云誤差降低 32.4%，僅用當前幀即可實現(xiàn)更高精度的未來預(yù)測。與同類模型相比，HERMES 無需歷史序列，推理更高效，泛化能力更強。
在場景描述、視覺問答等理解任務(wù)上，HERMES 在 CIDEr、METEOR、ROUGE 等主流自然語言生成指標上超越了 OmniDrive 等理解專用模型，CIDEr 提升 8%。
HERMES 與 “分離式理解 + 生成” 模型（即簡單共享特征，但理解和生成模塊獨立）對比，生成精度提升顯著，理解能力無損，充分驗證了統(tǒng)一建模的有效性與優(yōu)越性。

可視化

HERMES 不僅能夠生成時序連貫且?guī)缀尉_的未來點云，還能對駕駛場景的細節(jié)進行精準描述。無論是預(yù)測動態(tài)物體的移動，還是識別路邊的商家，HERMES 都展現(xiàn)出強大的綜合能力。更多可視化結(jié)果請訪問項目主頁。

總結(jié)與未來展望

HERMES 為自動駕駛世界模型提供了一個簡潔、有效且統(tǒng)一的新范式。它通過利用 BEV 表征和世界查詢，成功彌合了 3D 場景理解與未來生成之間的鴻溝，為開發(fā)更智能、更可靠的自動駕駛系統(tǒng)邁出了堅實的一步。

未來，期望在此框架下進一步探索更復雜的感知任務(wù)，向著能夠全面認知物理世界的通用駕駛大模型的目標不斷邁進。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.