本文第一作者周鑫、共同第一作者梁定康,均為華中科技大學博士生,導師為白翔教授。合作者包括華中科技大學涂思凡,曠視科技丁宜康,邁馳智行陳習武、譚飛楊,香港大學趙恒爽助理教授。
在復雜的城市場景中,HERMES 不僅能準確預(yù)測未來三秒的車輛與環(huán)境動態(tài)(如紅圈中標注的貨車),還能對當前場景進行深度理解和問答(如準確識別出 “星巴克” 并描述路況)。
- 論文標題:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation
- 論文地址:https://arxiv.org/abs/2501.14729
- 代碼地址:https://github.com/LMD0311/HERMES
- 項目主頁:https://LMD0311.github.io/HERMES/
研究背景與動機
近年來,自動駕駛技術(shù)取得了令人矚目的進展。要讓智能汽車安全高效地行駛在復雜的真實道路上,車輛必須具備兩大核心能力:對當前環(huán)境的深刻理解(例如識別交通參與者、理解交通規(guī)則、推理場景語義)以及對未來場景的準確預(yù)測(如預(yù)測行人、車輛的運動,提前規(guī)避風險)。
目前,學術(shù)界和工業(yè)界的主流方案往往將 “理解” 和 “生成” 分開處理:
- 世界模型(Driving World Model, DWM)側(cè)重于未來場景的生成與預(yù)測,但缺乏對當前環(huán)境的細致語義理解,難以回答 “現(xiàn)在是什么情況?”、“駕駛員該如何決策?” 等問題。
- 大語言模型(LLM)及視覺 - 語言模型(VLM)則在場景理解、問答和描述方面表現(xiàn)優(yōu)異,但通常只能 “看懂”,卻難以 “想象” 未來場景的演化。
然而,現(xiàn)實中的自動駕駛決策,恰恰需要這兩種能力的深度融合。例如,車輛不僅要能描述 “前方有行人正在通過斑馬線”,還要能預(yù)測 “3 秒后這位行人將到達路中央,需提前減速”。
構(gòu)建這樣一個統(tǒng)一的模型面臨著諸多挑戰(zhàn):
首先,如何將多達六路的高分辨率環(huán)視圖像高效地輸入給有 token 長度限制的 LLM,并保持空間信息不失真?
其次,如何在一個模型內(nèi),讓 “理解” 和 “生成” 這兩個看似獨立的任務(wù)能夠相互促進,而非相互干擾?如何將強大的世界知識與前瞻性的場景預(yù)測無縫集成到一個統(tǒng)一的框架中,成為亟需突破的難點。
方法:HERMES 的統(tǒng)一框架
面對上述挑戰(zhàn),HERMES 提出了一個統(tǒng)一框架,其核心設(shè)計思想是通過一個共享的 LLM,同時驅(qū)動理解與生成兩大任務(wù)。
HERMES 的核心設(shè)計
鳥瞰圖(BEV)特征統(tǒng)一空間
HERMES 采用 Bird’s-Eye View(BEV,鳥瞰圖)作為統(tǒng)一的場景表達。它首先通過一個 BEV Tokenizer 將六路環(huán)視圖像高效地編碼并投影到一個緊湊的俯視視角表征中。這種做法不僅有效解決了 LLM 輸入長度的限制,更重要的是保留了多視圖圖像之間的精確空間幾何關(guān)系和豐富的語義細節(jié)。無論后續(xù)任務(wù)是理解還是生成,模型都能在同一套高質(zhì)量的 BEV 特征空間中自由切換,為后續(xù)的統(tǒng)一處理奠定了堅實基礎(chǔ)。
世界查詢與 “當前 - 未來” 連接
為了打破理解與生成之間的壁壘,HERMES 引入了世界查詢(World Queries)機制。這是一組從 BEV 特征中通過自適應(yīng)采樣(如最大池化)提取出的、代表場景核心信息的可學習 Token。其工作流程如下:
1.知識注入:將 BEV 特征通過自適應(yīng)采樣(如最大池化)轉(zhuǎn)化為一組表達世界知識的查詢向量,再把世界查詢與 BEV 特征、用戶文本指令一同被送入 LLM。在 LLM 處理語言理解任務(wù)(如回答問題)的過程中,世界查詢通過因果注意力機制(causal attention)吸收和編碼了關(guān)于當前場景的豐富世界知識和上下文信息。
2.知識傳遞:經(jīng)過 LLM 處理后,這些富含知識的世界查詢被一個 “當前 - 未來” 連接模塊(Current to Future Link)所使用。該模塊通過交叉注意力將世界查詢中蘊含的 “理解” 成果,有效地注入到對未來場景的預(yù)測中,引導模型生成未來多幀的 BEV 特征。
3.統(tǒng)一輸出:最終,一個共享的渲染器(Shared Render)將當前和未來的 BEV 特征解碼為 3D 點云序列,同時完成對當前場景的理解和對未來場景的生成。
聯(lián)合訓練與優(yōu)化
HERMES 的訓練過程同樣體現(xiàn)了其統(tǒng)一性。模型通過兩個目標進行聯(lián)合優(yōu)化:
1.語言建模損失:采用標準的 Next Token Prediction 損失函數(shù),優(yōu)化模型在場景理解、問答和描述任務(wù)上的能力。
2.點云生成損失:采用 L1 損失函數(shù),監(jiān)督模型生成的當前及未來點云與真實點云之間的差異,優(yōu)化生成精度。
通過這種端到端的聯(lián)合訓練,HERMES 得以在兩個任務(wù)之間找到最佳平衡點,實現(xiàn)性能的協(xié)同提升。
實驗結(jié)果與可視化分析
多任務(wù)對比實驗
HERMES 在 nuScenes、OmniDrive-nuScenes 數(shù)據(jù)集上,評測了場景理解和未來生成兩大任務(wù)。
- 在未來生成任務(wù)上,Chamfer Distance 顯著優(yōu)于 ViDAR,3 秒未來點云誤差降低 32.4%,僅用當前幀即可實現(xiàn)更高精度的未來預(yù)測。與同類模型相比,HERMES 無需歷史序列,推理更高效,泛化能力更強。
- 在場景描述、視覺問答等理解任務(wù)上,HERMES 在 CIDEr、METEOR、ROUGE 等主流自然語言生成指標上超越了 OmniDrive 等理解專用模型,CIDEr 提升 8%。
- HERMES 與 “分離式理解 + 生成” 模型(即簡單共享特征,但理解和生成模塊獨立)對比,生成精度提升顯著,理解能力無損,充分驗證了統(tǒng)一建模的有效性與優(yōu)越性。
可視化
HERMES 不僅能夠生成時序連貫且?guī)缀尉_的未來點云,還能對駕駛場景的細節(jié)進行精準描述。無論是預(yù)測動態(tài)物體的移動,還是識別路邊的商家,HERMES 都展現(xiàn)出強大的綜合能力。更多可視化結(jié)果請訪問項目主頁。
總結(jié)與未來展望
HERMES 為自動駕駛世界模型提供了一個簡潔、有效且統(tǒng)一的新范式。它通過利用 BEV 表征和世界查詢,成功彌合了 3D 場景理解與未來生成之間的鴻溝,為開發(fā)更智能、更可靠的自動駕駛系統(tǒng)邁出了堅實的一步。
未來,期望在此框架下進一步探索更復雜的感知任務(wù),向著能夠全面認知物理世界的通用駕駛大模型的目標不斷邁進。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.