本文一作為陳驍,香港中文大學(xué) MMLab - 上海人工智能實(shí)驗(yàn)室具身智能中心聯(lián)培博士生,研究方向是三維計(jì)算機(jī)視覺和具身智能,導(dǎo)師為薛天帆教授。個(gè)人主頁:xiao-chen.tech/。
研究背景
當(dāng)人類走入陌生房間時(shí),會(huì)通過移動(dòng)和觀察來掌握室內(nèi)結(jié)構(gòu)。想象機(jī)器人被扔進(jìn)一個(gè)陌生場(chǎng)景:有的房間堆滿障礙,有的走廊九曲十八彎,它能像人類一樣主動(dòng)探索未知空間嗎?
盡管計(jì)算機(jī)視覺已賦予機(jī)器人強(qiáng)大的被動(dòng)技能,比如按預(yù)設(shè)拍攝軌跡實(shí)現(xiàn)同步定位建圖(SLAM),可一旦剝離所有提示,機(jī)器人卻可能淪為 “路癡”——
“門在哪?”“怎么繞過障礙物?”
“哪片區(qū)域還沒有探索過?”
“目標(biāo)最可能出現(xiàn)在哪片區(qū)域?”
“主動(dòng)探索” 這一智能基石,何以成為技術(shù)盲區(qū)?
經(jīng)典方案往往依賴人工預(yù)設(shè)的軌跡、視角與指令,而現(xiàn)有探索策略在陌生復(fù)雜場(chǎng)景中頻頻失效:機(jī)器人既可能在廢墟救援時(shí)因全局規(guī)劃缺失而卡死墻角,又容易在障礙密集的客廳中反復(fù)碰撞進(jìn)退維谷。當(dāng)機(jī)器人在此類復(fù)雜環(huán)境下運(yùn)轉(zhuǎn)時(shí),感知 - 決策 - 行動(dòng)閉環(huán)如何掙脫被動(dòng)依賴桎梏? 這正是下一代機(jī)器人跨越 “智能鴻溝” 的核心挑戰(zhàn)。
如何讓機(jī)器人在完全未知的復(fù)雜房間里自主探索?
針對(duì)移動(dòng)機(jī)器人在復(fù)雜未知環(huán)境中 “探索 - 建圖” 的泛化難題,香港中文大學(xué)與上海人工智能實(shí)驗(yàn)室聯(lián)合提出系統(tǒng)性解決方案:研究者們搭建了全球規(guī)模最大的“探索 - 建圖” 基準(zhǔn) GLEAM-Bench—— 該數(shù)據(jù)集涵蓋上千個(gè)室內(nèi)場(chǎng)景,并在此基礎(chǔ)上設(shè)計(jì)了通用可泛化的“探索 - 建圖” 策略GLEAM。該策略使機(jī)器人在完全陌生的復(fù)雜室內(nèi)環(huán)境中首次實(shí)現(xiàn)了高效安全的探索和精準(zhǔn)建圖,實(shí)現(xiàn)零樣本適配未知復(fù)雜空間,無需微調(diào)即達(dá)66.5% 平均場(chǎng)景覆蓋率。得益于大規(guī)模訓(xùn)練架構(gòu),GLEAM 較現(xiàn)有技術(shù)提升 9.49%。
- 論文標(biāo)題:GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes
- 項(xiàng)目主頁: https://xiao-chen.tech/gleam
- 代碼:https://github.com/zjwzcx/GLEAM
- 論文:https://arxiv.org/abs/2505.20294
方法效果
基線方法往往只能在空曠的單一場(chǎng)景內(nèi)探索,一旦面對(duì)家具等障礙物密集的多房間布局,難以保證跨房間探索的安全性和高效性。
相比之下,GLEAM 在來自三個(gè)室內(nèi)場(chǎng)景數(shù)據(jù)集的未知場(chǎng)景上展現(xiàn)了優(yōu)越的泛化能力。更為重要的是,GLEAM 首次體現(xiàn)了無需在新數(shù)據(jù)集上微調(diào)模型的零樣本泛化能力 —— 它能夠直接適配到全新的真實(shí)場(chǎng)景數(shù)據(jù)集(如 Matterport3D),而之前的方法通常局限于單一數(shù)據(jù)集或需要針對(duì)特定場(chǎng)景進(jìn)行參數(shù)調(diào)整。
數(shù)據(jù)和基準(zhǔn)
團(tuán)隊(duì)構(gòu)建了首個(gè)涵蓋千級(jí)(1152個(gè))復(fù)雜三維室內(nèi)場(chǎng)景的訓(xùn)練評(píng)測(cè)體系:GLEAM-Bench 基準(zhǔn)。完整的三維場(chǎng)景數(shù)據(jù)文件、預(yù)處理腳本和仿真相關(guān)的 API 均已開源。
GLEAM-Bench 涵蓋多種數(shù)據(jù)來源,包括
- 高質(zhì)量虛擬場(chǎng)景(ProcTHOR-10K、HSSD)
- 真實(shí)掃描數(shù)據(jù)集(Gibson、Matterport3D)
其中,兩個(gè)真實(shí)掃描數(shù)據(jù)集驗(yàn)證了 GLEAM 真實(shí)世界部署的潛力,ProcTHOR 提供了場(chǎng)景生成方法,可以批量制作豐富多樣的場(chǎng)景數(shù)據(jù)。
研究者嚴(yán)格篩選并預(yù)處理了所有三維場(chǎng)景數(shù)據(jù),數(shù)據(jù)特征包括:
- 拓?fù)溥B通性:確保場(chǎng)景中每個(gè)房間的可達(dá)性;
- 幾何水密性:選擇幾乎 100% 水密的場(chǎng)景,避免無人機(jī)穿過窗戶等特殊情況;
- 復(fù)雜度躍升:導(dǎo)航復(fù)雜度達(dá)到 11.35,包含高密度障礙與拓?fù)涿詫m等復(fù)雜結(jié)構(gòu)。
方法解讀
為攻克 “探索 - 建圖” 在未知復(fù)雜場(chǎng)景的泛化瓶頸與大規(guī)模訓(xùn)練的數(shù)據(jù)效率難題,GLEAM 架構(gòu)融合三大創(chuàng)新設(shè)計(jì):
- 語義認(rèn)知地圖
- 分層動(dòng)作空間
- 抗過擬合訓(xùn)練策略
1. 語義認(rèn)知地圖:讓機(jī)器理解 “未知”
為了使機(jī)器人在復(fù)雜環(huán)境中實(shí)現(xiàn)高效時(shí)空推理,研究者將環(huán)境解構(gòu)為任務(wù)導(dǎo)向的語義地圖表征,構(gòu)建了雙地圖系統(tǒng):
- 全局概率地圖:融合歷史觀測(cè)的貝葉斯占據(jù)柵格,動(dòng)態(tài)更新環(huán)境認(rèn)知;
- 局部語義地圖:以機(jī)器人為中心,在局部柵格概率地圖的基礎(chǔ)上,進(jìn)一步引入邊界檢測(cè)模塊,通過提取四元語義狀態(tài)(占據(jù) / 空閑 / 未知 /邊界)來強(qiáng)化探索導(dǎo)向。
同時(shí),研究者部署了輕量化 LocoTransformer 提煉語義地圖的空間關(guān)系,助力實(shí)時(shí)推理和建圖。
2. 分層動(dòng)作空間:直覺式長(zhǎng)程決策配合啟發(fā)式局部規(guī)劃器
研究者解耦了全局探索與局部避障:
- 高層決策(“去哪探索”):摒棄傳統(tǒng)局部移動(dòng)指令(如“前進(jìn) 10cm”),直接預(yù)測(cè)可達(dá)的長(zhǎng)程目標(biāo);
- 低層規(guī)劃(“目的地是否安全可達(dá)”):由輕量級(jí) A * 模塊保障,在實(shí)時(shí)更新的觀測(cè)空間內(nèi)驗(yàn)證目標(biāo)可達(dá)性,避免過于激進(jìn)或取巧的規(guī)劃策略。
這個(gè)設(shè)計(jì)極大提升了訓(xùn)練和推理效率, 并且確保了決策安全性與探索效率。
3. 隨機(jī)化 “抗過擬合” 訓(xùn)練
- 隨機(jī)初始化機(jī)器人位置:強(qiáng)制適應(yīng)任意初始位姿;
- 動(dòng)態(tài)輪換千級(jí)訓(xùn)練場(chǎng)景:訓(xùn)練中實(shí)時(shí)更換環(huán)境,鍛造跨域適應(yīng)能力。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,GLEAM 優(yōu)越的泛化性主要來源于四個(gè)要素:
- 大規(guī)模多樣化空間數(shù)據(jù)
- 豐富的任務(wù)特征
- 分層策略架構(gòu)
- 隨機(jī)化抗過擬合訓(xùn)練技巧
從以下表格可以看出,無論在虛擬場(chǎng)景還是真實(shí)場(chǎng)景上,GLEAM 在探索覆蓋率(Cov.),探索效率(AUC)和建圖精度(CD)三類指標(biāo)上均大幅超越之前的方法。
研究者分析了訓(xùn)練場(chǎng)景的數(shù)量、質(zhì)量和多樣性對(duì)測(cè)試結(jié)果的影響。從數(shù)量開始, 研究者們均勻地對(duì)每種類別的訓(xùn)練場(chǎng)景數(shù)量作下采樣, 測(cè)試結(jié)果如下:
符合直覺的是,隨著訓(xùn)練場(chǎng)景的數(shù)量從 32 按比例上升到 1024,GLEAM 在未知測(cè)試場(chǎng)景上的探索覆蓋率相關(guān)指標(biāo)呈穩(wěn)定上升趨勢(shì),同時(shí)建圖精度穩(wěn)定下降。
更進(jìn)一步,研究者解耦了訓(xùn)練場(chǎng)景的數(shù)量、復(fù)雜度和多樣性這三個(gè)要素:
有趣的是,只使用 192 個(gè)多房間 (>10) 訓(xùn)練場(chǎng)景的策略性能竟然高于 416 個(gè)少房間 (<6) 場(chǎng)景, 甚至已經(jīng)逼近完整 896 個(gè)訓(xùn)練場(chǎng)景的結(jié)果。可見,訓(xùn)練場(chǎng)景的復(fù)雜度顯著影響了策略的性能。
研究者在搭載單張 RTX 3090 顯卡的電腦上測(cè)試推理速度為 104.7Hz,證明了 GLEAM 在現(xiàn)實(shí)部署的潛力。
另外,研究者還進(jìn)行了抗噪聲測(cè)試和關(guān)鍵技術(shù)的消融實(shí)驗(yàn),證明了 GLEAM 的魯棒性和涉及特征提取、動(dòng)作空間和訓(xùn)練策略等方面的關(guān)鍵設(shè)計(jì)的有效性。
更多細(xì)節(jié)與結(jié)果請(qǐng)參閱原論文 (https://arxiv.org/abs/2505.20294) 與項(xiàng)目主頁 (https://xiao-chen.tech/gleam)。歡迎對(duì)該方向感興趣的讀者與作者交流探討!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.