文章來源:鼓搗AI
當(dāng)救災(zāi)機器人團隊進入坍塌的廠房,如何快速劃分探索區(qū)域、避免重復(fù)路徑?當(dāng)工業(yè)巡檢機器人需尋找隱藏的設(shè)備故障,如何通過人類一句“故障大概率在東北角落”的提示精準(zhǔn)定位?傳統(tǒng)多機器人系統(tǒng)(MRS)往往困于“局部決策冗余”“無法理解語義指令”的難題。近期投稿至ICRA 2026的論文《LLM-MCoX: Large Language Model-based Multi-robot Coordinated Exploration and Search》,提出了一套基于大語言模型(LLM)的集中式協(xié)同框架,用于解決這些痛點。
論文網(wǎng)址:
https://arxiv.org/pdf/2509.26324
論文摘要
機器人系統(tǒng)(MRS)在未知室內(nèi)環(huán)境中的自主探索與目標(biāo)搜索仍是一大挑戰(zhàn)。傳統(tǒng)方法通常依賴貪心前沿分配策略,機器人間的協(xié)調(diào)能力有限。本研究提出LLM-MCoX(基于大語言模型的多機器人協(xié)同探索與搜索框架),這是一種新型框架,利用大語言模型(LLM)實現(xiàn)同構(gòu)與異構(gòu)機器人團隊的智能協(xié)調(diào),使其能夠高效完成探索與目標(biāo)搜索任務(wù)。該方法將用于前沿聚類提取與門口檢測的實時激光雷達(LiDAR)掃描處理,與多模態(tài)LLM推理(如GPT-4o)相結(jié)合,基于共享環(huán)境地圖與機器人狀態(tài)生成協(xié)同路徑點分配方案。相較于貪心規(guī)劃器、基于沃羅諾伊(Voronoi)的規(guī)劃器等現(xiàn)有方法,LLM-MCoX展現(xiàn)出更優(yōu)性能:在包含6臺機器人的大型環(huán)境中,探索速度提升22.7%,搜索效率提高50%。值得注意的是,LLM-MCoX具備基于自然語言的目標(biāo)搜索能力,使操作人員能夠提供傳統(tǒng)算法無法解讀的高層語義指導(dǎo)。
多機器人探索的核心困境
在未知環(huán)境(如災(zāi)區(qū)、地下洞穴、大型廠房)中,多機器人的自主探索與目標(biāo)搜索一直是機器人領(lǐng)域的難點。傳統(tǒng)方法雖能完成基礎(chǔ)任務(wù),但存在一些難以突破的局限:
全局協(xié)調(diào)能力不足,探索效率低下
貪心分配策略 :多數(shù)方法按“機器人距離前沿最近”或“局部信息增益最高”分配任務(wù),導(dǎo)致部分機器人扎堆探索,部分區(qū)域無人問津(如小范圍前沿被漏檢);
Voronoi 分區(qū)(DVC) :雖能通過空間劃分平衡任務(wù),但需假設(shè)機器人初始均勻分布——這與實際場景中“機器人從同一入口部署”的情況完全不符,極易出現(xiàn) workload 失衡;
去中心化協(xié)調(diào) :拍賣法、勢場法等依賴機器人局部信息決策,缺乏全局視野,在大環(huán)境中易出現(xiàn)路徑重復(fù)。
傳統(tǒng)方法僅依賴 LiDAR、相機等傳感器的“幾何特征”(如墻壁、障礙物)規(guī)劃路徑,無法解讀人類的高層語義指令(如“目標(biāo)在走廊盡頭”“避開西側(cè)倉庫”)。而在真實場景中,人類的模糊提示往往能大幅縮短搜索時間——這正是傳統(tǒng)框架的“能力盲區(qū)”。
論文團隊發(fā)現(xiàn):大語言模型(如 GPT-4o)的多模態(tài)推理能力、全局決策能力,恰好能彌補這兩大缺陷。
LLM-MCoX 框架
LLM-MCoX 的核心思路是:以 LLM 為“中央大腦”,輸入“結(jié)構(gòu)化空間信息”(LiDAR 地圖、機器人狀態(tài)、前沿/門口特征)與“非結(jié)構(gòu)化語義信息”(自然語言提示、執(zhí)行反饋),生成全局優(yōu)化的路徑點序列。整個框架分為三大關(guān)鍵模塊:
模塊1:代表性前沿檢測,精準(zhǔn)篩選“高價值探索區(qū)域”
“前沿”指地圖中“已知自由空間”與“未知區(qū)域”的邊界,是機器人探索的核心目標(biāo)。但直接處理所有前沿會導(dǎo)致計算量爆炸,LLM-MCoX 采用“采樣-排序-篩選”三步法,提取最具價值的前沿:
隨機采樣 :從地圖中采樣 個前沿細(xì)胞;
效用排序 :用公式 計算每個前沿的價值——其中 是探索該前沿能獲得的未知區(qū)域信息, 是機器人到前沿的距離, 平衡兩者權(quán)重;
去重篩選 :選擇效用最高的 個前沿,并確保任意兩個前沿間距不小于 (避免機器人扎堆)。
Fig. 1 Representative Frontier and Doorway Detection,展示“前沿細(xì)胞(淺藍(lán)色)→ 代表性前沿(藍(lán)色點)”的篩選過程。
模塊2:門口檢測,捕捉“語義級導(dǎo)航節(jié)點”
在室內(nèi)環(huán)境中,“門口”是連接不同區(qū)域的關(guān)鍵節(jié)點,優(yōu)先探索門口能大幅提升全局覆蓋效率。LLM-MCoX 設(shè)計了輕量級門口檢測邏輯:
從前沿中采樣 個候選細(xì)胞;
向候選細(xì)胞的 個離散方向發(fā)射“虛擬射線”,檢測是否存在“對稱墻體間隙”(符合門口的幾何特征);
計算間隙區(qū)域的信息增益 ,過濾低價值候選,并保持 間距約束。
這一步的價值在于:為 LLM 提供“語義級導(dǎo)航標(biāo)志”——傳統(tǒng)方法僅能識別“點/線”幾何特征,而 LLM-MCoX 能讓 LLM 理解“這是門口,是通往另一房間的關(guān)鍵”。
模塊3:LLM 集中式規(guī)劃,“中央大腦”生成路徑點
這是 LLM-MCoX 的核心,也是區(qū)別于傳統(tǒng)框架的關(guān)鍵。LLM 作為“中央大腦”,接收多模態(tài)輸入并輸出路徑點序列,整個過程分為“輸入構(gòu)建→路徑生成→反饋閉環(huán)”三步:
(1)輸入:結(jié)構(gòu)化+非結(jié)構(gòu)化信息融合
LLM 的輸入包含兩類關(guān)鍵信息,確保決策的全面性:
信息類型
具體內(nèi)容
結(jié)構(gòu)化空間信息
1. LiDAR 全局地圖(編碼為灰度圖像,方便 LLM 視覺推理);
2. 代表性前沿、門口位置;
3. 所有機器人狀態(tài)(位置、最大速度、LiDAR 檢測范圍)
非結(jié)構(gòu)化語義信息
1. 人類自然語言提示(如“目標(biāo)在建筑東北側(cè)”);
2. 執(zhí)行總結(jié)( ,如“機器人1無法到達[48,54]”);
3. 歷史計劃總結(jié)( ,如“上一輪優(yōu)先探索了西側(cè)前沿”)
(2)輸出:個性化路徑點序列
LLM 為每個機器人生成專屬的路徑點序列 ,且不局限于“已檢測的前沿/門口”,然后LLM 可通過分析全局地圖,自主識別“未被啟發(fā)式算法捕捉的潛在探索區(qū)域”,靈活性遠(yuǎn)超傳統(tǒng)方法。
(3)反饋:維持多輪規(guī)劃連續(xù)性
由于 LLM API 無會話記憶,論文設(shè)計了“雙總結(jié)”機制:
:每輪規(guī)劃后,LLM 總結(jié)“路徑點分配邏輯”(如“機器人2優(yōu)先探索東側(cè)門口,因該區(qū)域未知面積大”),作為下一輪輸入;
:記錄機器人執(zhí)行中的異常(如路徑點不可達),讓 LLM 在下一輪規(guī)劃中規(guī)避問題。
Fig. 2 LLM-MCoX Planning Pipeline,展示機器人共享 LiDAR 地圖→提取前沿/門口→LLM 生成路徑點”的完整流程
Fig. 3 LLM Query-Response Example,展示“輸入自然語言提示、機器人狀態(tài)→LLM 輸出路徑點”的實際交互案例
實驗驗證
論文通過“結(jié)構(gòu)化環(huán)境(室內(nèi)建筑)+非結(jié)構(gòu)化環(huán)境(洞穴)”“同構(gòu)機器人+異構(gòu)機器人”“探索任務(wù)+搜索任務(wù)”三大維度,對比了 LLM-MCoX 與 3 類基線方法(Mean-shift-Greedy、Sample-Greedy、Sample-DVC)的性能。
實驗設(shè)置
環(huán)境規(guī)格 :結(jié)構(gòu)化環(huán)境分?。?0×60)、中(120×120)、大(150×150)三檔;非結(jié)構(gòu)化環(huán)境為 150×150 的“洞穴式”地圖;
機器人配置 :同構(gòu)機器人(速度 1cell/步,LiDAR 范圍 5cell);異構(gòu)機器人分兩類——“快速低感知”(速度 3cell/步,LiDAR 5cell)、“慢速高感知”(速度 1cell/步,LiDAR 10cell);
安全約束 :機器人最小安全距離 ( d_{safe}=1 ),避免碰撞。
Fig. 4 Simulation Environments,展示“結(jié)構(gòu)化室內(nèi)地圖(4a)”與“非結(jié)構(gòu)化洞穴地圖(4b)”的差異。
核心結(jié)果 (1)結(jié)構(gòu)化環(huán)境:6 機器人探索效率提升 22.7%
在 150×150 的大型結(jié)構(gòu)化環(huán)境中,LLM-MCoX 與最佳基線 Sample-DVC 相比:
探索完成時間縮短 22.7% ;
若加入自然語言提示(如“目標(biāo)在北側(cè)房間”),單機器人搜索效率比 Sample-Greedy 快 39% ——這正是語義理解的獨特價值。
在洞穴式環(huán)境中,LLM-MCoX 展現(xiàn)出對異構(gòu)機器人的適配能力:
6 機器人異構(gòu)團隊(3 快速+3 慢速):無語言提示時,搜索時間比 Sample-Greedy 短 30% ;
加入語言提示后,搜索時間進一步縮短至基線的 50%——LLM 會智能分配任務(wù):讓“快速機器人”負(fù)責(zé)大范圍移動,“高感知機器人”負(fù)責(zé)細(xì)節(jié)搜索。
Fig. 6 Search Performance in Unstructured Environments),通過柱狀圖對比“同構(gòu)團隊(6a)”“異構(gòu)團隊(6b)”中各方法的搜索時間。
實機驗證
為驗證落地性,論文用“Unitree Go2 四足機器人 + 定制 X500 四旋翼無人機”組成異構(gòu)團隊,在真實室內(nèi)環(huán)境中完成搜索任務(wù):
四足機器人速度 2.5m/s,無人機速度 1.0m/s(安全限制);
人類提示“目標(biāo)在初始位置東北方向”;
中央計算機(i7+32GB)每 20 秒重規(guī)劃一次,實現(xiàn) 近實時協(xié)調(diào) ,最終成功定位目標(biāo)。
Fig. 8 Real-World Experiment Setup,展示“四足機器人+無人機”的實物配置(8a)與真實室內(nèi)地圖(8b)
核心創(chuàng)新與未來方向 三大核心創(chuàng)新
首次實現(xiàn)“結(jié)構(gòu)化空間信息+非結(jié)構(gòu)化語義”的深度融合 :讓多機器人系統(tǒng)既能精準(zhǔn)處理 LiDAR 地圖的幾何特征,又能理解人類自然語言,填補傳統(tǒng)框架的能力空白;
LLM 集中式規(guī)劃突破協(xié)調(diào)瓶頸 :通過全局信息輸入,避免貪心分配的局部最優(yōu),同時用“雙總結(jié)”機制維持多輪決策連續(xù)性;
適配異構(gòu)機器人團隊 :LLM 可根據(jù)機器人的“速度、感知范圍”差異分配任務(wù),比傳統(tǒng)“無差別分配”更高效。
論文也指出了當(dāng)前局限與改進思路:
降低 LLM 規(guī)劃耗時 :目前機器人需等待 LLM 生成路徑點才能行動,未來可設(shè)計“異步執(zhí)行”——機器人在等待時執(zhí)行局部探索;
加入相機語義信息 :當(dāng)前主要依賴 LiDAR 地圖,未來可融合相機的物體檢測結(jié)果(如“識別到門”“識別到設(shè)備”),進一步提升語義理解精度;
動態(tài)環(huán)境適配 :現(xiàn)有實驗基于靜態(tài)環(huán)境,未來需優(yōu)化框架以應(yīng)對動態(tài)障礙物(如移動的人員、臨時堆放的貨物)。
LLM-MCoX 的價值不僅在于“比傳統(tǒng)方法快 20%-50%”,更在于它為多機器人系統(tǒng)引入了“人類級的語義決策能力”。從“僅能處理幾何特征”到“能理解人類意圖”,這是機器人領(lǐng)域的一次重要突破。
未來,隨著 LLM 推理速度的提升、多傳感器融合技術(shù)的成熟,LLM-MCoX 有望在救災(zāi)、巡檢、倉儲等場景大規(guī)模落地,讓多機器人團隊真正成為“人類的智能協(xié)作伙伴”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.