網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

加州伯克利反事實推理助力具身導(dǎo)航！CAST：通過反事實標簽改善視覺語言行動模型中的指令遵循能力

2025-09-13 19:14:33　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

作者：Catherine Glossop , William Chen , Arjun Bhorkar , Dhruv Shah , Sergey Levine
單位：加利福尼亞大學(xué)伯克利分校，普林斯頓大學(xué)
論文標題：CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models
論文鏈接：https://arxiv.org/pdf/2508.13446v1
項目主頁：https://cast-vla.github.io/
代碼鏈接：https://github.com/catglossop/CAST

主要貢獻

提出 CAST數(shù)據(jù)增強方法 ，通過利用視覺語言模型（VLM）生成反事實的語言和行動標簽，以增加機器人數(shù)據(jù)集中語言的多樣性和粒度。
通過在現(xiàn)有數(shù)據(jù)集上應(yīng)用CAST，顯著提高了VLA模型 遵循語言指令 的能力，使模型在導(dǎo)航任務(wù)中的成功率提高了27%。
開源相關(guān)資源 ，公開了CAST增強代碼、CounterfactualVLA策略訓(xùn)練代碼、CAST數(shù)據(jù)集以及訓(xùn)練好的檢查點，以促進研究的可重復(fù)性。

研究背景

VLA模型的挑戰(zhàn) ：盡管VLA模型在將自然語言指令映射到機器人行動方面表現(xiàn)出色，但在遵循細粒度命令時仍面臨困難，主要原因是現(xiàn)有機器人數(shù)據(jù)集缺乏語義多樣性和語言基礎(chǔ)。
數(shù)據(jù)集的局限性 ：現(xiàn)有數(shù)據(jù)集在類似觀察中缺乏細粒度的任務(wù)多樣性，導(dǎo)致模型在面對相似環(huán)境時難以區(qū)分不同的語言指令。
解決方法 ：論文提出利用VLM的先驗知識，通過生成反事實標簽來增強數(shù)據(jù)集，從而提高模型的語言遵循能力。

預(yù)備知識與問題陳述目標

訓(xùn)練一個能夠根據(jù)圖像觀察控制自主移動機器人遵循復(fù)雜語言指令的策略。
即：，其中是時間的動作，是觀察（例如機器人攝像頭的圖像），是語言指令，例如“沿著白墻移動”。

模仿學(xué)習(xí)設(shè)置

策略通常通過近似最大化數(shù)據(jù)集的對數(shù)似然來訓(xùn)練：
其中是標記的數(shù)據(jù)集，下標表示第個軌跡，表示該軌跡中的時間步。

數(shù)據(jù)集問題

如果數(shù)據(jù)集中的語言標簽對策略模型預(yù)測正確動作不是必要的，那么模型在測試時會忽略它，這種現(xiàn)象稱為后驗坍塌（posterior collapse）。
本文的目標是將一個未標記的數(shù)據(jù)集轉(zhuǎn)換為一個新的標記數(shù)據(jù)集，以便訓(xùn)練出一個有效的指令遵循策略。

反事實標簽增強

為了使策略能夠被語言指令引導(dǎo)，避免后驗坍塌，僅僅在多樣化環(huán)境和指令上訓(xùn)練策略是不夠的。還需要不同的指令導(dǎo)致不同的動作，即使觀察結(jié)果相似。
CAST（Counterfactual Augmentation with Synthetic Trajectories）的目標是為中的任何觀察生成多個動作-語言元組，使得策略必須關(guān)注語言指令才能產(chǎn)生正確的動作。
利用一個簡單的原子策略（atomic policy），該策略遵循簡單的原子語言指令（如“左轉(zhuǎn)”或“右轉(zhuǎn)”），并且比通用指令遵循策略更容易訓(xùn)練，且在短時間范圍內(nèi)可靠。
通過VLM生成與觀察相關(guān)的反事實高級指令，并將其與原子指令相關(guān)聯(lián)，然后使用原子策略生成相應(yīng)的動作。

如何反事實增強促進語言遵循

通過最大化語言和動作之間的條件互信息來提高語言遵循能力。
通過增加不同原子標簽的執(zhí)行次數(shù)，同時確保每個原子標簽容易從完整語言指令中預(yù)測，可以有效地最大化的下界。
CAST通過生成多樣化的反事實語言指令，對應(yīng)于不同的原子指令，從而提高原子標簽的熵，但給定完整指令時條件熵較低，從而推動語言和動作之間的互信息增加，進而提高語言遵循能力。

生成CAST數(shù)據(jù)集

獲取原子軌跡段和語言標簽 ：首先獲取一個包含原子標簽的數(shù)據(jù)集，并獲取描述機器人實際執(zhí)行軌跡的指令。
生成反事實指令 ：在的每個觀察點，利用VLM生成與原始軌跡在語義和幾何上不同的替代指令。
生成反事實軌跡 ：對于每個反事實指令及其原子指令，使用原子策略采樣動作標簽，形成從原始軌跡分支出來的反事實軌跡，并將其添加到標記訓(xùn)練集中。

實現(xiàn)

CAST被實例化用于視覺導(dǎo)航中的自然語言指令遵循任務(wù)。
由于缺乏大規(guī)模真實世界的視覺語言導(dǎo)航數(shù)據(jù)集，論文設(shè)計了兩個組件來實現(xiàn)CAST：1）原子策略（atomic policy）；2）事后重標記（hindsight relabeling）流程以獲取語言標簽。

原子標簽策略

原子標簽生成 ：對于數(shù)據(jù)集中的每個觀察，計算一個原子標簽，屬于集合 {右轉(zhuǎn)、左轉(zhuǎn)、向右調(diào)整、向左調(diào)整、前進、停止}，創(chuàng)建中間數(shù)據(jù)集。
原子策略訓(xùn)練 ：使用訓(xùn)練原子策略，通過監(jiān)督學(xué)習(xí)實現(xiàn)。原子策略使用 EfficientNet-b2 ConvNet 編碼觀察，使用 T5 語言嵌入來處理命令，然后通過 Transformer 生成上下文向量，最終使用擴散模型預(yù)測動作。

重標記流程

初始語言標簽生成 ：從現(xiàn)有的視覺導(dǎo)航數(shù)據(jù)集中，為每個機器人軌跡生成多個可能的語言指令，描述整個軌跡。
VLM 重標記 ：使用 VLM（如 OpenAI 的 GPT-4）對軌跡的子采樣觀察序列進行提示，描述環(huán)境中的物體、結(jié)構(gòu)及其相對位置，并總結(jié)這些描述以生成新的指令。
過濾和增強 ：通過第二次提示 VLM，結(jié)合圖像、之前生成的標簽和軌跡上的原子標簽序列，選擇與原子標簽序列一致的標簽，過濾掉與軌跡不一致的指令，并查詢 VLM 以獲取額外的標簽。

策略訓(xùn)練

數(shù)據(jù)集選擇 ：在 GNM 數(shù)據(jù)集上運行 CAST，該數(shù)據(jù)集包含多種機器人（如小型輪式機器人、四足機器人和類似 ATV 的機器人）的室內(nèi)和室外軌跡。
數(shù)據(jù)標準化和預(yù)處理 ：將動作空間標準化為笛卡爾坐標增量，預(yù)測機器人在 xy 坐標上的移動。
模型架構(gòu) ：使用 30 億參數(shù)的 PaliGemma VLM 作為基礎(chǔ)模型，包括 SentencePiece 語言分詞器、SigLIP 400M 視覺模型和 Gemma 2B 語言模型，所有組件在訓(xùn)練過程中保持未凍結(jié)。
訓(xùn)練過程 ：在 CAST 數(shù)據(jù)集上微調(diào) PaliGemma VLM，訓(xùn)練一個高容量的語言條件策略，稱為 CounterfactualVLA。

評估 CounterfactualVLA 的指令遵循能力實驗?zāi)繕?ul>

評估 CAST 是否能夠使更有效的語言條件策略用于導(dǎo)航。

比較 CounterfactualVLA 與現(xiàn)有SOTA方法的性能。

確定哪種策略架構(gòu)最適合利用 CAST。

實驗設(shè)置

任務(wù)類型 ：27 個挑戰(zhàn)性的視覺語言導(dǎo)航任務(wù)，分為三類：對象導(dǎo)航、參照導(dǎo)航和連續(xù)導(dǎo)航。
環(huán)境 ：3 個真實世界環(huán)境，包括擁擠的辦公室走廊、廚房和戶外公共公園。
評估指標 ：成功率，即策略成功完成任務(wù)的比例。

實驗結(jié)果

與標準 VLA 比較 ：CounterfactualVLA 的平均成功率為 53%，比標準 VLA 提高了 27%。標準 VLA 在需要避碰的任務(wù)中表現(xiàn)較好，但在對象導(dǎo)航任務(wù)中表現(xiàn)較差。
與現(xiàn)有方法比較 ：CounterfactualVLA 在所有任務(wù)類型中均優(yōu)于現(xiàn)有的基線方法，總體性能提高了 19%。例如，CoNVOI 在對象和參照導(dǎo)航任務(wù)中表現(xiàn)稍好，但在連續(xù)導(dǎo)航任務(wù)中表現(xiàn)較差。
模型架構(gòu)的影響 ：CounterfactualVLA 使用 VLA 背景架構(gòu)，能夠更好地理解復(fù)雜的語言指令，而 ResNet+FiLM 架構(gòu)在處理復(fù)雜語言指令時表現(xiàn)較差。

實驗結(jié)論

CAST 通過生成多樣化的反事實標簽，顯著提高了 VLA 模型在遵循復(fù)雜語言指令方面的能力。
CounterfactualVLA 在多個真實世界環(huán)境中表現(xiàn)出色，優(yōu)于現(xiàn)有的基線方法。
使用高容量的 VLM 基礎(chǔ)模型對于理解和遵循復(fù)雜的語言指令至關(guān)重要。

結(jié)論與未來工作

結(jié)論 ：
- CAST通過生成多樣化的反事實標簽，顯著提高了VLA模型在遵循復(fù)雜語言指令方面的能力。CounterfactualVLA在多個真實世界環(huán)境中表現(xiàn)出色，優(yōu)于現(xiàn)有的基線方法。
未來工作 ：
- 擴展到其他領(lǐng)域 ：探索將類似方法應(yīng)用于機器人操作等其他領(lǐng)域。
- 結(jié)合其他技術(shù) ：將CAST與大規(guī)模模擬、生成性增強或跨機器人數(shù)據(jù)集結(jié)合，以進一步提高視覺多樣性。
- 改進VLM的標注質(zhì)量 ：盡管VLM的標注速度較慢且質(zhì)量參差不齊，但隨著技術(shù)的進步，未來VLM將更快、更經(jīng)濟且更好地與物理世界結(jié)合，從而提高方法的實用性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.