作者:Catherine Glossop , William Chen , Arjun Bhorkar , Dhruv Shah , Sergey Levine
單位: 加利福尼亞大學(xué)伯克利分校, 普林斯頓大學(xué)
論文標題:CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models
論文鏈接:https://arxiv.org/pdf/2508.13446v1
項目主頁:https://cast-vla.github.io/
代碼鏈接:https://github.com/catglossop/CAST

提出 CAST數(shù)據(jù)增強方法 ,通過利用視覺語言模型(VLM)生成反事實的語言和行動標簽,以增加機器人數(shù)據(jù)集中語言的多樣性和粒度。
通過在現(xiàn)有數(shù)據(jù)集上應(yīng)用CAST,顯著提高了VLA模型 遵循語言指令 的能力,使模型在導(dǎo)航任務(wù)中的成功率提高了27%。
開源相關(guān)資源 ,公開了CAST增強代碼、CounterfactualVLA策略訓(xùn)練代碼、CAST數(shù)據(jù)集以及訓(xùn)練好的檢查點,以促進研究的可重復(fù)性。
VLA模型的挑戰(zhàn) :盡管VLA模型在將自然語言指令映射到機器人行動方面表現(xiàn)出色,但在遵循細粒度命令時仍面臨困難,主要原因是現(xiàn)有機器人數(shù)據(jù)集缺乏語義多樣性和語言基礎(chǔ)。
數(shù)據(jù)集的局限性 :現(xiàn)有數(shù)據(jù)集在類似觀察中缺乏細粒度的任務(wù)多樣性,導(dǎo)致模型在面對相似環(huán)境時難以區(qū)分不同的語言指令。
解決方法 :論文提出利用VLM的先驗知識,通過生成反事實標簽來增強數(shù)據(jù)集,從而提高模型的語言遵循能力。
預(yù)備知識與問題陳述 目標
訓(xùn)練一個能夠根據(jù)圖像觀察控制自主移動機器人遵循復(fù)雜語言指令的策略。
即: ,其中 是時間 的動作, 是觀察(例如機器人攝像頭的圖像), 是語言指令,例如“沿著白墻移動”。
策略通常通過近似最大化數(shù)據(jù)集的對數(shù)似然來訓(xùn)練:
其中 是標記的數(shù)據(jù)集,下標 表示第 個軌跡, 表示該軌跡中的時間步。
如果數(shù)據(jù)集中的語言標簽 對策略模型預(yù)測正確動作不是必要的,那么模型在測試時會忽略它,這種現(xiàn)象稱為后驗坍塌(posterior collapse)。
本文的目標是將一個未標記的數(shù)據(jù)集 轉(zhuǎn)換為一個新的標記數(shù)據(jù)集 ,以便訓(xùn)練出一個有效的指令遵循策略。

為了使策略能夠被語言指令引導(dǎo),避免后驗坍塌,僅僅在多樣化環(huán)境和指令上訓(xùn)練策略是不夠的。還需要不同的指令導(dǎo)致不同的動作,即使觀察結(jié)果相似。
CAST(Counterfactual Augmentation with Synthetic Trajectories)的目標是為 中的任何觀察生成多個動作-語言元組,使得策略必須關(guān)注語言指令才能產(chǎn)生正確的動作。
利用一個簡單的原子策略(atomic policy),該策略遵循簡單的原子語言指令(如“左轉(zhuǎn)”或“右轉(zhuǎn)”),并且比通用指令遵循策略更容易訓(xùn)練,且在短時間范圍內(nèi)可靠。
通過VLM生成與觀察相關(guān)的反事實高級指令,并將其與原子指令相關(guān)聯(lián),然后使用原子策略生成相應(yīng)的動作。
通過最大化語言和動作之間的條件互信息 來提高語言遵循能力。
通過增加不同原子標簽 的執(zhí)行次數(shù),同時確保每個原子標簽容易從完整語言指令 中預(yù)測,可以有效地最大化 的下界。
CAST通過生成多樣化的反事實語言指令,對應(yīng)于不同的原子指令,從而提高原子標簽的熵,但給定完整指令時條件熵較低,從而推動語言和動作之間的互信息增加,進而提高語言遵循能力。
獲取原子軌跡段和語言標簽 :首先獲取一個包含原子標簽的數(shù)據(jù)集 ,并獲取描述機器人實際執(zhí)行軌跡的指令 。
生成反事實指令 :在 的每個觀察點,利用VLM生成與原始軌跡在語義和幾何上不同的替代指令 。
生成反事實軌跡 :對于每個反事實指令 及其原子指令 ,使用原子策略 采樣動作標簽 ,形成從原始軌跡分支出來的反事實軌跡,并將其添加到標記訓(xùn)練集中。
CAST被實例化用于視覺導(dǎo)航中的自然語言指令遵循任務(wù)。
由于缺乏大規(guī)模真實世界的視覺語言導(dǎo)航數(shù)據(jù)集,論文設(shè)計了兩個組件來實現(xiàn)CAST:1)原子策略(atomic policy);2)事后重標記(hindsight relabeling)流程以獲取語言標簽。
原子標簽生成 :對于數(shù)據(jù)集中的每個觀察 ,計算一個原子標簽 ,屬于集合 {右轉(zhuǎn)、左轉(zhuǎn)、向右調(diào)整、向左調(diào)整、前進、停止},創(chuàng)建中間數(shù)據(jù)集 。
原子策略訓(xùn)練 :使用 訓(xùn)練原子策略 ,通過監(jiān)督學(xué)習(xí)實現(xiàn)。原子策略使用 EfficientNet-b2 ConvNet 編碼觀察,使用 T5 語言嵌入來處理命令 ,然后通過 Transformer 生成上下文向量,最終使用擴散模型預(yù)測動作。
初始語言標簽生成 :從現(xiàn)有的視覺導(dǎo)航數(shù)據(jù)集中,為每個機器人軌跡生成多個可能的語言指令 ,描述整個軌跡。
VLM 重標記 :使用 VLM(如 OpenAI 的 GPT-4)對軌跡的子采樣觀察序列進行提示,描述環(huán)境中的物體、結(jié)構(gòu)及其相對位置,并總結(jié)這些描述以生成新的指令。
過濾和增強 :通過第二次提示 VLM,結(jié)合圖像、之前生成的標簽和軌跡上的原子標簽序列,選擇與原子標簽序列一致的標簽,過濾掉與軌跡不一致的指令,并查詢 VLM 以獲取額外的標簽。
數(shù)據(jù)集選擇 :在 GNM 數(shù)據(jù)集上運行 CAST,該數(shù)據(jù)集包含多種機器人(如小型輪式機器人、四足機器人和類似 ATV 的機器人)的室內(nèi)和室外軌跡。
數(shù)據(jù)標準化和預(yù)處理 :將動作空間標準化為笛卡爾坐標增量,預(yù)測機器人在 xy 坐標上的移動。
模型架構(gòu) :使用 30 億參數(shù)的 PaliGemma VLM 作為基礎(chǔ)模型,包括 SentencePiece 語言分詞器、SigLIP 400M 視覺模型和 Gemma 2B 語言模型,所有組件在訓(xùn)練過程中保持未凍結(jié)。
訓(xùn)練過程 :在 CAST 數(shù)據(jù)集上微調(diào) PaliGemma VLM,訓(xùn)練一個高容量的語言條件策略,稱為 CounterfactualVLA。
評估 CAST 是否能夠使更有效的語言條件策略用于導(dǎo)航。
比較 CounterfactualVLA 與現(xiàn)有SOTA方法的性能。
確定哪種策略架構(gòu)最適合利用 CAST。
任務(wù)類型 :27 個挑戰(zhàn)性的視覺語言導(dǎo)航任務(wù),分為三類:對象導(dǎo)航、參照導(dǎo)航和連續(xù)導(dǎo)航。
環(huán)境 :3 個真實世界環(huán)境,包括擁擠的辦公室走廊、廚房和戶外公共公園。
評估指標 :成功率,即策略成功完成任務(wù)的比例。

與標準 VLA 比較 :CounterfactualVLA 的平均成功率為 53%,比標準 VLA 提高了 27%。標準 VLA 在需要避碰的任務(wù)中表現(xiàn)較好,但在對象導(dǎo)航任務(wù)中表現(xiàn)較差。
與現(xiàn)有方法比較 :CounterfactualVLA 在所有任務(wù)類型中均優(yōu)于現(xiàn)有的基線方法,總體性能提高了 19%。例如,CoNVOI 在對象和參照導(dǎo)航任務(wù)中表現(xiàn)稍好,但在連續(xù)導(dǎo)航任務(wù)中表現(xiàn)較差。
模型架構(gòu)的影響 :CounterfactualVLA 使用 VLA 背景架構(gòu),能夠更好地理解復(fù)雜的語言指令,而 ResNet+FiLM 架構(gòu)在處理復(fù)雜語言指令時表現(xiàn)較差。

實驗結(jié)論
CAST 通過生成多樣化的反事實標簽,顯著提高了 VLA 模型在遵循復(fù)雜語言指令方面的能力。
CounterfactualVLA 在多個真實世界環(huán)境中表現(xiàn)出色,優(yōu)于現(xiàn)有的基線方法。
使用高容量的 VLM 基礎(chǔ)模型對于理解和遵循復(fù)雜的語言指令至關(guān)重要。
結(jié)論 :
CAST通過生成多樣化的反事實標簽,顯著提高了VLA模型在遵循復(fù)雜語言指令方面的能力。CounterfactualVLA在多個真實世界環(huán)境中表現(xiàn)出色,優(yōu)于現(xiàn)有的基線方法。
未來工作 :
擴展到其他領(lǐng)域 :探索將類似方法應(yīng)用于機器人操作等其他領(lǐng)域。
結(jié)合其他技術(shù) :將CAST與大規(guī)模模擬、生成性增強或跨機器人數(shù)據(jù)集結(jié)合,以進一步提高視覺多樣性。
改進VLM的標注質(zhì)量 :盡管VLM的標注速度較慢且質(zhì)量參差不齊,但隨著技術(shù)的進步,未來VLM將更快、更經(jīng)濟且更好地與物理世界結(jié)合,從而提高方法的實用性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.