夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

加州伯克利反事實推理助力具身導(dǎo)航!CAST:通過反事實標簽改善視覺語言行動模型中的指令遵循能力

0
分享至


  • 作者:Catherine Glossop , William Chen , Arjun Bhorkar , Dhruv Shah , Sergey Levine

  • 單位: 加利福尼亞大學(xué)伯克利分校, 普林斯頓大學(xué)

  • 論文標題:CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models

  • 論文鏈接:https://arxiv.org/pdf/2508.13446v1

  • 項目主頁:https://cast-vla.github.io/

  • 代碼鏈接:https://github.com/catglossop/CAST

主要貢獻
  • 提出 CAST數(shù)據(jù)增強方法 ,通過利用視覺語言模型(VLM)生成反事實的語言和行動標簽,以增加機器人數(shù)據(jù)集中語言的多樣性和粒度。

  • 通過在現(xiàn)有數(shù)據(jù)集上應(yīng)用CAST,顯著提高了VLA模型 遵循語言指令 的能力,使模型在導(dǎo)航任務(wù)中的成功率提高了27%。

  • 開源相關(guān)資源 ,公開了CAST增強代碼、CounterfactualVLA策略訓(xùn)練代碼、CAST數(shù)據(jù)集以及訓(xùn)練好的檢查點,以促進研究的可重復(fù)性。

研究背景
  • VLA模型的挑戰(zhàn) :盡管VLA模型在將自然語言指令映射到機器人行動方面表現(xiàn)出色,但在遵循細粒度命令時仍面臨困難,主要原因是現(xiàn)有機器人數(shù)據(jù)集缺乏語義多樣性和語言基礎(chǔ)。

  • 數(shù)據(jù)集的局限性 :現(xiàn)有數(shù)據(jù)集在類似觀察中缺乏細粒度的任務(wù)多樣性,導(dǎo)致模型在面對相似環(huán)境時難以區(qū)分不同的語言指令。

  • 解決方法 :論文提出利用VLM的先驗知識,通過生成反事實標簽來增強數(shù)據(jù)集,從而提高模型的語言遵循能力。


預(yù)備知識與問題陳述 目標

  • 訓(xùn)練一個能夠根據(jù)圖像觀察控制自主移動機器人遵循復(fù)雜語言指令的策略。

  • 即: ,其中 是時間 的動作, 是觀察(例如機器人攝像頭的圖像), 是語言指令,例如“沿著白墻移動”。

模仿學(xué)習(xí)設(shè)置
  • 策略通常通過近似最大化數(shù)據(jù)集的對數(shù)似然來訓(xùn)練:

    其中 是標記的數(shù)據(jù)集,下標 表示第 個軌跡, 表示該軌跡中的時間步。

數(shù)據(jù)集問題
  • 如果數(shù)據(jù)集中的語言標簽 對策略模型預(yù)測正確動作不是必要的,那么模型在測試時會忽略它,這種現(xiàn)象稱為后驗坍塌(posterior collapse)。

  • 本文的目標是將一個未標記的數(shù)據(jù)集 轉(zhuǎn)換為一個新的標記數(shù)據(jù)集 ,以便訓(xùn)練出一個有效的指令遵循策略。

反事實標簽增強
  • 為了使策略能夠被語言指令引導(dǎo),避免后驗坍塌,僅僅在多樣化環(huán)境和指令上訓(xùn)練策略是不夠的。還需要不同的指令導(dǎo)致不同的動作,即使觀察結(jié)果相似。

  • CAST(Counterfactual Augmentation with Synthetic Trajectories)的目標是為 中的任何觀察生成多個動作-語言元組,使得策略必須關(guān)注語言指令才能產(chǎn)生正確的動作。

  • 利用一個簡單的原子策略(atomic policy),該策略遵循簡單的原子語言指令(如“左轉(zhuǎn)”或“右轉(zhuǎn)”),并且比通用指令遵循策略更容易訓(xùn)練,且在短時間范圍內(nèi)可靠。

  • 通過VLM生成與觀察相關(guān)的反事實高級指令,并將其與原子指令相關(guān)聯(lián),然后使用原子策略生成相應(yīng)的動作。

如何反事實增強促進語言遵循
  • 通過最大化語言和動作之間的條件互信息 來提高語言遵循能力。

  • 通過增加不同原子標簽 的執(zhí)行次數(shù),同時確保每個原子標簽容易從完整語言指令 中預(yù)測,可以有效地最大化 的下界。

  • CAST通過生成多樣化的反事實語言指令,對應(yīng)于不同的原子指令,從而提高原子標簽的熵,但給定完整指令時條件熵較低,從而推動語言和動作之間的互信息增加,進而提高語言遵循能力。

生成CAST數(shù)據(jù)集
  • 獲取原子軌跡段和語言標簽 :首先獲取一個包含原子標簽的數(shù)據(jù)集 ,并獲取描述機器人實際執(zhí)行軌跡的指令 。

  • 生成反事實指令 :在 的每個觀察點,利用VLM生成與原始軌跡在語義和幾何上不同的替代指令 。

  • 生成反事實軌跡 :對于每個反事實指令 及其原子指令 ,使用原子策略 采樣動作標簽 ,形成從原始軌跡分支出來的反事實軌跡,并將其添加到標記訓(xùn)練集中。

實現(xiàn)
  • CAST被實例化用于視覺導(dǎo)航中的自然語言指令遵循任務(wù)。

  • 由于缺乏大規(guī)模真實世界的視覺語言導(dǎo)航數(shù)據(jù)集,論文設(shè)計了兩個組件來實現(xiàn)CAST:1)原子策略(atomic policy);2)事后重標記(hindsight relabeling)流程以獲取語言標簽。

原子標簽策略
  • 原子標簽生成 :對于數(shù)據(jù)集中的每個觀察 ,計算一個原子標簽 ,屬于集合 {右轉(zhuǎn)、左轉(zhuǎn)、向右調(diào)整、向左調(diào)整、前進、停止},創(chuàng)建中間數(shù)據(jù)集 。

  • 原子策略訓(xùn)練 :使用 訓(xùn)練原子策略 ,通過監(jiān)督學(xué)習(xí)實現(xiàn)。原子策略使用 EfficientNet-b2 ConvNet 編碼觀察,使用 T5 語言嵌入來處理命令 ,然后通過 Transformer 生成上下文向量,最終使用擴散模型預(yù)測動作。

重標記流程
  • 初始語言標簽生成 :從現(xiàn)有的視覺導(dǎo)航數(shù)據(jù)集中,為每個機器人軌跡生成多個可能的語言指令 ,描述整個軌跡。

  • VLM 重標記 :使用 VLM(如 OpenAI 的 GPT-4)對軌跡的子采樣觀察序列進行提示,描述環(huán)境中的物體、結(jié)構(gòu)及其相對位置,并總結(jié)這些描述以生成新的指令。

  • 過濾和增強 :通過第二次提示 VLM,結(jié)合圖像、之前生成的標簽和軌跡上的原子標簽序列,選擇與原子標簽序列一致的標簽,過濾掉與軌跡不一致的指令,并查詢 VLM 以獲取額外的標簽。

策略訓(xùn)練
  • 數(shù)據(jù)集選擇 :在 GNM 數(shù)據(jù)集上運行 CAST,該數(shù)據(jù)集包含多種機器人(如小型輪式機器人、四足機器人和類似 ATV 的機器人)的室內(nèi)和室外軌跡。

  • 數(shù)據(jù)標準化和預(yù)處理 :將動作空間標準化為笛卡爾坐標增量,預(yù)測機器人在 xy 坐標上的移動。

  • 模型架構(gòu) :使用 30 億參數(shù)的 PaliGemma VLM 作為基礎(chǔ)模型,包括 SentencePiece 語言分詞器、SigLIP 400M 視覺模型和 Gemma 2B 語言模型,所有組件在訓(xùn)練過程中保持未凍結(jié)。

  • 訓(xùn)練過程 :在 CAST 數(shù)據(jù)集上微調(diào) PaliGemma VLM,訓(xùn)練一個高容量的語言條件策略,稱為 CounterfactualVLA。

評估 CounterfactualVLA 的指令遵循能力 實驗?zāi)繕?ul>
  • 評估 CAST 是否能夠使更有效的語言條件策略用于導(dǎo)航。

  • 比較 CounterfactualVLA 與現(xiàn)有SOTA方法的性能。

  • 確定哪種策略架構(gòu)最適合利用 CAST。

  • 實驗設(shè)置
    • 任務(wù)類型 :27 個挑戰(zhàn)性的視覺語言導(dǎo)航任務(wù),分為三類:對象導(dǎo)航、參照導(dǎo)航和連續(xù)導(dǎo)航。

    • 環(huán)境 :3 個真實世界環(huán)境,包括擁擠的辦公室走廊、廚房和戶外公共公園。

    • 評估指標 :成功率,即策略成功完成任務(wù)的比例。

    實驗結(jié)果
    • 與標準 VLA 比較 :CounterfactualVLA 的平均成功率為 53%,比標準 VLA 提高了 27%。標準 VLA 在需要避碰的任務(wù)中表現(xiàn)較好,但在對象導(dǎo)航任務(wù)中表現(xiàn)較差。

    • 與現(xiàn)有方法比較 :CounterfactualVLA 在所有任務(wù)類型中均優(yōu)于現(xiàn)有的基線方法,總體性能提高了 19%。例如,CoNVOI 在對象和參照導(dǎo)航任務(wù)中表現(xiàn)稍好,但在連續(xù)導(dǎo)航任務(wù)中表現(xiàn)較差。

    • 模型架構(gòu)的影響 :CounterfactualVLA 使用 VLA 背景架構(gòu),能夠更好地理解復(fù)雜的語言指令,而 ResNet+FiLM 架構(gòu)在處理復(fù)雜語言指令時表現(xiàn)較差。


    實驗結(jié)論

    • CAST 通過生成多樣化的反事實標簽,顯著提高了 VLA 模型在遵循復(fù)雜語言指令方面的能力。

    • CounterfactualVLA 在多個真實世界環(huán)境中表現(xiàn)出色,優(yōu)于現(xiàn)有的基線方法。

    • 使用高容量的 VLM 基礎(chǔ)模型對于理解和遵循復(fù)雜的語言指令至關(guān)重要。

    結(jié)論與未來工作
    • 結(jié)論

      • CAST通過生成多樣化的反事實標簽,顯著提高了VLA模型在遵循復(fù)雜語言指令方面的能力。CounterfactualVLA在多個真實世界環(huán)境中表現(xiàn)出色,優(yōu)于現(xiàn)有的基線方法。

    • 未來工作

      • 擴展到其他領(lǐng)域 :探索將類似方法應(yīng)用于機器人操作等其他領(lǐng)域。

      • 結(jié)合其他技術(shù) :將CAST與大規(guī)模模擬、生成性增強或跨機器人數(shù)據(jù)集結(jié)合,以進一步提高視覺多樣性。

      • 改進VLM的標注質(zhì)量 :盡管VLM的標注速度較慢且質(zhì)量參差不齊,但隨著技術(shù)的進步,未來VLM將更快、更經(jīng)濟且更好地與物理世界結(jié)合,從而提高方法的實用性。

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相關(guān)推薦
    熱點推薦
    在日本長大的女孩,被送回一個她聽不懂語言的“祖國”

    在日本長大的女孩,被送回一個她聽不懂語言的“祖國”

    日本物語
    2025-10-17 13:22:39
    張本智和回國總結(jié)得失,日本媒體評價國乒,國乒十天后又要出發(fā)

    張本智和回國總結(jié)得失,日本媒體評價國乒,國乒十天后又要出發(fā)

    墨史軒
    2025-10-17 15:23:33
    外媒:馮德萊恩可能首次對特朗普說“不”

    外媒:馮德萊恩可能首次對特朗普說“不”

    參考消息
    2025-10-16 21:02:06
    冷空氣殺瘋了!山東大范圍較強降雨、持續(xù)大風(fēng)降溫,最低3℃左右,有輕霜凍,濟南最低溫或降至1℃

    冷空氣殺瘋了!山東大范圍較強降雨、持續(xù)大風(fēng)降溫,最低3℃左右,有輕霜凍,濟南最低溫或降至1℃

    魯中晨報
    2025-10-17 12:32:09
    汪峰飛新疆與森林北約會,兩人共吃一碗米飯,友人害羞低頭不敢看

    汪峰飛新疆與森林北約會,兩人共吃一碗米飯,友人害羞低頭不敢看

    悠悠說世界
    2025-10-17 15:41:25
    浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

    浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

    杭城村叔
    2025-09-11 12:54:47
    高中生的開竅順序,沒想到挺準的!

    高中生的開竅順序,沒想到挺準的!

    好爸育兒
    2025-10-14 09:18:48
    國內(nèi)將逐漸停止“腰突微創(chuàng)”手術(shù)?做完人就癱了?醫(yī)生講出實情

    國內(nèi)將逐漸停止“腰突微創(chuàng)”手術(shù)?做完人就癱了?醫(yī)生講出實情

    阿纂看事
    2025-10-15 09:38:40
    江門滅蚊行動過于瘋狂,市民呼吁科學(xué)防蚊

    江門滅蚊行動過于瘋狂,市民呼吁科學(xué)防蚊

    映射生活的身影
    2025-10-16 16:21:15
    副部長級!劉波任華中科技大學(xué)黨委書記,曾任中國礦業(yè)大學(xué)黨委書記

    副部長級!劉波任華中科技大學(xué)黨委書記,曾任中國礦業(yè)大學(xué)黨委書記

    TOP大學(xué)來了
    2025-10-17 16:03:32
    中紀委發(fā)布8人被查,有“內(nèi)鬼”主動投案

    中紀委發(fā)布8人被查,有“內(nèi)鬼”主動投案

    魯中晨報
    2025-10-17 15:12:06
    笑死了!李亞鵬宣布離婚,沒想到評論區(qū)句句都是梗

    笑死了!李亞鵬宣布離婚,沒想到評論區(qū)句句都是梗

    八卦南風(fēng)
    2025-10-14 16:55:29
    黃子韜婚禮晚宴更難評,審美太土像QQ炫舞結(jié)婚,劉宇寧丁真做主桌

    黃子韜婚禮晚宴更難評,審美太土像QQ炫舞結(jié)婚,劉宇寧丁真做主桌

    古希臘掌管月桂的神
    2025-10-16 21:05:08
    臺北車站一香港女子遭性侵無人阻止,被批治安堪憂!臺鐵致歉

    臺北車站一香港女子遭性侵無人阻止,被批治安堪憂!臺鐵致歉

    南方都市報
    2025-10-17 14:29:22
    【汽車人】“豐田現(xiàn)象”值得重視

    【汽車人】“豐田現(xiàn)象”值得重視

    汽車人傳媒
    2025-10-16 10:25:10
    被姚明抱著上奧運的抗震小英雄,曾發(fā)誓考上清華,16年后成了這樣

    被姚明抱著上奧運的抗震小英雄,曾發(fā)誓考上清華,16年后成了這樣

    法老不說教
    2025-10-14 18:52:26
    公共自行車謝幕,共享單車漲價6倍!暴漲的出行市場,誰在割韭菜

    公共自行車謝幕,共享單車漲價6倍!暴漲的出行市場,誰在割韭菜

    毒sir財經(jīng)
    2025-10-16 22:00:27
    美國財長破防了:中國再不賣稀土,我就把幾十萬留學(xué)生全趕回去!

    美國財長破防了:中國再不賣稀土,我就把幾十萬留學(xué)生全趕回去!

    南宮一二
    2025-10-15 07:13:29
    58歲上海大媽搭伙63歲大爺半年就鬧分手,大媽:沒睡過一天好覺

    58歲上海大媽搭伙63歲大爺半年就鬧分手,大媽:沒睡過一天好覺

    小小包工頭阿汾
    2025-10-17 13:27:39
    江蘇職工養(yǎng)老支出超過廣東約875億元,但平均養(yǎng)老金支出要低219元

    江蘇職工養(yǎng)老支出超過廣東約875億元,但平均養(yǎng)老金支出要低219元

    雙色球的方向舵
    2025-10-17 15:11:35
    2025-10-17 17:39:04
    算法與數(shù)學(xué)之美 incentive-icons
    算法與數(shù)學(xué)之美
    分享知識,交流思想
    5171文章數(shù) 64593關(guān)注度
    往期回顧 全部

    科技要聞

    對話投資人李強:硅谷AI創(chuàng)業(yè)者走“窄門”

    頭條要聞

    特朗普:普京不喜歡美向烏提供"戰(zhàn)斧"這個主意

    頭條要聞

    特朗普:普京不喜歡美向烏提供"戰(zhàn)斧"這個主意

    體育要聞

    楊瀚森回應(yīng)賽后哭泣:打得不好情緒比較激動

    娛樂要聞

    這5位明星,他們還能靠演技翻紅嗎?

    財經(jīng)要聞

    黃金瘋狂上漲 預(yù)示"更大事情"正在發(fā)生

    汽車要聞

    2026款海豹07 DM-i 功能全面升級/還有激光雷達

    態(tài)度原創(chuàng)

    房產(chǎn)
    時尚
    親子
    教育
    軍事航空

    房產(chǎn)要聞

    再添33萬㎡重磅商業(yè)!西海岸的配套又要升級了!

    今日熱點:主創(chuàng)說《怪奇物語》結(jié)局很精彩;李亞鵬說真相比猜想更精彩……

    親子要聞

    熊孩子一寫作業(yè)就“腫眼泡”不寫就好,網(wǎng)友:這就叫不是學(xué)習(xí)的那塊料吧

    教育要聞

    北京育才學(xué)校:課間15分鐘 玩出大成長

    軍事要聞

    以色列與哈馬斯互指對方未遵守?;饏f(xié)議

    無障礙瀏覽 進入關(guān)懷版 337p人体啪啪| 亚洲色www成人永久网址| 国产精品人妻一区二区三区四| 亚洲av熟妇高潮30p| 99热9999| 亚洲第一天堂无码专区| 亚洲 制服 丝袜 无码 | 中文字幕乱码十国产乱码| 国产免费人成视频尤勿视频| 久久99精品国产99久久6| 三级成人网站| 精品国产亚洲午夜精品av| 人人摸人人操人人玩| 777精品久久久久久久| 免费无码又爽又刺激高潮的视频免费| 日本在线观看成人看免费网站你懂得| 欧美精品久久久99精品综合天天天| 国产成人a在线观看视频| 按摩技师玩弄少妇到高潮| 人人操插人人操| 无码人妻精品一区二区三区东京热| 97午夜理论电影影院| 日本老妇一区| 又大又粗又硬黄色视频网站| 熟女无套高潮内谢吼叫免费| 国产A熟女一区=区三区| 日韩高清在线中文字带字幕| 毛片视频网址| www,人妻日本婷婷| 国产成人精彩在线视频| avxxxxoooo| 精品精品自在现拍国产2021| 日韩成人一区二区三区不卡视频| 又粗又硬又大又爽免费视频播放| 亚洲欧洲自拍拍偷综合| 国产欧美另类久久久精品图片| 国产成人愉拍精品| 国产老人一区AV| 国产又色又爽又黄的在线观看| 韩日操逼毛片| 日韩AV专区|