本文的第一作者為斯坦福大學(xué)博士生 Jacky Kwok。共同通訊作者包括英偉達(dá)自動(dòng)駕駛研究總監(jiān) Marco Pavone、斯坦福大學(xué)計(jì)算機(jī)系教授兼 DeepMind 科學(xué)家 Azalia Mirhoseini,以及 UC 伯克利教授 Ion Stoica。
Vision-Language-Action(VLA)模型在視覺運(yùn)動(dòng)控制中展現(xiàn)出了卓越能力,但如何在復(fù)雜的真實(shí)世界中保持魯棒性仍是一個(gè)長(zhǎng)期挑戰(zhàn)。研究團(tuán)隊(duì)展示了一個(gè)關(guān)鍵發(fā)現(xiàn):在推理階段,結(jié)合「生成 - 驗(yàn)證」(generate-and-verify)范式從而增加計(jì)算量(test-time compute)可以顯著提升 VLA 模型的泛化能力與可靠性。
與此同時(shí),論文系統(tǒng)性地探討了具身智能中的 Test-Time Scaling Law:隨著推理階段的采樣與驗(yàn)證規(guī)模增長(zhǎng),VLA 模型在任務(wù)成功率和穩(wěn)定性方面呈現(xiàn)出可預(yù)測(cè)的提升規(guī)律。
- 論文標(biāo)題:RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
- 論文地址:https://arxiv.org/abs/2506.17811
- 代碼鏈接:robomonkey-vla.github.io
- 作者郵箱:jackykwok@stanford.edu
- 接收會(huì)議:CoRL 2025
具身 Test-Time Scaling Law
團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn):當(dāng)在推理階段增加候選動(dòng)作的生成數(shù)量時(shí),VLA 的動(dòng)作誤差會(huì)持續(xù)下降。具體來說,無論是反復(fù)從機(jī)器人策略模型中采樣動(dòng)作、對(duì)部分采樣動(dòng)作施加高斯擾動(dòng),還是在離散動(dòng)作空間中進(jìn)行隨機(jī)采樣,這些方法在有「理想驗(yàn)證器」(oracle verifier)的前提下,都能顯著優(yōu)于單次推理的 OpenVLA 基線。
團(tuán)隊(duì)還揭示出一個(gè)冪律規(guī)律(power law):在多種主流 VLA 模型(包括 CogACT、Octo、OpenVLA 和 SpatialVLA)中,動(dòng)作誤差與高斯擾動(dòng)采樣數(shù)量之間呈現(xiàn)出穩(wěn)定的冪律關(guān)系。這意味著,機(jī)器人控制問題不應(yīng)僅僅被視為一個(gè)「生成」任務(wù);相反,生成候選動(dòng)作 + 驗(yàn)證篩選的范式,能在不改動(dòng)訓(xùn)練模型的前提下顯著提升性能。研究者希望這一發(fā)現(xiàn)能夠推動(dòng)動(dòng)作驗(yàn)證器(scalable action verifiers)的發(fā)展,為通用機(jī)器人模型提供更穩(wěn)健的落地路徑。
核心問題
在提出具身 Test-Time Scaling Law 之后,研究團(tuán)隊(duì)進(jìn)一步聚焦于三個(gè)關(guān)鍵問題:
- 驗(yàn)證器訓(xùn)練:是否能夠利用訓(xùn)練得到的動(dòng)作驗(yàn)證器(action verifier)來替代 oracle verifier,以提升 VLA 的穩(wěn)定性?
- 合成數(shù)據(jù)擴(kuò)展:能否構(gòu)建大規(guī)模合成數(shù)據(jù)來訓(xùn)練驗(yàn)證器,從而推動(dòng)下游任務(wù)的性能提升?
- 實(shí)際部署可行性:如何設(shè)計(jì)高效的算法與系統(tǒng),使 test-time scaling 在真實(shí)機(jī)器人上實(shí)現(xiàn)低延遲、可擴(kuò)展的部署?
方法概述
階段一?動(dòng)作驗(yàn)證器訓(xùn)練
研究者首先利用機(jī)器人數(shù)據(jù)集,用 VLA 為每個(gè)狀態(tài)采樣 N 個(gè)候選動(dòng)作,并通過聚類將其壓縮為 K 個(gè)具有代表性的動(dòng)作。隨后,基于候選動(dòng)作與真實(shí)動(dòng)作(ground truth action) 的RMSE 差異構(gòu)造合成偏好數(shù)據(jù)(synthetic action preference dataset),并用其微調(diào)一個(gè)基于 VLM 的動(dòng)作驗(yàn)證器 (VLM-based verifier),賦予模型對(duì)動(dòng)作優(yōu)劣的判別能力。該驗(yàn)證器的訓(xùn)練損失函數(shù)遵循 Bradley-Terry 模型,并在此基礎(chǔ)上加入了對(duì)偏好強(qiáng)度(preference levels)的修正項(xiàng)。
階段二?推理階段的計(jì)算擴(kuò)展
在實(shí)際部署中,系統(tǒng)會(huì)根據(jù)任務(wù)指令和環(huán)境觀測(cè),用 VLA 采樣 N? 個(gè)初始動(dòng)作。研究者對(duì)這些動(dòng)作的平移與旋轉(zhuǎn)部分擬合高斯分布,并通過多數(shù)投票(majority voting)確定抓取器的開合狀態(tài),構(gòu)建出高效的動(dòng)作分布。由此便可以在幾乎不增加計(jì)算開銷的前提下,快速采樣出 K? 個(gè)候選動(dòng)作。最后,利用在階段一中訓(xùn)練好的 VLM 動(dòng)作驗(yàn)證器,對(duì)這些候選動(dòng)作進(jìn)行評(píng)估和排序,從中挑選出最優(yōu)動(dòng)作執(zhí)行。
實(shí)驗(yàn)結(jié)果
研究表明將 VLA 模型與 RoboMonkey 結(jié)合可以帶來顯著性能提升:
- 在真實(shí)世界的 out-of-distribution tasks 上 + 25%
- 在 in-distribution SIMPLER 環(huán)境上 + 9%
- 在 LIBERO-Long benchmark+7%
這些結(jié)果表明,RoboMonkey 不僅提升了整體成功率,還能在部署時(shí)有效緩解以下關(guān)鍵問題:
- 抓取不精準(zhǔn)
- 任務(wù)推進(jìn)失敗
- 碰撞問題
擴(kuò)展合成數(shù)據(jù)
實(shí)驗(yàn)結(jié)果表明,擴(kuò)展合成數(shù)據(jù)集規(guī)模對(duì)驗(yàn)證器性能有顯著提升作用。隨著數(shù)據(jù)規(guī)模逐步增加,RoboMonkey 驗(yàn)證器的準(zhǔn)確性呈近似對(duì)數(shù)線性(log-linear)增長(zhǎng),并在 SIMPLER 環(huán)境上的成功率顯著提高。
高效推理部署
為了讓 Test-Time Scaling 在真實(shí)系統(tǒng)中具備可部署性,研究團(tuán)隊(duì)在 SGLang 之上實(shí)現(xiàn)了一個(gè)專用的VLA serving 引擎。該引擎支持高速的 VLA 動(dòng)作重復(fù)采樣,并通過高斯擾動(dòng)高效地構(gòu)建動(dòng)作分布(action proposal distribution)。這一系統(tǒng)優(yōu)化顯著降低了推理階段的開銷。
此外,從系統(tǒng)架構(gòu)的角度來看,RoboMonkey 在相同的延遲約束(latency target)下,如果配備了更大容量的高帶寬存儲(chǔ)器(HBM),GPU 就能夠支持更高的吞吐量(throughput),從而進(jìn)一步提升機(jī)器人基礎(chǔ)模型的泛化能力。
總結(jié)
本文的主要貢獻(xiàn)可總結(jié)如下:
- 提出具身推理縮放定律—— 實(shí)驗(yàn)證明,在多個(gè) VLA 模型中,動(dòng)作誤差與采樣數(shù)量之間呈現(xiàn)冪律關(guān)系。
- 可擴(kuò)展的驗(yàn)證器訓(xùn)練流程—— 構(gòu)建了一條自動(dòng)生成動(dòng)作偏好數(shù)據(jù)的方法,并基于此提出了訓(xùn)練 VLM 動(dòng)作驗(yàn)證器的框架。
- 驗(yàn)證 Test-Time Scaling 的有效性—— 證明了所提出的 test-time scaling 框架能夠在無需重新訓(xùn)練 VLA 的前提下顯著增強(qiáng) VLA 模型的表現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.