網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福、英偉達(dá)和伯克利提出具身Test-Time Scaling Law

2025-10-14 14:21:09　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

本文的第一作者為斯坦福大學(xué)博士生 Jacky Kwok。共同通訊作者包括英偉達(dá)自動(dòng)駕駛研究總監(jiān) Marco Pavone、斯坦福大學(xué)計(jì)算機(jī)系教授兼 DeepMind 科學(xué)家 Azalia Mirhoseini，以及 UC 伯克利教授 Ion Stoica。

Vision-Language-Action（VLA）模型在視覺運(yùn)動(dòng)控制中展現(xiàn)出了卓越能力，但如何在復(fù)雜的真實(shí)世界中保持魯棒性仍是一個(gè)長(zhǎng)期挑戰(zhàn)。研究團(tuán)隊(duì)展示了一個(gè)關(guān)鍵發(fā)現(xiàn)：在推理階段，結(jié)合「生成 - 驗(yàn)證」（generate-and-verify）范式從而增加計(jì)算量（test-time compute）可以顯著提升 VLA 模型的泛化能力與可靠性。

與此同時(shí)，論文系統(tǒng)性地探討了具身智能中的 Test-Time Scaling Law：隨著推理階段的采樣與驗(yàn)證規(guī)模增長(zhǎng)，VLA 模型在任務(wù)成功率和穩(wěn)定性方面呈現(xiàn)出可預(yù)測(cè)的提升規(guī)律。

論文標(biāo)題：RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
論文地址：https://arxiv.org/abs/2506.17811
代碼鏈接：robomonkey-vla.github.io
作者郵箱：jackykwok@stanford.edu
接收會(huì)議：CoRL 2025

具身 Test-Time Scaling Law

團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)：當(dāng)在推理階段增加候選動(dòng)作的生成數(shù)量時(shí)，VLA 的動(dòng)作誤差會(huì)持續(xù)下降。具體來說，無論是反復(fù)從機(jī)器人策略模型中采樣動(dòng)作、對(duì)部分采樣動(dòng)作施加高斯擾動(dòng)，還是在離散動(dòng)作空間中進(jìn)行隨機(jī)采樣，這些方法在有「理想驗(yàn)證器」（oracle verifier）的前提下，都能顯著優(yōu)于單次推理的 OpenVLA 基線。

團(tuán)隊(duì)還揭示出一個(gè)冪律規(guī)律（power law）：在多種主流 VLA 模型（包括 CogACT、Octo、OpenVLA 和 SpatialVLA）中，動(dòng)作誤差與高斯擾動(dòng)采樣數(shù)量之間呈現(xiàn)出穩(wěn)定的冪律關(guān)系。這意味著，機(jī)器人控制問題不應(yīng)僅僅被視為一個(gè)「生成」任務(wù)；相反，生成候選動(dòng)作 + 驗(yàn)證篩選的范式，能在不改動(dòng)訓(xùn)練模型的前提下顯著提升性能。研究者希望這一發(fā)現(xiàn)能夠推動(dòng)動(dòng)作驗(yàn)證器（scalable action verifiers）的發(fā)展，為通用機(jī)器人模型提供更穩(wěn)健的落地路徑。

核心問題

在提出具身 Test-Time Scaling Law 之后，研究團(tuán)隊(duì)進(jìn)一步聚焦于三個(gè)關(guān)鍵問題：

驗(yàn)證器訓(xùn)練：是否能夠利用訓(xùn)練得到的動(dòng)作驗(yàn)證器（action verifier）來替代 oracle verifier，以提升 VLA 的穩(wěn)定性？
合成數(shù)據(jù)擴(kuò)展：能否構(gòu)建大規(guī)模合成數(shù)據(jù)來訓(xùn)練驗(yàn)證器，從而推動(dòng)下游任務(wù)的性能提升？
實(shí)際部署可行性：如何設(shè)計(jì)高效的算法與系統(tǒng)，使 test-time scaling 在真實(shí)機(jī)器人上實(shí)現(xiàn)低延遲、可擴(kuò)展的部署？

方法概述

階段一?動(dòng)作驗(yàn)證器訓(xùn)練

研究者首先利用機(jī)器人數(shù)據(jù)集，用 VLA 為每個(gè)狀態(tài)采樣 N 個(gè)候選動(dòng)作，并通過聚類將其壓縮為 K 個(gè)具有代表性的動(dòng)作。隨后，基于候選動(dòng)作與真實(shí)動(dòng)作（ground truth action）的RMSE 差異構(gòu)造合成偏好數(shù)據(jù)（synthetic action preference dataset），并用其微調(diào)一個(gè)基于 VLM 的動(dòng)作驗(yàn)證器（VLM-based verifier），賦予模型對(duì)動(dòng)作優(yōu)劣的判別能力。該驗(yàn)證器的訓(xùn)練損失函數(shù)遵循 Bradley-Terry 模型，并在此基礎(chǔ)上加入了對(duì)偏好強(qiáng)度（preference levels）的修正項(xiàng)。

階段二?推理階段的計(jì)算擴(kuò)展

在實(shí)際部署中，系統(tǒng)會(huì)根據(jù)任務(wù)指令和環(huán)境觀測(cè)，用 VLA 采樣 N? 個(gè)初始動(dòng)作。研究者對(duì)這些動(dòng)作的平移與旋轉(zhuǎn)部分擬合高斯分布，并通過多數(shù)投票（majority voting）確定抓取器的開合狀態(tài)，構(gòu)建出高效的動(dòng)作分布。由此便可以在幾乎不增加計(jì)算開銷的前提下，快速采樣出 K? 個(gè)候選動(dòng)作。最后，利用在階段一中訓(xùn)練好的 VLM 動(dòng)作驗(yàn)證器，對(duì)這些候選動(dòng)作進(jìn)行評(píng)估和排序，從中挑選出最優(yōu)動(dòng)作執(zhí)行。

實(shí)驗(yàn)結(jié)果

研究表明將 VLA 模型與 RoboMonkey 結(jié)合可以帶來顯著性能提升：

在真實(shí)世界的 out-of-distribution tasks 上 + 25%
在 in-distribution SIMPLER 環(huán)境上 + 9%
在 LIBERO-Long benchmark+7%

這些結(jié)果表明，RoboMonkey 不僅提升了整體成功率，還能在部署時(shí)有效緩解以下關(guān)鍵問題：

抓取不精準(zhǔn)
任務(wù)推進(jìn)失敗
碰撞問題

擴(kuò)展合成數(shù)據(jù)

實(shí)驗(yàn)結(jié)果表明，擴(kuò)展合成數(shù)據(jù)集規(guī)模對(duì)驗(yàn)證器性能有顯著提升作用。隨著數(shù)據(jù)規(guī)模逐步增加，RoboMonkey 驗(yàn)證器的準(zhǔn)確性呈近似對(duì)數(shù)線性（log-linear）增長(zhǎng)，并在 SIMPLER 環(huán)境上的成功率顯著提高。

高效推理部署

為了讓 Test-Time Scaling 在真實(shí)系統(tǒng)中具備可部署性，研究團(tuán)隊(duì)在 SGLang 之上實(shí)現(xiàn)了一個(gè)專用的VLA serving 引擎。該引擎支持高速的 VLA 動(dòng)作重復(fù)采樣，并通過高斯擾動(dòng)高效地構(gòu)建動(dòng)作分布（action proposal distribution）。這一系統(tǒng)優(yōu)化顯著降低了推理階段的開銷。

此外，從系統(tǒng)架構(gòu)的角度來看，RoboMonkey 在相同的延遲約束（latency target）下，如果配備了更大容量的高帶寬存儲(chǔ)器（HBM），GPU 就能夠支持更高的吞吐量（throughput），從而進(jìn)一步提升機(jī)器人基礎(chǔ)模型的泛化能力。

總結(jié)

本文的主要貢獻(xiàn)可總結(jié)如下：

提出具身推理縮放定律—— 實(shí)驗(yàn)證明，在多個(gè) VLA 模型中，動(dòng)作誤差與采樣數(shù)量之間呈現(xiàn)冪律關(guān)系。
可擴(kuò)展的驗(yàn)證器訓(xùn)練流程—— 構(gòu)建了一條自動(dòng)生成動(dòng)作偏好數(shù)據(jù)的方法，并基于此提出了訓(xùn)練 VLM 動(dòng)作驗(yàn)證器的框架。
驗(yàn)證 Test-Time Scaling 的有效性—— 證明了所提出的 test-time scaling 框架能夠在無需重新訓(xùn)練 VLA 的前提下顯著增強(qiáng) VLA 模型的表現(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.