夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

斯坦福、英偉達(dá)和伯克利提出具身Test-Time Scaling Law

0
分享至



本文的第一作者為斯坦福大學(xué)博士生 Jacky Kwok。共同通訊作者包括英偉達(dá)自動(dòng)駕駛研究總監(jiān) Marco Pavone、斯坦福大學(xué)計(jì)算機(jī)系教授兼 DeepMind 科學(xué)家 Azalia Mirhoseini,以及 UC 伯克利教授 Ion Stoica。

Vision-Language-Action(VLA)模型在視覺運(yùn)動(dòng)控制中展現(xiàn)出了卓越能力,但如何在復(fù)雜的真實(shí)世界中保持魯棒性仍是一個(gè)長(zhǎng)期挑戰(zhàn)。研究團(tuán)隊(duì)展示了一個(gè)關(guān)鍵發(fā)現(xiàn):在推理階段,結(jié)合「生成 - 驗(yàn)證」(generate-and-verify)范式從而增加計(jì)算量(test-time compute)可以顯著提升 VLA 模型的泛化能力與可靠性。

與此同時(shí),論文系統(tǒng)性地探討了具身智能中的 Test-Time Scaling Law:隨著推理階段的采樣與驗(yàn)證規(guī)模增長(zhǎng),VLA 模型在任務(wù)成功率和穩(wěn)定性方面呈現(xiàn)出可預(yù)測(cè)的提升規(guī)律。



  • 論文標(biāo)題:RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
  • 論文地址:https://arxiv.org/abs/2506.17811
  • 代碼鏈接:robomonkey-vla.github.io
  • 作者郵箱:jackykwok@stanford.edu
  • 接收會(huì)議:CoRL 2025

具身 Test-Time Scaling Law



團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn):當(dāng)在推理階段增加候選動(dòng)作的生成數(shù)量時(shí),VLA 的動(dòng)作誤差會(huì)持續(xù)下降。具體來說,無論是反復(fù)從機(jī)器人策略模型中采樣動(dòng)作、對(duì)部分采樣動(dòng)作施加高斯擾動(dòng),還是在離散動(dòng)作空間中進(jìn)行隨機(jī)采樣,這些方法在有「理想驗(yàn)證器」(oracle verifier)的前提下,都能顯著優(yōu)于單次推理的 OpenVLA 基線。

團(tuán)隊(duì)還揭示出一個(gè)冪律規(guī)律(power law):在多種主流 VLA 模型(包括 CogACT、Octo、OpenVLA 和 SpatialVLA)中,動(dòng)作誤差與高斯擾動(dòng)采樣數(shù)量之間呈現(xiàn)出穩(wěn)定的冪律關(guān)系。這意味著,機(jī)器人控制問題不應(yīng)僅僅被視為一個(gè)「生成」任務(wù);相反,生成候選動(dòng)作 + 驗(yàn)證篩選的范式,能在不改動(dòng)訓(xùn)練模型的前提下顯著提升性能。研究者希望這一發(fā)現(xiàn)能夠推動(dòng)動(dòng)作驗(yàn)證器(scalable action verifiers)的發(fā)展,為通用機(jī)器人模型提供更穩(wěn)健的落地路徑。

核心問題

在提出具身 Test-Time Scaling Law 之后,研究團(tuán)隊(duì)進(jìn)一步聚焦于三個(gè)關(guān)鍵問題:

  • 驗(yàn)證器訓(xùn)練:是否能夠利用訓(xùn)練得到的動(dòng)作驗(yàn)證器(action verifier)來替代 oracle verifier,以提升 VLA 的穩(wěn)定性?
  • 合成數(shù)據(jù)擴(kuò)展:能否構(gòu)建大規(guī)模合成數(shù)據(jù)來訓(xùn)練驗(yàn)證器,從而推動(dòng)下游任務(wù)的性能提升?
  • 實(shí)際部署可行性:如何設(shè)計(jì)高效的算法與系統(tǒng),使 test-time scaling 在真實(shí)機(jī)器人上實(shí)現(xiàn)低延遲、可擴(kuò)展的部署?

方法概述

階段一?動(dòng)作驗(yàn)證器訓(xùn)練



研究者首先利用機(jī)器人數(shù)據(jù)集,用 VLA 為每個(gè)狀態(tài)采樣 N 個(gè)候選動(dòng)作,并通過聚類將其壓縮為 K 個(gè)具有代表性的動(dòng)作。隨后,基于候選動(dòng)作與真實(shí)動(dòng)作(ground truth action) 的RMSE 差異構(gòu)造合成偏好數(shù)據(jù)(synthetic action preference dataset),并用其微調(diào)一個(gè)基于 VLM 的動(dòng)作驗(yàn)證器 (VLM-based verifier),賦予模型對(duì)動(dòng)作優(yōu)劣的判別能力。該驗(yàn)證器的訓(xùn)練損失函數(shù)遵循 Bradley-Terry 模型,并在此基礎(chǔ)上加入了對(duì)偏好強(qiáng)度(preference levels)的修正項(xiàng)。



階段二?推理階段的計(jì)算擴(kuò)展



在實(shí)際部署中,系統(tǒng)會(huì)根據(jù)任務(wù)指令和環(huán)境觀測(cè),用 VLA 采樣 N? 個(gè)初始動(dòng)作。研究者對(duì)這些動(dòng)作的平移與旋轉(zhuǎn)部分擬合高斯分布,并通過多數(shù)投票(majority voting)確定抓取器的開合狀態(tài),構(gòu)建出高效的動(dòng)作分布。由此便可以在幾乎不增加計(jì)算開銷的前提下,快速采樣出 K? 個(gè)候選動(dòng)作。最后,利用在階段一中訓(xùn)練好的 VLM 動(dòng)作驗(yàn)證器,對(duì)這些候選動(dòng)作進(jìn)行評(píng)估和排序,從中挑選出最優(yōu)動(dòng)作執(zhí)行。

實(shí)驗(yàn)結(jié)果



研究表明將 VLA 模型與 RoboMonkey 結(jié)合可以帶來顯著性能提升:

  • 在真實(shí)世界的 out-of-distribution tasks 上 + 25%
  • 在 in-distribution SIMPLER 環(huán)境上 + 9%
  • 在 LIBERO-Long benchmark+7%

這些結(jié)果表明,RoboMonkey 不僅提升了整體成功率,還能在部署時(shí)有效緩解以下關(guān)鍵問題:

  • 抓取不精準(zhǔn)
  • 任務(wù)推進(jìn)失敗
  • 碰撞問題



擴(kuò)展合成數(shù)據(jù)



實(shí)驗(yàn)結(jié)果表明,擴(kuò)展合成數(shù)據(jù)集規(guī)模對(duì)驗(yàn)證器性能有顯著提升作用。隨著數(shù)據(jù)規(guī)模逐步增加,RoboMonkey 驗(yàn)證器的準(zhǔn)確性呈近似對(duì)數(shù)線性(log-linear)增長(zhǎng),并在 SIMPLER 環(huán)境上的成功率顯著提高。

高效推理部署



為了讓 Test-Time Scaling 在真實(shí)系統(tǒng)中具備可部署性,研究團(tuán)隊(duì)在 SGLang 之上實(shí)現(xiàn)了一個(gè)專用的VLA serving 引擎。該引擎支持高速的 VLA 動(dòng)作重復(fù)采樣,并通過高斯擾動(dòng)高效地構(gòu)建動(dòng)作分布(action proposal distribution)。這一系統(tǒng)優(yōu)化顯著降低了推理階段的開銷。

此外,從系統(tǒng)架構(gòu)的角度來看,RoboMonkey 在相同的延遲約束(latency target)下,如果配備了更大容量的高帶寬存儲(chǔ)器(HBM),GPU 就能夠支持更高的吞吐量(throughput),從而進(jìn)一步提升機(jī)器人基礎(chǔ)模型的泛化能力。

總結(jié)

本文的主要貢獻(xiàn)可總結(jié)如下:

  • 提出具身推理縮放定律—— 實(shí)驗(yàn)證明,在多個(gè) VLA 模型中,動(dòng)作誤差與采樣數(shù)量之間呈現(xiàn)冪律關(guān)系。
  • 可擴(kuò)展的驗(yàn)證器訓(xùn)練流程—— 構(gòu)建了一條自動(dòng)生成動(dòng)作偏好數(shù)據(jù)的方法,并基于此提出了訓(xùn)練 VLM 動(dòng)作驗(yàn)證器的框架。
  • 驗(yàn)證 Test-Time Scaling 的有效性—— 證明了所提出的 test-time scaling 框架能夠在無需重新訓(xùn)練 VLA 的前提下顯著增強(qiáng) VLA 模型的表現(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
江同志為什么從來不焦慮

江同志為什么從來不焦慮

詹國(guó)樞
2025-10-14 13:09:15
黑導(dǎo)游李海被抓!在泰國(guó)威脅中國(guó)游客,局長(zhǎng)帶隊(duì)調(diào)查,還是個(gè)慣犯

黑導(dǎo)游李海被抓!在泰國(guó)威脅中國(guó)游客,局長(zhǎng)帶隊(duì)調(diào)查,還是個(gè)慣犯

好賢觀史記
2025-10-15 17:45:02
臺(tái)北車站一醉酒女游客被男子拖至墻邊性侵超10分鐘,現(xiàn)場(chǎng)竟無人出手相助

臺(tái)北車站一醉酒女游客被男子拖至墻邊性侵超10分鐘,現(xiàn)場(chǎng)竟無人出手相助

都市快報(bào)橙柿互動(dòng)
2025-10-16 08:10:57
26萬買近100平米電梯房?成都一套“兇宅”網(wǎng)上開賣 輔拍公司宣稱可“零風(fēng)險(xiǎn)”過戶丨底稿

26萬買近100平米電梯房?成都一套“兇宅”網(wǎng)上開賣 輔拍公司宣稱可“零風(fēng)險(xiǎn)”過戶丨底稿

封面新聞
2025-10-15 19:25:04
失去渴望和斗志!揭秘32歲布羅格登突然宣布退役 尼克斯感到震驚

失去渴望和斗志!揭秘32歲布羅格登突然宣布退役 尼克斯感到震驚

羅說NBA
2025-10-16 07:56:37
沙特王子離奇重病赴華求醫(yī),中醫(yī)把脈3分鐘,1句話讓隨行醫(yī)生傻眼

沙特王子離奇重病赴華求醫(yī),中醫(yī)把脈3分鐘,1句話讓隨行醫(yī)生傻眼

小哥很OK
2025-10-14 17:59:41
印尼防長(zhǎng):將采購(gòu)中國(guó)殲-10戰(zhàn)斗機(jī)

印尼防長(zhǎng):將采購(gòu)中國(guó)殲-10戰(zhàn)斗機(jī)

環(huán)球網(wǎng)資訊
2025-10-16 09:13:12
涉嫌嚴(yán)重違紀(jì)違法,4名將領(lǐng)被罷免人大代表原因披露

涉嫌嚴(yán)重違紀(jì)違法,4名將領(lǐng)被罷免人大代表原因披露

觀察者網(wǎng)
2025-10-16 09:29:13
新郎跳河真相大白!雙方激烈爭(zhēng)吵,女方自稱無責(zé),最后1句話曝光

新郎跳河真相大白!雙方激烈爭(zhēng)吵,女方自稱無責(zé),最后1句話曝光

千言?shī)蕵酚?/span>
2025-10-16 07:56:41
中方一步不退,特朗普難以置信,美高官:3億美民眾已經(jīng)準(zhǔn)備好了

中方一步不退,特朗普難以置信,美高官:3億美民眾已經(jīng)準(zhǔn)備好了

天氣觀察站
2025-10-16 11:47:31
被區(qū)別對(duì)待、掛滿不歡迎中國(guó)人,德韓街頭滿是“針對(duì)”,誰還去

被區(qū)別對(duì)待、掛滿不歡迎中國(guó)人,德韓街頭滿是“針對(duì)”,誰還去

姩姩有娛
2025-10-13 18:36:22
深度調(diào)查!妙瓦底現(xiàn)狀:電詐園區(qū)仍在瘋狂擴(kuò)張,并用上了星鏈技術(shù)

深度調(diào)查!妙瓦底現(xiàn)狀:電詐園區(qū)仍在瘋狂擴(kuò)張,并用上了星鏈技術(shù)

一只番茄魚
2025-10-15 08:34:02
上海最新確認(rèn)!雷雨+大風(fēng)!氣溫即將大轉(zhuǎn)折,終于輪到長(zhǎng)袖、棉毛褲“上場(chǎng)”了...

上海最新確認(rèn)!雷雨+大風(fēng)!氣溫即將大轉(zhuǎn)折,終于輪到長(zhǎng)袖、棉毛褲“上場(chǎng)”了...

魯中晨報(bào)
2025-10-16 12:52:05
貨車司機(jī)花7000塊修車后續(xù):總部已介入,老板登門道歉,網(wǎng)友炸鍋

貨車司機(jī)花7000塊修車后續(xù):總部已介入,老板登門道歉,網(wǎng)友炸鍋

另子維愛讀史
2025-10-15 22:36:08
172cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭暈了…

172cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭暈了…

健身迷
2025-10-16 10:10:40
花1.2萬元提前鎖定2026年旅行?業(yè)內(nèi)人士:“囤機(jī)票”可能翻車,看清退改簽是關(guān)鍵

花1.2萬元提前鎖定2026年旅行?業(yè)內(nèi)人士:“囤機(jī)票”可能翻車,看清退改簽是關(guān)鍵

封面新聞
2025-10-15 17:41:04
稀土牌一出,29國(guó)對(duì)華發(fā)難,3架專機(jī)就緒,中方已有破局之道

稀土牌一出,29國(guó)對(duì)華發(fā)難,3架專機(jī)就緒,中方已有破局之道

現(xiàn)代小青青慕慕
2025-10-16 11:10:17
一女子因外陰癌走了,生前潔身自好,醫(yī)生:這兩個(gè)細(xì)節(jié)害人

一女子因外陰癌走了,生前潔身自好,醫(yī)生:這兩個(gè)細(xì)節(jié)害人

黃家湖的憂傷
2025-10-13 15:37:30
養(yǎng)老院開始退場(chǎng)了?到2025年后,或?qū)⒂瓉韨鹘y(tǒng)養(yǎng)老院的“閉院潮”

養(yǎng)老院開始退場(chǎng)了?到2025年后,或?qū)⒂瓉韨鹘y(tǒng)養(yǎng)老院的“閉院潮”

削桐作琴
2025-10-15 19:23:53
國(guó)企也開始裁員了,合同到期不給續(xù)了…

國(guó)企也開始裁員了,合同到期不給續(xù)了…

微微熱評(píng)
2025-10-15 20:55:03
2025-10-16 14:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11479文章數(shù) 142482關(guān)注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級(jí)” 團(tuán)隊(duì)

頭條要聞

店員按男明星要求挪桌弄碎100萬玉鐲 老板娘臉色煞白

頭條要聞

店員按男明星要求挪桌弄碎100萬玉鐲 老板娘臉色煞白

體育要聞

這支闖入世青賽決賽的摩洛哥,有多純粹?

娛樂要聞

榮梓杉塌房太離譜!出軌家暴還反咬?

財(cái)經(jīng)要聞

愛爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

有車生活從0到1 奇瑞QQ冰淇淋帶你看懂小車哲學(xué)

態(tài)度原創(chuàng)

藝術(shù)
健康
教育
手機(jī)
數(shù)碼

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

內(nèi)分泌科專家破解身高八大謠言

教育要聞

三年級(jí)奧數(shù),九宮格填數(shù)字,記住口訣輕松解決

手機(jī)要聞

vivo稱王但同比在跌,OPPO第五,榮耀沒進(jìn)前五

數(shù)碼要聞

蘋果發(fā)布14英寸M5芯片MacBook Pro:售價(jià)12999元起

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品XX| 无码人妻精品字幕视频乱码| 裸身美女无遮挡永久免费视频| japanese熟妇| 免费无码人成视在线观看不卡| 国产熟女一区| 国产老熟女精品久久久久影院黑人| 久久无码人妻影院| 中国凸偷窥xxxx自由视频妇科| 亚洲av永久无码精品漫画| 波多野吉衣被躁57分钟| 啊v在线观看| 中国熟妇色XXXX| 国产精品 Ⅹ| 天天躁日日躁狠狠躁aⅴ| 国产亚洲精品字幕在线观看| 亚洲日韩寡妇久久久久久| 嫩草国产露脸精品国产软件| 欧美精致人妻视频| 99久久免费只有精品国产| 女人18毛片a级毛片嫰阝 | 久久超碰精品一夜七次郎| 亚洲无色网站| 国产一区二区日韩在线| 人妻91丨PORNY| 亚洲精品在线视频自拍| av无码久久久久不卡网站下载| 亚洲伊人精品酒店| 亚洲国产精品日韩av专区| 一局二局无码视频| 国产亚洲精品a在线看| 国产精品1AV一区二区| 国精品午夜福利视频不卡| 久久九九99| 亚洲69网站| 肏屄视频在线播放| www.无码视频.com| 免费无码成人又爽又高潮| 日韩精品成人短视频| 亚洲一二三区精品与老人| 亚洲激情另类|