夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「不僅會想,還能準確去做」VLA-R1把「推理+行動」帶進真實世界

0
分享至





在機器人與智能體領(lǐng)域,一個老大難問題是:當你讓機器人 “把黃碗放進白色空籃子” 或 “從微波爐里把牛奶取出來放到餐桌上” 時,它不僅要看懂環(huán)境,更要解釋指令、規(guī)劃路徑 / 可操作區(qū)域,并把這些推理落實為準確的動作。目前,很多 VLA(Vision-Language-Action)模型仍傾向直接輸出動作,缺乏對可供性(affordance)與軌跡(trajectory)幾何關(guān)系的顯式推理,一旦遇到顏色相近、目標重復(fù)或容器多選等場景,就容易出錯。VLA-R1 的目標,不僅把 “會想” 這步補上,而且通過強化學(xué)習(xí)進一步加強執(zhí)行動作的準確性,讓機器人解釋清楚再去準確執(zhí)行

VLA-R1 出場:它是什么?



  • 論文標題:VLA-R1: Enhancing Reasoning in Vision-Language-Action Models
  • 文章鏈接:https://arxiv.org/abs/2510.01623
  • 項目主頁:https://gigaai-research.github.io/VLA-R1/

一句話概括:VLA-R1 是一個 “先推理、后執(zhí)行” 的 VLA(視覺 - 語言 - 行動)基礎(chǔ)模型。它把鏈式思維(CoT)監(jiān)督可驗證獎勵的強化學(xué)習(xí)(RLVR,基于 GRPO)結(jié)合起來,同時優(yōu)化 “推理質(zhì)量” 和 “執(zhí)行正確性”。簡單說,就是讓模型既能把思考過程講明白,還能把動作做準。

關(guān)鍵創(chuàng)新點

1)兩階段訓(xùn)練:SFT + RL(基于 GRPO)



先用顯式 CoT 監(jiān)督做有教師的指令微調(diào)(SFT),再用可驗證獎勵做后訓(xùn)練強化(GRPO)。后者通過組內(nèi)歸一化優(yōu)勢與 KL 約束,穩(wěn)定地把 “會想” 轉(zhuǎn)化為 “會做”。推理輸出采用固定結(jié)構(gòu): + …,從而保證可讀、可查錯。

2)三類 “可驗證獎勵”(RLVR)直擊 “看準 + 走對 + 格式對”

  • 空間對齊獎勵(GIoU):即使預(yù)測框與真值不相交也能得到有效梯度,也能提供有效梯度,顯著加速區(qū)域?qū)R與學(xué)習(xí)穩(wěn)定性;
  • 軌跡一致性獎勵(引入角度及段長比值的 Fréchet 距離(ALHF)):綜合位置、切向角度與段長尺度,懲罰 “軌跡形狀不對,彎曲不合理,段長突變” 的情況;
  • 輸出格式獎勵:強制推理段與動作段結(jié)構(gòu)化輸出,減少 “答非所問”。



3)VLA-CoT 數(shù)據(jù)引擎與 VLA-CoT-13K 數(shù)據(jù)集

為讓模型 “學(xué)會按步驟思考”,作者用Qwen2.5-VL-72B自動生成可供性與軌跡兩類任務(wù)的結(jié)構(gòu)化 CoT,并在提示中固定四步范式,最終得到13K條與視覺 / 動作嚴格對齊的 CoT 標注,用作 SFT 的高質(zhì)量監(jiān)督信號。





實驗速覽

VLA-R1 在四個層級進行了系統(tǒng)評測:域內(nèi)(In-Domain)測試、域外(Out-of-Domain)測試、仿真平臺、真實機器人實驗。此外還做了有無 CoT,RL 的消融實驗以證明方法的有效性。



基準集(In-Domain)

VLA-R1 的基準集來自團隊自建的VLA-CoT-13K數(shù)據(jù)引擎,共含約 1.3 萬條視覺 - 語言 - 行動樣本,任務(wù)涵蓋 “可供性識別(Affordance Detection)” 與 “軌跡規(guī)劃(Trajectory Generation)” 兩大類。場景以桌面和實驗室為主,光照均勻、背景簡潔,包含碗、杯、勺、筆、盒子、籃子等常見物體,每條數(shù)據(jù)都配有精確的區(qū)域標注、軌跡點坐標和配套的鏈式思維推理。

實驗結(jié)果

  • 可供性 IoU,比強基線 ManipLVM-R1提升 17.78%
  • 軌跡平均誤差(Avg),相對基線降 17.25%

域外集(Out-of-Domain)

為了檢驗?zāi)P偷姆夯c語義遷移能力,研究團隊引入兩個全新測試集:UMD DatasetVAIT Dataset。UMD 提供豐富的家庭物體及其功能標簽(如 graspable、containable 等),而 VAIT 著重考察視覺場景與自然語言指令的對應(yīng)關(guān)系。與基準集相比,域外數(shù)據(jù)在物體類別、背景風(fēng)格、光照條件及語言結(jié)構(gòu)上均存在顯著差異,幾乎不存在訓(xùn)練重疊。

實驗結(jié)果

  • 可供性 IoU,在 UMD 數(shù)據(jù)集上仍然保持領(lǐng)先。
  • 軌跡平均誤差(Avg),在 VAIT 子集上展現(xiàn)穩(wěn)健泛化

真實機器人(4 個餐桌場景)

在 VLA-R1 的真實機器人實驗中,作者共設(shè)計了四個桌面場景(S1–S4),每個場景都針對不同的環(huán)境復(fù)雜度與視覺干擾進行布置,用以驗證模型在真實視覺條件下的穩(wěn)健性與泛化性。S1 為彩色碗拾取與放置場景,主要測試模型在多種顏色相近物體下的目標區(qū)分與空間定位能力;S2 為水果拾取場景,物體外觀相似且數(shù)量較多,用于考察模型在同類物體識別與實例辨析下的可供性推理;S3 為廚房復(fù)雜遮擋場景,實驗臺上布置微波爐等大型遮擋物,考查模型在部分可見與非均勻光照環(huán)境下的穩(wěn)健推理;S4 為混合雜亂場景,包含多類別、不同屬性的日常物體,模擬多目標混放與多容器選擇的真實桌面環(huán)境。四個場景均采用相同的機械臂與相機系統(tǒng),在隨機物體排列與任務(wù)順序下獨立進行十次實驗,以評估模型在真實干擾條件中的整體穩(wěn)定性與任務(wù)一致性。





  • 可供性感知 SR:62.5%;軌跡執(zhí)行 SR:75%。
  • 顏色相近、遮擋、目標擾動等干擾下,VLA-R1 仍能給出空間一致、接近目標的預(yù)測。

仿真(Piper / UR5,測試跨機器人平臺通用性)

為測試跨平臺通用性,VLA-R1 被部署到兩種機械臂仿真環(huán)境:輕量級的 Piper 與工業(yè)級的 UR5。仿真任務(wù)涵蓋多種隨機物體與動作指令。





  • 可供性 SR:60% / 50%;軌跡 SR:80% / 60%,
  • 跨機器人維持較好成功率,顯示出跨平臺泛化潛力。

消融實驗

為了測試 CoT,RL 的有效性,論文分別進行了直接輸出軌跡,只用 CoT,以及 CoT+RL 后訓(xùn)練三種實驗的對比



  • 只用 CoT(無 RL):IoU 從 23.74 → 28.37,軌跡誤差也小幅下降;
  • CoT + RL:進一步把 IoU 拉到 36.51,軌跡各項顯著改進,說明 “先學(xué)會想,再用獎勵把想法煉成動作” 是有效路徑。

Demo 展示

思考過程展示



真機平臺





仿真平臺



應(yīng)用前景

家居拾放 / 收納等日常操控:面向客廳 / 廚房 / 書桌等開放環(huán)境,VLA-R1 可在多物體、光照不均、紋理干擾與部分遮擋下穩(wěn)定完成 “找 — 拿 — 放” 的閉環(huán)。它先用顯式推理消解 “相似目標 / 相近顏色 / 多個容器可選” 等歧義,再輸出可供性區(qū)域與可執(zhí)行軌跡,最終由低層控制棧完成抓取與放置。典型場景包括:將勺子→碗、筆→白盒、香蕉→籃子的收納,或在反光桌面、雜物堆疊的桌面上進行安全、可解釋的物品整理。

倉揀 / 輕工裝配:在料箱揀選、工位配盤、工裝上料等流程中,VLA-R1 把 “部件 — 工具 — 容器 / 工位” 的三元關(guān)系明確寫在推理里(如 “為何選擇該容器 / 該姿態(tài) / 該路徑”),再生成滿足安全距離與路徑順滑度的軌跡,減少誤抓與誤放。它對重復(fù)件、套件、易混部件尤其有效:可在同批次零件中依據(jù)形狀 / 位置 / 容器容量做出解釋性選擇;同時結(jié)構(gòu)化輸出便于與 MES/PLC/ 視覺檢測系統(tǒng)對接,形成可追溯的產(chǎn)線閉環(huán)。

教學(xué) / 評測平臺:VLA-R1 的 < think>…+… 格式天然適合教學(xué)演示與自動化評分:教師 / 研究者能直接檢查 “任務(wù)解析、場景理解、可供性定位、可行性校驗、軌跡邏輯” 等中間步驟是否合理。配合標準化的 IoU/Fréchet / 成功率等指標,可將其用作課程與競賽的基線模型,學(xué)生只需替換數(shù)據(jù)或模塊,即可對比 “僅 SFT”“SFT+RL”“不同獎勵 / 不同數(shù)據(jù)引擎” 的差異,快速定位問題與量化改進效果。

作者介紹

葉安根是中國科學(xué)院自動化研究所模式識別與智能系統(tǒng)方向的在讀博士,研究方向聚焦于強化學(xué)習(xí)、機器人操作、具身智能。曾參與多項科研項目,致力于通過強化學(xué)習(xí)構(gòu)建少樣本、多任務(wù)的通用機器人系統(tǒng)。

張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導(dǎo)的本科研究員。他的研究興趣扎根于計算機視覺領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個研究領(lǐng)域擁有豐富的經(jīng)驗,積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進展。

通訊作者朱政,極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家,2019 年博士畢業(yè)于中國科學(xué)院自動化研究所;2019 年至 2021 年在清華大學(xué)自動化系從事博士后研究。在 TPAMI、 CVPR、ICCV、 ECCV、NeurIPS 等頂級期刊和會議上發(fā)表論文 70 余篇,文章總引用 16000 余次 (Google Citations),連續(xù) 4 年入選全球前 2% 頂尖科學(xué)家榜單。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
馬斯克前女友艾梅柏,為藝術(shù)獻身拍大尺度,堪稱“尤物”是真美

馬斯克前女友艾梅柏,為藝術(shù)獻身拍大尺度,堪稱“尤物”是真美

黃謀仕
2025-10-29 11:55:44
李想比雷軍更煎熬!三次燃燒的理想車,崩塌的護城河

李想比雷軍更煎熬!三次燃燒的理想車,崩塌的護城河

象視汽車
2025-10-28 07:00:04
好消息,杜蘭特表示,如果替補角色能幫助火箭隊贏球,他愿意接受

好消息,杜蘭特表示,如果替補角色能幫助火箭隊贏球,他愿意接受

好火子
2025-10-30 00:52:29
調(diào)離山東后:陳毅本不愿再管華野,何事惹他發(fā)電訓(xùn)三位司令

調(diào)離山東后:陳毅本不愿再管華野,何事惹他發(fā)電訓(xùn)三位司令

有歷史
2023-11-20 15:38:10
不管你信不信,男人過了63后,基本都有如6個現(xiàn)狀,要學(xué)會接受!

不管你信不信,男人過了63后,基本都有如6個現(xiàn)狀,要學(xué)會接受!

戶外小阿隋
2025-10-30 00:45:23
TA:阿隆索大力整頓皇馬壞習(xí)慣,這讓他和球星之間出現(xiàn)裂隙

TA:阿隆索大力整頓皇馬壞習(xí)慣,這讓他和球星之間出現(xiàn)裂隙

雷速體育
2025-10-29 17:38:13
美日韓外長會取消

美日韓外長會取消

參考消息
2025-10-29 18:33:07
新院長把我從主刀醫(yī)生調(diào)去后勤,第二天隔壁醫(yī)院院長堵在我家門口

新院長把我從主刀醫(yī)生調(diào)去后勤,第二天隔壁醫(yī)院院長堵在我家門口

黃小乖的日記
2025-10-29 17:19:18
小米SU7 Ultra“前艙空氣動力學(xué)免費升級”,新增兩個葉片

小米SU7 Ultra“前艙空氣動力學(xué)免費升級”,新增兩個葉片

紅星新聞
2025-10-28 17:11:13
芋頭立大功!醫(yī)生調(diào)查發(fā)現(xiàn):芋頭對這幾種慢性病有好處,可以常吃

芋頭立大功!醫(yī)生調(diào)查發(fā)現(xiàn):芋頭對這幾種慢性病有好處,可以常吃

素衣讀史
2025-10-29 13:13:27
分享解剖學(xué)知識,破除多年來的G點謠傳

分享解剖學(xué)知識,破除多年來的G點謠傳

遠方青木
2025-10-25 00:06:11
常說的春秋筆法是什么?網(wǎng)友:春秋筆法微言大義,批評人很隱晦

常說的春秋筆法是什么?網(wǎng)友:春秋筆法微言大義,批評人很隱晦

解讀熱點事件
2025-10-29 00:10:03
王耀慶調(diào)侃鐘楚曦“搶C位”?網(wǎng)友:這很沒禮貌

王耀慶調(diào)侃鐘楚曦“搶C位”?網(wǎng)友:這很沒禮貌

楓塵余往逝
2025-10-28 23:56:07
美特工策反委總統(tǒng)專機飛行員內(nèi)幕曝光:籌碼不斷提高,試圖說服其將馬杜羅帶往抓捕地點

美特工策反委總統(tǒng)專機飛行員內(nèi)幕曝光:籌碼不斷提高,試圖說服其將馬杜羅帶往抓捕地點

紅星新聞
2025-10-29 14:43:19
奧委會跪求中國辦2036年奧運?中國:2036年會在臺北舉行嗎

奧委會跪求中國辦2036年奧運?中國:2036年會在臺北舉行嗎

丁丁鯉史紀
2025-10-29 08:24:39
天呢!女主自曝第一次去男友家,被他們母子合謀那個了…

天呢!女主自曝第一次去男友家,被他們母子合謀那個了…

慧翔百科
2025-10-29 11:37:09
14歲男生嬉鬧時被女同學(xué)打中左胸后癱瘓 家屬:女孩父母為殘疾人,后續(xù)費用無著落

14歲男生嬉鬧時被女同學(xué)打中左胸后癱瘓 家屬:女孩父母為殘疾人,后續(xù)費用無著落

紅星新聞
2025-10-27 20:29:15
看到郭富城本人幻滅了 臉上不僅有皺紋還有老年斑 個子不高 像小老頭

看到郭富城本人幻滅了 臉上不僅有皺紋還有老年斑 個子不高 像小老頭

情感大頭說說
2025-10-27 15:05:43
性能怪獸!新機官宣:10月30日,全面開售!

性能怪獸!新機官宣:10月30日,全面開售!

科技堡壘
2025-10-28 11:26:13
WTT冠軍賽:男單16強出爐8席!國乒0人晉級,邱黨3:0大獲全勝

WTT冠軍賽:男單16強出爐8席!國乒0人晉級,邱黨3:0大獲全勝

國乒二三事
2025-10-29 21:24:41
2025-10-30 02:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11599文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

英偉達GTC:黃仁勛撒錢、造芯、造夢

頭條要聞

日媒:“高市早苗當面拒絕美國”

頭條要聞

日媒:“高市早苗當面拒絕美國”

體育要聞

歐足聯(lián)談對歐超上訴被駁回:將繼續(xù)維護歐洲足球的團結(jié)

娛樂要聞

她二婚嫁給許紹雄,恩愛40年不離不棄

財經(jīng)要聞

美聯(lián)儲今夜必降息?三大懸念即將揭曉

汽車要聞

自信大廠做派 全新瑞虎8詮釋什么是穩(wěn)中進化

態(tài)度原創(chuàng)

教育
游戲
親子
家居
旅游

教育要聞

成績一般的孩子,請別再盲目刷題

魔獸懷舊服:MOP前夕即將開放,大量新增玩法,這些事情別忘記做

親子要聞

寶寶巴士獨家回應(yīng)

家居要聞

純白質(zhì)感 簡約而不簡單

旅游要聞

云南德宏梁河:創(chuàng)新推出8項旅居優(yōu)惠政策,打造“旅居經(jīng)濟”新業(yè)態(tài)

無障礙瀏覽 進入關(guān)懷版 男人的天堂va在线无码| 网红AV在线播放| 成在线人视频免费视频| 欧美饥饿的熟妇高潮喷水| 久久久久久中文字幕有精品| 国产精品xxxxx| 欧美视频在线一区| 男人的天堂va在线无码| 国产天美传媒日B片| 亚洲av一宅男色影视| 亚洲人妻系列中文字幕| 国产毛片基地| 亚洲伦理一区| 亚洲欧美日韩另类精品一区| 欧美乱妇高清免费96欧美乱妇高清| 国产精品毛片一区二区| 91精品aⅴ无码中文字字幕蜜桃| 兰州熟女高潮嗷嗷叫| 嗯嗯热亚洲69| 狠狠躁夜夜躁人人爽天天不卡软件| 亚洲啪啪精品一区二区的| 在线观看无码毛片a| 少妇做爰又色又紧夜视频| 久久精品国产亚洲av天海翼| 444wawawa| 人妻丰满熟妇无码区免费| 中国少妇BBBBXXXX| 四虎国产精品永久在线| 免费无码又爽又高潮视频| 哪里免费看毛片| 亚洲一区二区精品偷拍| 精品视频一二三中文| 妺妺窝人体色www在线| 久热re这里精品视频在线6| 午夜不卡无码中文字幕影院| av色综合久久天堂av色综合在| 久久www免费人成精品| 欧美色图久久| 俺也去,五月婷婷| 动漫videos麻豆| 成人午夜拍拍网|