在具身智能領(lǐng)域,視覺 - 語言 - 動(dòng)作(VLA)大模型正展現(xiàn)出巨大潛力,但仍面臨一個(gè)關(guān)鍵挑戰(zhàn):當(dāng)前主流的有監(jiān)督微調(diào)(SFT)訓(xùn)練方式,往往讓模型在遇到新環(huán)境或任務(wù)時(shí)容易出錯(cuò),難以真正做到類人般的泛化。但在大語言模型(LLM/VLM)領(lǐng)域,強(qiáng)化學(xué)習(xí)(RL)已被證明能顯著提升模型的泛化能力。RL 究竟能為 VLA 帶來哪些獨(dú)特的泛化優(yōu)勢(shì)?與 SFT 相比,它們的優(yōu)劣勢(shì)分別體現(xiàn)在哪里?
來自清華大學(xué)的研究團(tuán)隊(duì)在 NeurIPS 2025 發(fā)表文章,首次系統(tǒng)性地揭示了強(qiáng)化學(xué)習(xí)(RL)在提升 VLA 泛化能力上的獨(dú)特優(yōu)勢(shì),并帶來了一套全面的評(píng)測(cè)基準(zhǔn)和高效訓(xùn)練方法。通訊作者是清華大學(xué)教授汪玉和博士后于超。
- 論文標(biāo)題:What Can RL Bring to VLA Generalization? An Empirical Study
- 項(xiàng)目網(wǎng)站和代碼:https://rlvla.github.io/
- 論文地址:https://arxiv.org/abs/2505.19789
為了解決 VLA 模型泛化能力有限的問題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)涵蓋多種視覺、語義和執(zhí)行挑戰(zhàn)的全新評(píng)測(cè)基準(zhǔn),并系統(tǒng)性地對(duì)比了強(qiáng)化學(xué)習(xí)(RL)和傳統(tǒng)有監(jiān)督微調(diào)(SFT)在提升模型泛化性上的表現(xiàn)。通過大量實(shí)驗(yàn)發(fā)現(xiàn):采用 PPO 等強(qiáng)化學(xué)習(xí)算法微調(diào) VLA,不僅顯著提升了模型在語義理解和任務(wù)執(zhí)行上的魯棒性,還能在視覺變化場(chǎng)景下保持與 SFT 相當(dāng)?shù)谋憩F(xiàn)。同時(shí)提出了一套簡(jiǎn)單高效的 PPO 訓(xùn)練方案,使得強(qiáng)化學(xué)習(xí)在 VLA 領(lǐng)域的應(yīng)用更加實(shí)用和高效。
具身基礎(chǔ)模型:開源 OpenVLA 大模型
研究團(tuán)隊(duì)采用了目前 SoTA 之一的開源 OpenVLA 模型為基礎(chǔ)進(jìn)行研究。OpenVLA 從 Llama2-7b 微調(diào)而來,在每一個(gè)時(shí)間步,接收一張 RGB 圖像和一條指令(即歷史長(zhǎng)度 H=1),并輸出一系列離散的動(dòng)作 token 控制機(jī)械臂行動(dòng)。
問題 1:何種 RL 方法更好?
研究團(tuán)隊(duì)測(cè)試了三種在大語言模型領(lǐng)域廣受認(rèn)可的強(qiáng)化學(xué)習(xí)算法,包括 RLHF 中常用的 PPO(近端策略優(yōu)化)和 DPO(直接偏好優(yōu)化),以及在數(shù)學(xué)等推理任務(wù)中展現(xiàn)出色的 GRPO(組相對(duì)策略優(yōu)化)。
實(shí)驗(yàn)結(jié)果令人意外:在機(jī)器人控制這一多步?jīng)Q策任務(wù)中,經(jīng)典的 PPO 算法展現(xiàn)出了顯著優(yōu)勢(shì),而專為語言模型設(shè)計(jì)的 DPO 和 GRPO 卻難以高效學(xué)習(xí)。研究團(tuán)隊(duì)分析認(rèn)為,這源于機(jī)器人任務(wù)的部分可觀測(cè)馬爾可夫決策過程(POMDP)特性 —— 每個(gè)動(dòng)作都會(huì)改變環(huán)境狀態(tài),這種非平穩(wěn)性可能破壞了 GRPO 的優(yōu)勢(shì)估計(jì)穩(wěn)定性。而 DPO 面臨的挑戰(zhàn)則在于稀疏獎(jiǎng)勵(lì)結(jié)構(gòu)難以區(qū)分軌跡質(zhì)量,以及離線數(shù)據(jù)與在線執(zhí)行之間存在顯著的分布偏移。
問題 2:如何實(shí)現(xiàn)高效的 PPO 訓(xùn)練?
為了讓 PPO 在 VLA 模型上高效運(yùn)行,研究團(tuán)隊(duì)提出了三個(gè)關(guān)鍵創(chuàng)新。
1. 共享 Actor-Critic 架構(gòu)設(shè)計(jì):讓 Actor 和 Critic 共享同一個(gè)主干網(wǎng)絡(luò),僅在最后添加一個(gè)輕量級(jí)的 MLP 作為價(jià)值頭。這一設(shè)計(jì)將顯存占用減少了 45%,訓(xùn)練速度提升 35%,還保持了相當(dāng)?shù)男阅鼙憩F(xiàn)。
2. VLA 模型預(yù)熱策略:使用 140 條高質(zhì)量軌跡對(duì)模型進(jìn)行預(yù)熱,此步驟讓后續(xù)的強(qiáng)化學(xué)習(xí)收斂速度提升 50%,大幅減少了所需的環(huán)境交互次數(shù)。
3. 最小化 PPO 訓(xùn)練輪次:傳統(tǒng) PPO 通常會(huì)對(duì)每批數(shù)據(jù)進(jìn)行多輪梯度更新,但研究發(fā)現(xiàn)在 VLA 場(chǎng)景下,將 PPO 訓(xùn)練輪次(epoch)設(shè)為 1 就已足夠 —— 更多的更新輪次不僅無法提升性能,反而會(huì)增加訓(xùn)練時(shí)間。通過這一優(yōu)化,整個(gè)訓(xùn)練過程在單張 A100 GPU 上僅需 42 小時(shí)即可收斂。
問題 3:SFT 和 RL 的對(duì)比
為了公平比較,研究團(tuán)隊(duì)首先探究了 SFT 的數(shù)據(jù)規(guī)模上限。研究團(tuán)隊(duì)使用動(dòng)作規(guī)劃器(Motion Planner)采集了不同規(guī)模的 SFT 數(shù)據(jù)集,實(shí)驗(yàn)顯示,當(dāng)演示軌跡數(shù)量達(dá)到 16,000 條(約 126 萬個(gè)狀態(tài) - 動(dòng)作對(duì))時(shí),無論是訓(xùn)練分布內(nèi)、還是分布外新物體 / 桌面的 SFT 性能都趨于飽和。
然而對(duì)于 RL,雖然收斂時(shí)訓(xùn)練分布內(nèi)任務(wù)性能與 SFT 相當(dāng),但是在分布外任務(wù)上卻取得了 42.6% 的性能提升,這展現(xiàn)出 RL 具有更強(qiáng)的泛化性。
為了深入剖析泛化性差異,研究團(tuán)隊(duì)基于 ManiSkill 仿真器構(gòu)建了一個(gè)全面的評(píng)測(cè)基準(zhǔn),從視覺(如動(dòng)態(tài)紋理、新桌面)、語義(如未見物體、指令變體)和執(zhí)行(如物體位置變化、機(jī)器人初始姿態(tài))三個(gè)維度系統(tǒng)地對(duì)泛化能力進(jìn)行拆解。
實(shí)驗(yàn)結(jié)果清晰地展現(xiàn)了 RL 的優(yōu)勢(shì):RL 在語義理解任務(wù)上表現(xiàn)出明顯優(yōu)勢(shì),特別是在處理未見物體的抓取任務(wù)時(shí);在執(zhí)行魯棒性方面更是大幅領(lǐng)先,無論是物體位置變化、機(jī)器人初始姿態(tài)偏移,還是任務(wù)執(zhí)行中途的物體移位,RL 都展現(xiàn)出了顯著更強(qiáng)的適應(yīng)能力;而在視覺泛化上,兩種方法表現(xiàn)相當(dāng)。
通過對(duì)具體案例的可視化分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了更深層的差異。在強(qiáng)噪聲干擾下,SFT 策略會(huì)在抓取物體后反復(fù)掉落,而 RL 策略能夠穩(wěn)定完成任務(wù)。面對(duì)未見物體時(shí),SFT 容易陷入重復(fù)嘗試抓取已持有物體的死循環(huán),RL 則能正確判斷并完成放置。最引人注目的是執(zhí)行軌跡分布的差異:RL 探索了更廣闊的工作空間和更豐富的末端執(zhí)行器姿態(tài),而 SFT 的軌跡則緊密聚集在演示數(shù)據(jù)的運(yùn)動(dòng)規(guī)劃路徑周圍。這種更廣泛的覆蓋或許解釋了 RL 在執(zhí)行任務(wù)上具有的優(yōu)越泛化能力。
這項(xiàng)研究不僅為 VLA 模型的訓(xùn)練提供了新的方向,更重要的是證明了強(qiáng)化學(xué)習(xí)在構(gòu)建真正通用的具身智能體中的核心價(jià)值。隨著機(jī)器人應(yīng)用場(chǎng)景日益復(fù)雜多變,這種能夠通過試錯(cuò)學(xué)習(xí)、自主適應(yīng)新環(huán)境的能力將變得愈發(fā)重要。
團(tuán)隊(duì)致力于研究強(qiáng)化學(xué)習(xí)在 VLA 中的運(yùn)用,開源了首個(gè)面向具身智能的 “渲訓(xùn)推一體化” 大規(guī)模強(qiáng)化學(xué)習(xí)框架 RLinf(https://github.com/RLinf/RLinf),更多大規(guī)模的實(shí)驗(yàn)結(jié)果參見網(wǎng)站。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.