近年來,視覺-語言-動作(Vision-Language-Action, VLA)模型在機(jī)器人領(lǐng)域取得了顯著進(jìn)展,它使得機(jī)器人能夠理解人類的語言指令并執(zhí)行相應(yīng)的物理操作。然而,VLA模型的發(fā)展長期受限于一個核心瓶頸:高質(zhì)量機(jī)器人訓(xùn)練數(shù)據(jù)的稀缺。收集大規(guī)模的機(jī)器人操作數(shù)據(jù)既昂貴又耗時。為了解決這一難題,來自阿里巴巴達(dá)摩院的研究者們提出了RynnVLA-001,一個創(chuàng)新的VLA模型,其核心思想是讓機(jī)器人通過觀看海量的第一人稱視角人類操作視頻,來學(xué)習(xí)通用的物理世界交互知識,從而顯著提升其在真實(shí)世界中的操作能力。
論文標(biāo)題: RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
論文鏈接: https://www.arxiv.org/pdf/2509.15212
項(xiàng)目鏈接: https://github.com/alibaba-damo-academy/RynnVLA-001
機(jī)構(gòu): 阿里巴巴達(dá)摩院,湖畔實(shí)驗(yàn)室
核心挑戰(zhàn):如何彌合人類視頻與機(jī)器人動作之間的鴻溝?
互聯(lián)網(wǎng)上存在著不計(jì)其數(shù)的第一人稱(ego-centric)視頻,其中包含了豐富的人類操作演示,例如烹飪、修理、手工等。這些視頻本質(zhì)上是關(guān)于“如何與世界互動”的寶貴數(shù)據(jù)。然而,直接將這些視頻用于訓(xùn)練機(jī)器人面臨兩大挑戰(zhàn):
1. 視覺差異: 人類的手與機(jī)器人的機(jī)械臂在外觀和運(yùn)動學(xué)上完全不同。
2. 動作空間不匹配: 視頻只包含像素信息,而機(jī)器人需要的是精確的低層控制指令(如關(guān)節(jié)角度、末端執(zhí)行器坐標(biāo))。
RynnVLA-001通過一個精心設(shè)計(jì)的三階段訓(xùn)練流程,逐步解決了這些問題。
圖:該框架利用了三種類型的訓(xùn)練數(shù)據(jù):(1) 第一人稱視頻生成預(yù)訓(xùn)練 (Ego-Centric Video Generative Pretraining) 使用數(shù)百萬個人類第一人稱操作視頻進(jìn)行未來幀的預(yù)測。(2) 以人為中心的軌跡感知視頻建模 (Human-Centric Trajectory-Aware Video Modeling) 在帶有個人關(guān)鍵點(diǎn)標(biāo)注的視頻上進(jìn)行訓(xùn)練,實(shí)現(xiàn)了幀和軌跡的聯(lián)合預(yù)測。(3) 以機(jī)器人為中心的視覺-語言-動作建模 (Robot-Centric Vision-Language-Action Modeling) 使用與語言指令配對的機(jī)器人數(shù)據(jù)集,來學(xué)習(xí)從視覺觀察和語言到機(jī)器人動作的映射。
RynnVLA-001 的三階段訓(xùn)練方法
研究團(tuán)隊(duì)提出了一種漸進(jìn)式的預(yù)訓(xùn)練策略,分三步將從人類視頻中學(xué)到的知識遷移到機(jī)器人上。
圖: RynnVLA-001 的三階段訓(xùn)練流程,(1) 第一人稱視頻生成預(yù)訓(xùn)練 訓(xùn)練一個基于Transformer的圖像到視頻 (I2V) 模型用于未來幀預(yù)測。(2) 以人為中心的軌跡感知視頻建模 通過增加動作 (軌跡) 預(yù)測頭,擴(kuò)展了I2V模型,融合了視覺和狀態(tài)嵌入(藍(lán)色塊)。(3) 以機(jī)器人為中心的視覺-語言-動作建模 將預(yù)訓(xùn)練權(quán)重遷移到機(jī)器人數(shù)據(jù)上,模型生成由ActionVAE解碼為可執(zhí)行動作的動作嵌入。
階段一:第一人稱視頻生成預(yù)訓(xùn)練
此階段的目標(biāo)是讓模型學(xué)習(xí)物理世界的基本動態(tài)規(guī)律。研究團(tuán)隊(duì)首先從網(wǎng)絡(luò)上篩選并整理了1200萬段第一人稱視角的短視頻。模型(一個基于Transformer的圖像到視頻I2V模型)的任務(wù)是:給定視頻的第一幀圖像和一個描述任務(wù)的文本指令(如“用螺絲刀擰螺絲”),預(yù)測接下來會發(fā)生什么,即生成后續(xù)的視頻幀。
通過這個過程,模型被迫學(xué)習(xí)物體如何移動、工具如何使用以及手部操作如何改變環(huán)境。這為模型注入了關(guān)于“操作”的通用先驗(yàn)知識。
階段二:以人為中心的軌跡感知建模
第一階段模型只學(xué)會了“看”,但還不會“動”。為了建立視覺變化與具體動作之間的聯(lián)系,第二階段引入了人類手部關(guān)鍵點(diǎn)軌跡數(shù)據(jù)。模型在繼續(xù)預(yù)測未來視頻幀的同時,還被要求聯(lián)合預(yù)測人類手腕關(guān)鍵點(diǎn)在未來的運(yùn)動軌跡。
人類手腕的軌跡可以被看作是機(jī)器人末端執(zhí)行器軌跡的一種“弱監(jiān)督”信號。通過學(xué)習(xí)將視覺變化與軌跡運(yùn)動關(guān)聯(lián)起來,模型開始理解“什么樣的動作會導(dǎo)致什么樣的視覺結(jié)果”,從而初步搭建起從視覺到動作的橋梁。
為了高效地表示動作,研究者還提出了一個名為ActionVAE的變分自編碼器。它能將一段連續(xù)的動作序列(無論是人類軌跡還是機(jī)器人動作)壓縮成一個緊湊的、連續(xù)的潛在嵌入向量。這不僅降低了預(yù)測的復(fù)雜度,還保證了生成動作的平滑性和連貫性。
階段三:以機(jī)器人為中心的VLA建模
最后,模型將在機(jī)器人上進(jìn)行“實(shí)戰(zhàn)”訓(xùn)練。此階段將前兩個階段預(yù)訓(xùn)練好的模型權(quán)重遷移過來,并在真實(shí)的機(jī)器人操作數(shù)據(jù)集上進(jìn)行微調(diào)。
此時,模型的輸入變成了真實(shí)的機(jī)器人攝像頭視圖(前置和手腕視角)、機(jī)器人當(dāng)前狀態(tài)(如關(guān)節(jié)角度)和語言指令。模型的輸出目標(biāo)不再是視頻幀或人類軌跡,而是機(jī)器人動作的ActionVAE嵌入向量。這個嵌入向量隨后被ActionVAE的解碼器還原成一段可執(zhí)行的機(jī)器人動作序列。
通過這種方式,模型將在前兩階段學(xué)到的通用物理知識和操作理解,適配到具體的機(jī)器人硬件上,學(xué)會如何控制機(jī)械臂完成任務(wù)。
實(shí)驗(yàn)結(jié)果:顯著優(yōu)于現(xiàn)有模型
為了驗(yàn)證RynnVLA-001的有效性,研究者在一個真實(shí)機(jī)器人平臺上進(jìn)行了多項(xiàng)操作任務(wù)的評測,包括“拾取并放置綠色積木”、“拾取并放置草莓”和“將筆放入筆筒”,并與當(dāng)前主流的開源VLA模型(如英偉達(dá)的GROOT N1.5和谷歌的Pio)進(jìn)行了比較。
圖:評估任務(wù)圖示
1. 整體性能對比
實(shí)驗(yàn)結(jié)果表明,RynnVLA-001在所有任務(wù)上的成功率均顯著高于基線模型。
方法
平均成功率 (%)
GR00T N1.5
55.6
Pio
70.4
RynnVLA-001 (Ours) 90.6
表1: RynnVLA-001與SOTA模型在三個操作任務(wù)上的平均成功率對比。
這一結(jié)果有力地證明,通過從大規(guī)模人類視頻中進(jìn)行預(yù)訓(xùn)練,可以為VLA模型提供一個更有效的初始化,從而在下游機(jī)器人任務(wù)上取得更優(yōu)異的表現(xiàn)。
2. 預(yù)訓(xùn)練的有效性分析
為了進(jìn)一步探究預(yù)訓(xùn)練的每個階段所起的作用,研究者進(jìn)行了一系列消融實(shí)驗(yàn):
? 從零開始訓(xùn)練 (Scratch): 不使用任何預(yù)訓(xùn)練權(quán)重,模型幾乎無法完成任務(wù)(成功率僅4.4%)。
? 僅使用圖像預(yù)訓(xùn)練 (Chameleon): 直接使用強(qiáng)大的圖生文模型權(quán)重,成功率提升至50.0%,但定位能力有限。
? +視頻預(yù)訓(xùn)練 (Video): 在圖像預(yù)訓(xùn)練基礎(chǔ)上增加第一階段的視頻生成預(yù)訓(xùn)練,成功率大幅提升至84.4%。
? +軌跡預(yù)訓(xùn)練 (Full): 在此基礎(chǔ)上再增加第二階段的軌跡感知預(yù)訓(xùn)練,即完整的RynnVLA-001,成功率達(dá)到最高的 90.6% 。
這些結(jié)果清晰地揭示了RynnVLA-001成功的關(guān)鍵:
1. 視頻預(yù)訓(xùn)練至關(guān)重要: 學(xué)習(xí)物理世界的動態(tài)變化規(guī)律,比單純從靜態(tài)圖像學(xué)習(xí)更有效。
2. 軌跡感知是點(diǎn)睛之筆: 顯式地將視覺與動作(軌跡)關(guān)聯(lián)起來,能有效彌合純視覺預(yù)測與機(jī)器人動作生成之間的鴻溝。
RynnVLA-001項(xiàng)目展示了一條極具潛力的路徑,即通過利用海量、易獲取的人類視頻數(shù)據(jù),來克服機(jī)器人領(lǐng)域高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺的瓶頸。其提出的三階段漸進(jìn)式訓(xùn)練框架,成功地將人類視頻中蘊(yùn)含的通用操作知識遷移到機(jī)器人身上,使其在真實(shí)世界的操作任務(wù)中取得了領(lǐng)先的性能。
盡管當(dāng)前工作主要在單一類型的機(jī)械臂上進(jìn)行了驗(yàn)證,但這項(xiàng)工作無疑為構(gòu)建更通用、更強(qiáng)大的機(jī)器人智能體開辟了新的思路。未來,我們期待看到這種方法被擴(kuò)展到更多樣的機(jī)器人平臺和更復(fù)雜的環(huán)境中,讓機(jī)器人能從人類世界中學(xué)會更多的本領(lǐng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.