達(dá)摩院最新研究| RynnVLA-001：讓機(jī)器人從人類視頻中學(xué)習(xí)操作技巧

2025-09-24 21:36:30　來源: 算法與數(shù)學(xué)之美

北京舉報

分享至

近年來，視覺-語言-動作（Vision-Language-Action, VLA）模型在機(jī)器人領(lǐng)域取得了顯著進(jìn)展，它使得機(jī)器人能夠理解人類的語言指令并執(zhí)行相應(yīng)的物理操作。然而，VLA模型的發(fā)展長期受限于一個核心瓶頸：高質(zhì)量機(jī)器人訓(xùn)練數(shù)據(jù)的稀缺。收集大規(guī)模的機(jī)器人操作數(shù)據(jù)既昂貴又耗時。為了解決這一難題，來自阿里巴巴達(dá)摩院的研究者們提出了RynnVLA-001，一個創(chuàng)新的VLA模型，其核心思想是讓機(jī)器人通過觀看海量的第一人稱視角人類操作視頻，來學(xué)習(xí)通用的物理世界交互知識，從而顯著提升其在真實(shí)世界中的操作能力。

論文標(biāo)題： RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
論文鏈接： https://www.arxiv.org/pdf/2509.15212
項(xiàng)目鏈接： https://github.com/alibaba-damo-academy/RynnVLA-001
機(jī)構(gòu)： 阿里巴巴達(dá)摩院，湖畔實(shí)驗(yàn)室

核心挑戰(zhàn)：如何彌合人類視頻與機(jī)器人動作之間的鴻溝？

互聯(lián)網(wǎng)上存在著不計(jì)其數(shù)的第一人稱（ego-centric）視頻，其中包含了豐富的人類操作演示，例如烹飪、修理、手工等。這些視頻本質(zhì)上是關(guān)于“如何與世界互動”的寶貴數(shù)據(jù)。然而，直接將這些視頻用于訓(xùn)練機(jī)器人面臨兩大挑戰(zhàn)：

1. 視覺差異： 人類的手與機(jī)器人的機(jī)械臂在外觀和運(yùn)動學(xué)上完全不同。
2. 動作空間不匹配： 視頻只包含像素信息，而機(jī)器人需要的是精確的低層控制指令（如關(guān)節(jié)角度、末端執(zhí)行器坐標(biāo)）。

RynnVLA-001通過一個精心設(shè)計(jì)的三階段訓(xùn)練流程，逐步解決了這些問題。

圖：該框架利用了三種類型的訓(xùn)練數(shù)據(jù)：(1) 第一人稱視頻生成預(yù)訓(xùn)練 (Ego-Centric Video Generative Pretraining) 使用數(shù)百萬個人類第一人稱操作視頻進(jìn)行未來幀的預(yù)測。(2) 以人為中心的軌跡感知視頻建模 (Human-Centric Trajectory-Aware Video Modeling) 在帶有個人關(guān)鍵點(diǎn)標(biāo)注的視頻上進(jìn)行訓(xùn)練，實(shí)現(xiàn)了幀和軌跡的聯(lián)合預(yù)測。(3) 以機(jī)器人為中心的視覺-語言-動作建模 (Robot-Centric Vision-Language-Action Modeling) 使用與語言指令配對的機(jī)器人數(shù)據(jù)集，來學(xué)習(xí)從視覺觀察和語言到機(jī)器人動作的映射。

RynnVLA-001 的三階段訓(xùn)練方法

研究團(tuán)隊(duì)提出了一種漸進(jìn)式的預(yù)訓(xùn)練策略，分三步將從人類視頻中學(xué)到的知識遷移到機(jī)器人上。

圖: RynnVLA-001 的三階段訓(xùn)練流程，(1) 第一人稱視頻生成預(yù)訓(xùn)練訓(xùn)練一個基于Transformer的圖像到視頻 (I2V) 模型用于未來幀預(yù)測。(2) 以人為中心的軌跡感知視頻建模通過增加動作 (軌跡) 預(yù)測頭，擴(kuò)展了I2V模型，融合了視覺和狀態(tài)嵌入（藍(lán)色塊）。(3) 以機(jī)器人為中心的視覺-語言-動作建模將預(yù)訓(xùn)練權(quán)重遷移到機(jī)器人數(shù)據(jù)上，模型生成由ActionVAE解碼為可執(zhí)行動作的動作嵌入。

階段一：第一人稱視頻生成預(yù)訓(xùn)練

此階段的目標(biāo)是讓模型學(xué)習(xí)物理世界的基本動態(tài)規(guī)律。研究團(tuán)隊(duì)首先從網(wǎng)絡(luò)上篩選并整理了1200萬段第一人稱視角的短視頻。模型（一個基于Transformer的圖像到視頻I2V模型）的任務(wù)是：給定視頻的第一幀圖像和一個描述任務(wù)的文本指令（如“用螺絲刀擰螺絲”），預(yù)測接下來會發(fā)生什么，即生成后續(xù)的視頻幀。

通過這個過程，模型被迫學(xué)習(xí)物體如何移動、工具如何使用以及手部操作如何改變環(huán)境。這為模型注入了關(guān)于“操作”的通用先驗(yàn)知識。

階段二：以人為中心的軌跡感知建模

第一階段模型只學(xué)會了“看”，但還不會“動”。為了建立視覺變化與具體動作之間的聯(lián)系，第二階段引入了人類手部關(guān)鍵點(diǎn)軌跡數(shù)據(jù)。模型在繼續(xù)預(yù)測未來視頻幀的同時，還被要求聯(lián)合預(yù)測人類手腕關(guān)鍵點(diǎn)在未來的運(yùn)動軌跡。

人類手腕的軌跡可以被看作是機(jī)器人末端執(zhí)行器軌跡的一種“弱監(jiān)督”信號。通過學(xué)習(xí)將視覺變化與軌跡運(yùn)動關(guān)聯(lián)起來，模型開始理解“什么樣的動作會導(dǎo)致什么樣的視覺結(jié)果”，從而初步搭建起從視覺到動作的橋梁。

為了高效地表示動作，研究者還提出了一個名為ActionVAE的變分自編碼器。它能將一段連續(xù)的動作序列（無論是人類軌跡還是機(jī)器人動作）壓縮成一個緊湊的、連續(xù)的潛在嵌入向量。這不僅降低了預(yù)測的復(fù)雜度，還保證了生成動作的平滑性和連貫性。

階段三：以機(jī)器人為中心的VLA建模

最后，模型將在機(jī)器人上進(jìn)行“實(shí)戰(zhàn)”訓(xùn)練。此階段將前兩個階段預(yù)訓(xùn)練好的模型權(quán)重遷移過來，并在真實(shí)的機(jī)器人操作數(shù)據(jù)集上進(jìn)行微調(diào)。

此時，模型的輸入變成了真實(shí)的機(jī)器人攝像頭視圖（前置和手腕視角）、機(jī)器人當(dāng)前狀態(tài)（如關(guān)節(jié)角度）和語言指令。模型的輸出目標(biāo)不再是視頻幀或人類軌跡，而是機(jī)器人動作的ActionVAE嵌入向量。這個嵌入向量隨后被ActionVAE的解碼器還原成一段可執(zhí)行的機(jī)器人動作序列。

通過這種方式，模型將在前兩階段學(xué)到的通用物理知識和操作理解，適配到具體的機(jī)器人硬件上，學(xué)會如何控制機(jī)械臂完成任務(wù)。

實(shí)驗(yàn)結(jié)果：顯著優(yōu)于現(xiàn)有模型

為了驗(yàn)證RynnVLA-001的有效性，研究者在一個真實(shí)機(jī)器人平臺上進(jìn)行了多項(xiàng)操作任務(wù)的評測，包括“拾取并放置綠色積木”、“拾取并放置草莓”和“將筆放入筆筒”，并與當(dāng)前主流的開源VLA模型（如英偉達(dá)的GROOT N1.5和谷歌的Pio）進(jìn)行了比較。

圖：評估任務(wù)圖示

1. 整體性能對比

實(shí)驗(yàn)結(jié)果表明，RynnVLA-001在所有任務(wù)上的成功率均顯著高于基線模型。

方法

平均成功率 (%)

GR00T N1.5

55.6

Pio

70.4

RynnVLA-001 (Ours) 90.6

表1: RynnVLA-001與SOTA模型在三個操作任務(wù)上的平均成功率對比。

這一結(jié)果有力地證明，通過從大規(guī)模人類視頻中進(jìn)行預(yù)訓(xùn)練，可以為VLA模型提供一個更有效的初始化，從而在下游機(jī)器人任務(wù)上取得更優(yōu)異的表現(xiàn)。

2. 預(yù)訓(xùn)練的有效性分析

為了進(jìn)一步探究預(yù)訓(xùn)練的每個階段所起的作用，研究者進(jìn)行了一系列消融實(shí)驗(yàn)：

? 從零開始訓(xùn)練 (Scratch): 不使用任何預(yù)訓(xùn)練權(quán)重，模型幾乎無法完成任務(wù)（成功率僅4.4%）。
? 僅使用圖像預(yù)訓(xùn)練 (Chameleon): 直接使用強(qiáng)大的圖生文模型權(quán)重，成功率提升至50.0%，但定位能力有限。
? +視頻預(yù)訓(xùn)練 (Video): 在圖像預(yù)訓(xùn)練基礎(chǔ)上增加第一階段的視頻生成預(yù)訓(xùn)練，成功率大幅提升至84.4%。
? +軌跡預(yù)訓(xùn)練 (Full): 在此基礎(chǔ)上再增加第二階段的軌跡感知預(yù)訓(xùn)練，即完整的RynnVLA-001，成功率達(dá)到最高的 90.6% 。

這些結(jié)果清晰地揭示了RynnVLA-001成功的關(guān)鍵：

1. 視頻預(yù)訓(xùn)練至關(guān)重要： 學(xué)習(xí)物理世界的動態(tài)變化規(guī)律，比單純從靜態(tài)圖像學(xué)習(xí)更有效。
2. 軌跡感知是點(diǎn)睛之筆： 顯式地將視覺與動作（軌跡）關(guān)聯(lián)起來，能有效彌合純視覺預(yù)測與機(jī)器人動作生成之間的鴻溝。

結(jié)論與展望

RynnVLA-001項(xiàng)目展示了一條極具潛力的路徑，即通過利用海量、易獲取的人類視頻數(shù)據(jù)，來克服機(jī)器人領(lǐng)域高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺的瓶頸。其提出的三階段漸進(jìn)式訓(xùn)練框架，成功地將人類視頻中蘊(yùn)含的通用操作知識遷移到機(jī)器人身上，使其在真實(shí)世界的操作任務(wù)中取得了領(lǐng)先的性能。

盡管當(dāng)前工作主要在單一類型的機(jī)械臂上進(jìn)行了驗(yàn)證，但這項(xiàng)工作無疑為構(gòu)建更通用、更強(qiáng)大的機(jī)器人智能體開辟了新的思路。未來，我們期待看到這種方法被擴(kuò)展到更多樣的機(jī)器人平臺和更復(fù)雜的環(huán)境中，讓機(jī)器人能從人類世界中學(xué)會更多的本領(lǐng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.