夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

達(dá)摩院最新研究| RynnVLA-001:讓機(jī)器人從人類視頻中學(xué)習(xí)操作技巧

0
分享至

近年來,視覺-語言-動作(Vision-Language-Action, VLA)模型在機(jī)器人領(lǐng)域取得了顯著進(jìn)展,它使得機(jī)器人能夠理解人類的語言指令并執(zhí)行相應(yīng)的物理操作。然而,VLA模型的發(fā)展長期受限于一個核心瓶頸:高質(zhì)量機(jī)器人訓(xùn)練數(shù)據(jù)的稀缺。收集大規(guī)模的機(jī)器人操作數(shù)據(jù)既昂貴又耗時。為了解決這一難題,來自阿里巴巴達(dá)摩院的研究者們提出了RynnVLA-001,一個創(chuàng)新的VLA模型,其核心思想是讓機(jī)器人通過觀看海量的第一人稱視角人類操作視頻,來學(xué)習(xí)通用的物理世界交互知識,從而顯著提升其在真實(shí)世界中的操作能力。

論文標(biāo)題: RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
論文鏈接: https://www.arxiv.org/pdf/2509.15212
項(xiàng)目鏈接: https://github.com/alibaba-damo-academy/RynnVLA-001
機(jī)構(gòu): 阿里巴巴達(dá)摩院,湖畔實(shí)驗(yàn)室

核心挑戰(zhàn):如何彌合人類視頻與機(jī)器人動作之間的鴻溝?

互聯(lián)網(wǎng)上存在著不計(jì)其數(shù)的第一人稱(ego-centric)視頻,其中包含了豐富的人類操作演示,例如烹飪、修理、手工等。這些視頻本質(zhì)上是關(guān)于“如何與世界互動”的寶貴數(shù)據(jù)。然而,直接將這些視頻用于訓(xùn)練機(jī)器人面臨兩大挑戰(zhàn):

  1. 1. 視覺差異: 人類的手與機(jī)器人的機(jī)械臂在外觀和運(yùn)動學(xué)上完全不同。

  2. 2. 動作空間不匹配: 視頻只包含像素信息,而機(jī)器人需要的是精確的低層控制指令(如關(guān)節(jié)角度、末端執(zhí)行器坐標(biāo))。

RynnVLA-001通過一個精心設(shè)計(jì)的三階段訓(xùn)練流程,逐步解決了這些問題。



圖:該框架利用了三種類型的訓(xùn)練數(shù)據(jù):(1) 第一人稱視頻生成預(yù)訓(xùn)練 (Ego-Centric Video Generative Pretraining) 使用數(shù)百萬個人類第一人稱操作視頻進(jìn)行未來幀的預(yù)測。(2) 以人為中心的軌跡感知視頻建模 (Human-Centric Trajectory-Aware Video Modeling) 在帶有個人關(guān)鍵點(diǎn)標(biāo)注的視頻上進(jìn)行訓(xùn)練,實(shí)現(xiàn)了幀和軌跡的聯(lián)合預(yù)測。(3) 以機(jī)器人為中心的視覺-語言-動作建模 (Robot-Centric Vision-Language-Action Modeling) 使用與語言指令配對的機(jī)器人數(shù)據(jù)集,來學(xué)習(xí)從視覺觀察和語言到機(jī)器人動作的映射。

RynnVLA-001 的三階段訓(xùn)練方法

研究團(tuán)隊(duì)提出了一種漸進(jìn)式的預(yù)訓(xùn)練策略,分三步將從人類視頻中學(xué)到的知識遷移到機(jī)器人上。


圖: RynnVLA-001 的三階段訓(xùn)練流程,(1) 第一人稱視頻生成預(yù)訓(xùn)練 訓(xùn)練一個基于Transformer的圖像到視頻 (I2V) 模型用于未來幀預(yù)測。(2) 以人為中心的軌跡感知視頻建模 通過增加動作 (軌跡) 預(yù)測頭,擴(kuò)展了I2V模型,融合了視覺和狀態(tài)嵌入(藍(lán)色塊)。(3) 以機(jī)器人為中心的視覺-語言-動作建模 將預(yù)訓(xùn)練權(quán)重遷移到機(jī)器人數(shù)據(jù)上,模型生成由ActionVAE解碼為可執(zhí)行動作的動作嵌入。

階段一:第一人稱視頻生成預(yù)訓(xùn)練

此階段的目標(biāo)是讓模型學(xué)習(xí)物理世界的基本動態(tài)規(guī)律。研究團(tuán)隊(duì)首先從網(wǎng)絡(luò)上篩選并整理了1200萬段第一人稱視角的短視頻。模型(一個基于Transformer的圖像到視頻I2V模型)的任務(wù)是:給定視頻的第一幀圖像和一個描述任務(wù)的文本指令(如“用螺絲刀擰螺絲”),預(yù)測接下來會發(fā)生什么,即生成后續(xù)的視頻幀。

通過這個過程,模型被迫學(xué)習(xí)物體如何移動、工具如何使用以及手部操作如何改變環(huán)境。這為模型注入了關(guān)于“操作”的通用先驗(yàn)知識。

階段二:以人為中心的軌跡感知建模

第一階段模型只學(xué)會了“看”,但還不會“動”。為了建立視覺變化與具體動作之間的聯(lián)系,第二階段引入了人類手部關(guān)鍵點(diǎn)軌跡數(shù)據(jù)。模型在繼續(xù)預(yù)測未來視頻幀的同時,還被要求聯(lián)合預(yù)測人類手腕關(guān)鍵點(diǎn)在未來的運(yùn)動軌跡。

人類手腕的軌跡可以被看作是機(jī)器人末端執(zhí)行器軌跡的一種“弱監(jiān)督”信號。通過學(xué)習(xí)將視覺變化與軌跡運(yùn)動關(guān)聯(lián)起來,模型開始理解“什么樣的動作會導(dǎo)致什么樣的視覺結(jié)果”,從而初步搭建起從視覺到動作的橋梁。

為了高效地表示動作,研究者還提出了一個名為ActionVAE的變分自編碼器。它能將一段連續(xù)的動作序列(無論是人類軌跡還是機(jī)器人動作)壓縮成一個緊湊的、連續(xù)的潛在嵌入向量。這不僅降低了預(yù)測的復(fù)雜度,還保證了生成動作的平滑性和連貫性。

階段三:以機(jī)器人為中心的VLA建模

最后,模型將在機(jī)器人上進(jìn)行“實(shí)戰(zhàn)”訓(xùn)練。此階段將前兩個階段預(yù)訓(xùn)練好的模型權(quán)重遷移過來,并在真實(shí)的機(jī)器人操作數(shù)據(jù)集上進(jìn)行微調(diào)。

此時,模型的輸入變成了真實(shí)的機(jī)器人攝像頭視圖(前置和手腕視角)、機(jī)器人當(dāng)前狀態(tài)(如關(guān)節(jié)角度)和語言指令。模型的輸出目標(biāo)不再是視頻幀或人類軌跡,而是機(jī)器人動作的ActionVAE嵌入向量。這個嵌入向量隨后被ActionVAE的解碼器還原成一段可執(zhí)行的機(jī)器人動作序列。

通過這種方式,模型將在前兩階段學(xué)到的通用物理知識和操作理解,適配到具體的機(jī)器人硬件上,學(xué)會如何控制機(jī)械臂完成任務(wù)。

實(shí)驗(yàn)結(jié)果:顯著優(yōu)于現(xiàn)有模型

為了驗(yàn)證RynnVLA-001的有效性,研究者在一個真實(shí)機(jī)器人平臺上進(jìn)行了多項(xiàng)操作任務(wù)的評測,包括“拾取并放置綠色積木”、“拾取并放置草莓”和“將筆放入筆筒”,并與當(dāng)前主流的開源VLA模型(如英偉達(dá)的GROOT N1.5和谷歌的Pio)進(jìn)行了比較。


圖:評估任務(wù)圖示

1. 整體性能對比

實(shí)驗(yàn)結(jié)果表明,RynnVLA-001在所有任務(wù)上的成功率均顯著高于基線模型。

方法

平均成功率 (%)

GR00T N1.5

55.6

Pio

70.4

RynnVLA-001 (Ours) 90.6

表1: RynnVLA-001與SOTA模型在三個操作任務(wù)上的平均成功率對比。

這一結(jié)果有力地證明,通過從大規(guī)模人類視頻中進(jìn)行預(yù)訓(xùn)練,可以為VLA模型提供一個更有效的初始化,從而在下游機(jī)器人任務(wù)上取得更優(yōu)異的表現(xiàn)。

2. 預(yù)訓(xùn)練的有效性分析

為了進(jìn)一步探究預(yù)訓(xùn)練的每個階段所起的作用,研究者進(jìn)行了一系列消融實(shí)驗(yàn):

  • ? 從零開始訓(xùn)練 (Scratch): 不使用任何預(yù)訓(xùn)練權(quán)重,模型幾乎無法完成任務(wù)(成功率僅4.4%)。

  • ? 僅使用圖像預(yù)訓(xùn)練 (Chameleon): 直接使用強(qiáng)大的圖生文模型權(quán)重,成功率提升至50.0%,但定位能力有限。

  • ? +視頻預(yù)訓(xùn)練 (Video): 在圖像預(yù)訓(xùn)練基礎(chǔ)上增加第一階段的視頻生成預(yù)訓(xùn)練,成功率大幅提升至84.4%。

  • ? +軌跡預(yù)訓(xùn)練 (Full): 在此基礎(chǔ)上再增加第二階段的軌跡感知預(yù)訓(xùn)練,即完整的RynnVLA-001,成功率達(dá)到最高的 90.6% 。

這些結(jié)果清晰地揭示了RynnVLA-001成功的關(guān)鍵:

  1. 1. 視頻預(yù)訓(xùn)練至關(guān)重要: 學(xué)習(xí)物理世界的動態(tài)變化規(guī)律,比單純從靜態(tài)圖像學(xué)習(xí)更有效。

  2. 2. 軌跡感知是點(diǎn)睛之筆: 顯式地將視覺與動作(軌跡)關(guān)聯(lián)起來,能有效彌合純視覺預(yù)測與機(jī)器人動作生成之間的鴻溝。

結(jié)論與展望

RynnVLA-001項(xiàng)目展示了一條極具潛力的路徑,即通過利用海量、易獲取的人類視頻數(shù)據(jù),來克服機(jī)器人領(lǐng)域高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺的瓶頸。其提出的三階段漸進(jìn)式訓(xùn)練框架,成功地將人類視頻中蘊(yùn)含的通用操作知識遷移到機(jī)器人身上,使其在真實(shí)世界的操作任務(wù)中取得了領(lǐng)先的性能。

盡管當(dāng)前工作主要在單一類型的機(jī)械臂上進(jìn)行了驗(yàn)證,但這項(xiàng)工作無疑為構(gòu)建更通用、更強(qiáng)大的機(jī)器人智能體開辟了新的思路。未來,我們期待看到這種方法被擴(kuò)展到更多樣的機(jī)器人平臺和更復(fù)雜的環(huán)境中,讓機(jī)器人能從人類世界中學(xué)會更多的本領(lǐng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鏡報:曼聯(lián)高層與多名一線球員進(jìn)行了會談,討論俱樂部的現(xiàn)狀

鏡報:曼聯(lián)高層與多名一線球員進(jìn)行了會談,討論俱樂部的現(xiàn)狀

懂球帝
2025-10-13 03:25:06
吳石就義,陳誠自覺愧對故人,暗中幫助吳家,2000年后細(xì)節(jié)才披露

吳石就義,陳誠自覺愧對故人,暗中幫助吳家,2000年后細(xì)節(jié)才披露

小港哎歷史
2025-10-13 08:40:03
建議中老年人:早餐少吃饅頭和稀飯,多吃這4樣,營養(yǎng)又健康

建議中老年人:早餐少吃饅頭和稀飯,多吃這4樣,營養(yǎng)又健康

小童歷史
2025-10-09 11:35:07
廣州的廖一帆爸爸火了,因?yàn)樗议_了家委會的真相

廣州的廖一帆爸爸火了,因?yàn)樗议_了家委會的真相

清暉有墨
2025-09-05 19:24:18
蒸螃蟹幾分鐘?冷水還是熱水?很多人都錯,難怪螃蟹散黃不鮮美

蒸螃蟹幾分鐘?冷水還是熱水?很多人都錯,難怪螃蟹散黃不鮮美

阿龍美食記
2025-10-03 20:19:02
力拓與必和必拓對人民幣結(jié)算的截然不同態(tài)度背后的股權(quán)戰(zhàn)爭分析。

力拓與必和必拓對人民幣結(jié)算的截然不同態(tài)度背后的股權(quán)戰(zhàn)爭分析。

丹徒生
2025-10-07 09:34:15
反擊美國“變臉” 普京即將公布神秘新武器是什么?

反擊美國“變臉” 普京即將公布神秘新武器是什么?

環(huán)球網(wǎng)資訊
2025-10-12 15:44:02
東莞市公安局黨委委員、副局長肖漢華接受紀(jì)律審查和監(jiān)察調(diào)查

東莞市公安局黨委委員、副局長肖漢華接受紀(jì)律審查和監(jiān)察調(diào)查

極目新聞
2025-10-13 09:19:04
江蘇這條高速將于年底開工,計(jì)劃2027年建成,可為江宜高速分流!

江蘇這條高速將于年底開工,計(jì)劃2027年建成,可為江宜高速分流!

白淺娛樂聊
2025-10-13 01:28:07
54歲突然發(fā)現(xiàn),許多中產(chǎn)家庭漸漸窮回去了,以下兩個征兆,要警惕

54歲突然發(fā)現(xiàn),許多中產(chǎn)家庭漸漸窮回去了,以下兩個征兆,要警惕

雪雪呀
2025-08-11 08:41:29
楊蘭蘭是誰?10層迷霧揭開后,她可能根本就不是人

楊蘭蘭是誰?10層迷霧揭開后,她可能根本就不是人

吃瓜盟主
2025-09-11 14:48:46
任家萱為友人慶生,抱著兒子腹部好凸似懷二胎,男友露面變好看了

任家萱為友人慶生,抱著兒子腹部好凸似懷二胎,男友露面變好看了

小咪侃娛圈
2025-10-13 09:17:57
45歲大姐在國外當(dāng)保姆15年,雇主臨別塞信封,她拆開一看竟不是錢

45歲大姐在國外當(dāng)保姆15年,雇主臨別塞信封,她拆開一看竟不是錢

蘭姐說故事
2025-09-23 05:05:07
全球熱議!外媒回過神集體報道殲-16鎖定F-22A,基本都沒人相信?

全球熱議!外媒回過神集體報道殲-16鎖定F-22A,基本都沒人相信?

軍機(jī)Talk
2025-10-11 14:35:41
中美之間到底在爭奪什么?

中美之間到底在爭奪什么?

流蘇晚晴
2025-08-25 21:37:04
舉重世錦賽中國3金收官,女隊(duì)0金,朝鮮狂攬17金破10項(xiàng)世界紀(jì)錄

舉重世錦賽中國3金收官,女隊(duì)0金,朝鮮狂攬17金破10項(xiàng)世界紀(jì)錄

米修體育
2025-10-12 15:41:27
吹噓澤連斯基是英雄、最偉大的政治家,你們的良心不會痛嗎

吹噓澤連斯基是英雄、最偉大的政治家,你們的良心不會痛嗎

素衣讀史
2025-10-12 18:11:33
古人指出北平建都有巨大弊端,毛主席也猶豫,一高人幫他下定決心

古人指出北平建都有巨大弊端,毛主席也猶豫,一高人幫他下定決心

沈言論
2025-09-25 13:45:03
冰火兩重天!華為路測L3自動駕駛,288萬輛特斯拉FSD被美國大規(guī)模調(diào)查

冰火兩重天!華為路測L3自動駕駛,288萬輛特斯拉FSD被美國大規(guī)模調(diào)查

大白聊IT
2025-10-13 00:10:46
通脹之下你的錢正在 “蒸發(fā)”!這3種資產(chǎn)才是普通人最好的保護(hù)傘

通脹之下你的錢正在 “蒸發(fā)”!這3種資產(chǎn)才是普通人最好的保護(hù)傘

小白鴿財經(jīng)
2025-10-10 09:16:17
2025-10-13 09:56:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5157文章數(shù) 64593關(guān)注度
往期回顧 全部

科技要聞

海外子公司被荷蘭凍結(jié) 聞泰科技:堅(jiān)決反對

頭條要聞

美防長稱外國要在美國本土建軍事基地 惹怒特朗普擁躉

頭條要聞

美防長稱外國要在美國本土建軍事基地 惹怒特朗普擁躉

體育要聞

表兄弟決賽相遇,他們在上海創(chuàng)造黑馬奇跡

娛樂要聞

娜扎被搶休息室,網(wǎng)友扒出疑似林允

財經(jīng)要聞

三大指數(shù)均大幅低開 創(chuàng)業(yè)板指跌4.44%

汽車要聞

1.5T動力/尺寸越級 國民家轎第5代帝豪首秀亮相

態(tài)度原創(chuàng)

教育
游戲
藝術(shù)
房產(chǎn)
手機(jī)

教育要聞

高考地理必考的16種地貌

無人觸及 《33號遠(yuǎn)征隊(duì)》總監(jiān)稱還有彩蛋沒人發(fā)現(xiàn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

大利好來了!海南安居房擬出新政!

手機(jī)要聞

小米兩連冠,蘋果屈居第二,OPPO第四

無障礙瀏覽 進(jìn)入關(guān)懷版 十八女人毛片a级毛片水真多 | 国产L精品国产亚洲区久久| 免费观看全黄做爰大片国产| 亚洲中文字幕无码中文字在线| XXXX69中国| 大陆精大陆国产国语精品| 老鲁夜夜老鲁| 成人免费无码婬片在线观看免费| 奇米影视欧美性| 国产精品国产三级欧美二区| 国产av旡码专区亚洲av苍井空| 久久精品国产亚洲AV高清热| 女虐女 国产sm| 中文在线っと好きだった在线 | 欧美成人在线A免费观看| 成人电影久久| 国产精品午夜福利导航导| 久久tv中文字幕首页| 亚洲日韩色欲色欲com| 婷婷久久综合网| 久久久无码精品午夜| 亚洲av无码兔费综合| 精品一久久香蕉国产线看观看下| 亚洲色一区二区三区| 日韩天堂网| 人妻丰满熟妇无码区免费| 国产伦精品一区二区三区照片91| 岛国免费一区二区| 国产成人综合久久免费导航| 蜜臀精品国产高清在线观看| 久久久久久久中文字幕| 性色AV一区二区| 少妇精品无码一区二区三区 | 性XXXXXXⅩXXXX少妇| 日韩乱码久久久久久久| 国产伊人一二三区| 亚洲天堂免费在线观看视频| 欧美又大又硬又长又粗A片免费看| 插少妇综合网| 久久伊人开心激情综合| 奇米777在线播放|