網易首頁 > 網易號 > 正文申請入駐

頂會收錄！機器人刷視頻就學會操作？南科大×逐際動力×港大新成果

2025-09-18 20:20:48　來源: 機器人大講堂

安徽舉報

分享至

想象一下，如果機器人也能像我們一樣，通過刷視頻就能學習各種操作技能——比如從抖音上的疊衣服技巧學會整理衣物，從B站的收納教程學會歸置物品——那會是什么樣子？

聽起來很科幻？但在本月公布的CoRL 2025論文收錄名單中，一篇來自南方科技大學CLEAR Lab、逐際動力和香港大學的聯(lián)合研究，正在把這個設想變成現(xiàn)實。

收錄地址：https://www.corl.org/program

Conference on Robot Learning (CoRL)可不是一般的學術會議。作為機器人學習領域的頂級學術會議，自2017年創(chuàng)辦以來，CoRL始終引領著機器人學習的技術前沿。今年CoRL 2025關注操作與模仿學習、感知、規(guī)劃與安全、運動控制、人形與硬件等大熱核心主題，競爭之激烈可想而知。

在這樣的背景下，南方科技大學CLEAR Lab聯(lián)合逐際動力、香港大學的論文《Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-top Manipulation》能夠成功入選，是因為它提出了一種巧妙的機器人訓練范式：讓機器人通過視頻來預測任務執(zhí)行過程，進而學會自主操作。這也是逐際動力在利用視頻數(shù)據(jù)進行具身智能訓練的又一突破，有望加速機器人自主操作能力的發(fā)展。

[圖：機器人通過觀察人類來學習]

▍GVF-TAPE：讓機器人先"看懂"再操作的新范式

在具身智能訓練的數(shù)據(jù)金字塔中，視頻數(shù)據(jù)是最大的變量。為什么這么說？因為互聯(lián)網上有海量的人類操作視頻——從美食教程到手工DIY，從工業(yè)裝配到日常家務，這些視頻本質上都是寶貴的"教學資源"。

問題是，如何讓機器人真正"看懂"這些視頻并轉化為自己的技能？

傳統(tǒng)方法就像讓機器人死記硬背——工程師需要針對特定場景、特定操作任務進行手把手示教，告訴機器人每個動作的精確參數(shù)。這種方式下的人力、時間成本高昂，且無法應對環(huán)境的變化，導致部署和泛化的效率低下。

論文中所介紹的GVF-TAPE（Generative Visual Foresight with Task-Agnostic Pose Estimation）算法，核心創(chuàng)新在于將生成式視覺預測和與任務解耦的姿態(tài)估計相結合，簡單來說，就是讓機器人通過看視頻學習操作，像人類一樣先在腦海里"演練"一遍完成任務的整個過程：

1.先從視頻學習一遍：機器人“看”同類的操作視頻，學習操作動作

2.準確預測完成任務的畫面：通過視頻生成模型，預測出自己完成任務時的RGB-D視頻，既有顏色信息，更重要的是還有深度信息。

3.再根據(jù)想象的畫面推理動作：從生成的視頻中提取末端執(zhí)行器的姿態(tài)信息

4.最后執(zhí)行具體操作：通過低層控制器將姿態(tài)轉化為可執(zhí)行的運動指令

[圖.方法框圖概覽]

▍三項突破，讓機器人更快學會操作

突破一：無需深度相機即可生成RGB-D視頻

傳統(tǒng)方法生成的只是2D RGB視頻，沒有空間信息，機器人無法在三維空間準確執(zhí)行操作。而GVF-TAPE的突破在于，僅憑RGB圖像就能生成RGB-D視頻——既有顏色信息，也有深度信息，不需要再借助額外的深度相機來植入空間信息。

生成RGB-D操作視頻，第一行代表RGB圖，第二行代表對應的深度圖

這就像給機器人裝上了"立體視覺"，讓它能更準確地判斷物體在三維空間中的位置。在仿真實驗中，加入深度信息后，任務成功率平均提升了6.78%。更重要的是，不需要深度相機后，對于數(shù)據(jù)采集工具要求進一步降低，成本下降的同時效率也大幅提高。

突破二：與具體任務解耦的機器人姿態(tài)預測

讓人眼前一亮的是GVF-TAPE的訓練方式。不同于傳統(tǒng)的手把手示教，它采用了"機器人隨機探索"訓練模式，機器人隨機運動，就能獲得對場景泛化有價值的數(shù)據(jù)：

機器人在環(huán)境中隨意運動，利用內置的本體感知系統(tǒng)記錄當前場景下機器人位姿（位置和姿態(tài)）。這些看似毫無章法的動作，實際上是在構建一個龐大的"場景-位姿"對應關系數(shù)據(jù)庫，讓算法對場景“免疫”，在任何場景都能識別機器人的位姿。

這種方法的巧妙之處在于：

動作與任務完全解耦，同一份數(shù)據(jù)可以用于訓練各種不同任務，提高了數(shù)據(jù)復用率

數(shù)據(jù)采集完全自動化，不需要任何人工標注，大幅減少了人力成本，也加速了數(shù)據(jù)庫的積累與迭代速度

可擴展性極強，數(shù)據(jù)庫越大，泛化能力越強，模型將在更多任務中有更穩(wěn)健的表現(xiàn)

通過這種自主探索方式，機器人建立了豐富的位姿數(shù)據(jù)庫。面對新場景、新任務時，它能夠調用相關經驗，快速排除場景噪音，生成最優(yōu)控制軌跡，真正實現(xiàn)了"一次訓練，多任務、多場景應用"。

突破三：實時響應的視頻生成速度

以往基于擴散模型（Diffusion Model）的視頻生成方法，就像傳統(tǒng)膠片相機的沖印過程——需要經過顯影、定影等多個步驟才能得到清晰照片，往往要花好幾秒甚至十幾秒才能生成一段動作視頻。

GVF-TAPE采用了"流匹配"（Flow Matching）技術，就像數(shù)碼相機的即拍即得——雖然兩者都是通過降噪來生成清晰圖像，但Flow Matching能用更少的步驟達到同樣甚至更好的效果，將單個動作的預測時間縮短到0.6秒。

[圖. 生成質量對比]

從圖中可以看到，左側圖表顯示的是視頻生成誤差——流匹配（紅線）在相同步數(shù)下，誤差值大大小于擴散模型（藍線）。右側圖表展示的是生成視頻的圖像質量，流匹配僅用前三步就達到了大大高于擴散模型的質量。這種速度提升，讓機器人能夠在不同場景下快速、準確地執(zhí)行操作，真正實現(xiàn)了實時閉環(huán)控制。

▍實驗驗證：更高的效率和成功率

為了驗證這種"先預測再操作"方法的有效性，研究團隊在仿真和真實環(huán)境中都進行了大量測試。

仿真環(huán)境表現(xiàn)

在LIBERO基準測試中，GVF-TAPE與多個最先進的方法進行了對比。結果顯示：

[圖. 仿真試驗結果]

在LIBERO-Spatial和LIBERO-Object測試中，GVF-TAPE分別取得了95.5%和86.7%的成功率

整體平均成功率達到83%，比第二名高出11.56%

最關鍵的是，其他方法都需要20%的動作標注數(shù)據(jù)，而GVF-TAPE完全不需要

實機部署驗證

在真實環(huán)境中，研究團隊測試了7個不同難度的任務，包括剛體、柔體和鉸接物體操作等。具體包括把碗放進微波爐并關門、抓取紙巾、折疊衣服、把抹布扔進垃圾桶等。

從簡單抓取到復雜的開合操作，從剛性到柔性物體，GVF-TAPE在不同場景和操作變化下都展現(xiàn)出了強大的適應性。特別值得一提的是，在引入人類操作視頻進行預訓練后，成功率從56%飆升至86%。

▍基于生成視頻數(shù)據(jù)的自主操作探索再升級

作為該成果的研究團隊成員之一，逐際動力一直在探索"多元數(shù)據(jù)配方"策略——通過整合不同模態(tài)、不同來源的數(shù)據(jù)，讓機器人更高效地學習操作技能。在視頻數(shù)據(jù)驅動的機器人訓練這一方向上，他們取得了多項突破。

今年年初，逐際動力推出的LimX VGM（VideoGenMotion）算法，首次實現(xiàn)了將人類操作視頻實現(xiàn)機器人操作。而這次的GVF-TAPE，進一步優(yōu)化了這一技術棧：

從分鐘級延遲到亞秒級響應，實現(xiàn)了實時視頻生成

從依賴深度相機到純視覺生成，增強了空間感知能力

以本體隨機探索替代人類示教，大幅降低了數(shù)據(jù)采集成本

這種持續(xù)的技術迭代，正在讓視頻數(shù)據(jù)成為機器人學習的"通用教材"，推動著具身智能向更實用、更高效的方向發(fā)展。

試想一下，未來的場景：工廠里的機器人，通過學習大量操作視頻就能快速上崗；家里的服務機器人，參考網上的教程視頻不斷學習新技能；醫(yī)院的手術機器人，通過觀摩手術錄像持續(xù)提升操作水平。

這種讓機器人通過視頻學習的能力，或許正是具身智能真正走向大規(guī)模應用的關鍵一步。

畢竟，誰不想身邊有一個通過視頻就學會干活的機器人助手呢？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.