想象一下,如果機器人也能像我們一樣,通過刷視頻就能學習各種操作技能——比如從抖音上的疊衣服技巧學會整理衣物,從B站的收納教程學會歸置物品——那會是什么樣子?
聽起來很科幻?但在本月公布的CoRL 2025論文收錄名單中,一篇來自南方科技大學CLEAR Lab、逐際動力和香港大學的聯(lián)合研究,正在把這個設想變成現(xiàn)實。
收錄地址:https://www.corl.org/program
Conference on Robot Learning (CoRL)可不是一般的學術會議。作為機器人學習領域的頂級學術會議,自2017年創(chuàng)辦以來,CoRL始終引領著機器人學習的技術前沿。今年CoRL 2025關注操作與模仿學習、感知、規(guī)劃與安全、運動控制、人形與硬件等大熱核心主題,競爭之激烈可想而知。
在這樣的背景下,南方科技大學CLEAR Lab聯(lián)合逐際動力、香港大學的論文《Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-top Manipulation》能夠成功入選,是因為它提出了一種巧妙的機器人訓練范式:讓機器人通過視頻來預測任務執(zhí)行過程,進而學會自主操作。這也是逐際動力在利用視頻數(shù)據(jù)進行具身智能訓練的又一突破,有望加速機器人自主操作能力的發(fā)展。
[圖:機器人通過觀察人類來學習]
▍GVF-TAPE:讓機器人先"看懂"再操作的新范式
在具身智能訓練的數(shù)據(jù)金字塔中,視頻數(shù)據(jù)是最大的變量。為什么這么說?因為互聯(lián)網上有海量的人類操作視頻——從美食教程到手工DIY,從工業(yè)裝配到日常家務,這些視頻本質上都是寶貴的"教學資源"。
問題是,如何讓機器人真正"看懂"這些視頻并轉化為自己的技能?
傳統(tǒng)方法就像讓機器人死記硬背——工程師需要針對特定場景、特定操作任務進行手把手示教,告訴機器人每個動作的精確參數(shù)。這種方式下的人力、時間成本高昂,且無法應對環(huán)境的變化,導致部署和泛化的效率低下。
論文中所介紹的GVF-TAPE(Generative Visual Foresight with Task-Agnostic Pose Estimation)算法,核心創(chuàng)新在于將生成式視覺預測和與任務解耦的姿態(tài)估計相結合,簡單來說,就是讓機器人通過看視頻學習操作,像人類一樣先在腦海里"演練"一遍完成任務的整個過程:
1.先從視頻學習一遍:機器人“看”同類的操作視頻,學習操作動作
2.準確預測完成任務的畫面:通過視頻生成模型,預測出自己完成任務時的RGB-D視頻,既有顏色信息,更重要的是還有深度信息。
3.再根據(jù)想象的畫面推理動作:從生成的視頻中提取末端執(zhí)行器的姿態(tài)信息
4.最后執(zhí)行具體操作:通過低層控制器將姿態(tài)轉化為可執(zhí)行的運動指令
[圖.方法框圖概覽]
▍三項突破,讓機器人更快學會操作
突破一:無需深度相機即可生成RGB-D視頻
傳統(tǒng)方法生成的只是2D RGB視頻,沒有空間信息,機器人無法在三維空間準確執(zhí)行操作。而GVF-TAPE的突破在于,僅憑RGB圖像就能生成RGB-D視頻——既有顏色信息,也有深度信息,不需要再借助額外的深度相機來植入空間信息。
生成RGB-D操作視頻,第一行代表RGB圖,第二行代表對應的深度圖
這就像給機器人裝上了"立體視覺",讓它能更準確地判斷物體在三維空間中的位置。在仿真實驗中,加入深度信息后,任務成功率平均提升了6.78%。更重要的是,不需要深度相機后,對于數(shù)據(jù)采集工具要求進一步降低,成本下降的同時效率也大幅提高。
突破二:與具體任務解耦的機器人姿態(tài)預測
讓人眼前一亮的是GVF-TAPE的訓練方式。不同于傳統(tǒng)的手把手示教,它采用了"機器人隨機探索"訓練模式,機器人隨機運動,就能獲得對場景泛化有價值的數(shù)據(jù):
機器人在環(huán)境中隨意運動,利用內置的本體感知系統(tǒng)記錄當前場景下機器人位姿(位置和姿態(tài))。這些看似毫無章法的動作,實際上是在構建一個龐大的"場景-位姿"對應關系數(shù)據(jù)庫,讓算法對場景“免疫”,在任何場景都能識別機器人的位姿。
這種方法的巧妙之處在于:
動作與任務完全解耦,同一份數(shù)據(jù)可以用于訓練各種不同任務,提高了數(shù)據(jù)復用率
數(shù)據(jù)采集完全自動化,不需要任何人工標注,大幅減少了人力成本,也加速了數(shù)據(jù)庫的積累與迭代速度
可擴展性極強,數(shù)據(jù)庫越大,泛化能力越強,模型將在更多任務中有更穩(wěn)健的表現(xiàn)
通過這種自主探索方式,機器人建立了豐富的位姿數(shù)據(jù)庫。面對新場景、新任務時,它能夠調用相關經驗,快速排除場景噪音,生成最優(yōu)控制軌跡,真正實現(xiàn)了"一次訓練,多任務、多場景應用"。
突破三:實時響應的視頻生成速度
以往基于擴散模型(Diffusion Model)的視頻生成方法,就像傳統(tǒng)膠片相機的沖印過程——需要經過顯影、定影等多個步驟才能得到清晰照片,往往要花好幾秒甚至十幾秒才能生成一段動作視頻。
GVF-TAPE采用了"流匹配"(Flow Matching)技術,就像數(shù)碼相機的即拍即得——雖然兩者都是通過降噪來生成清晰圖像,但Flow Matching能用更少的步驟達到同樣甚至更好的效果,將單個動作的預測時間縮短到0.6秒。
[圖. 生成質量對比]
從圖中可以看到,左側圖表顯示的是視頻生成誤差——流匹配(紅線)在相同步數(shù)下,誤差值大大小于擴散模型(藍線)。右側圖表展示的是生成視頻的圖像質量,流匹配僅用前三步就達到了大大高于擴散模型的質量。這種速度提升,讓機器人能夠在不同場景下快速、準確地執(zhí)行操作,真正實現(xiàn)了實時閉環(huán)控制。
▍實驗驗證:更高的效率和成功率
為了驗證這種"先預測再操作"方法的有效性,研究團隊在仿真和真實環(huán)境中都進行了大量測試。
仿真環(huán)境表現(xiàn)
在LIBERO基準測試中,GVF-TAPE與多個最先進的方法進行了對比。結果顯示:
[圖. 仿真試驗結果]
在LIBERO-Spatial和LIBERO-Object測試中,GVF-TAPE分別取得了95.5%和86.7%的成功率
整體平均成功率達到83%,比第二名高出11.56%
最關鍵的是,其他方法都需要20%的動作標注數(shù)據(jù),而GVF-TAPE完全不需要
實機部署驗證
在真實環(huán)境中,研究團隊測試了7個不同難度的任務,包括剛體、柔體和鉸接物體操作等。具體包括把碗放進微波爐并關門、抓取紙巾、折疊衣服、把抹布扔進垃圾桶等。
從簡單抓取到復雜的開合操作,從剛性到柔性物體,GVF-TAPE在不同場景和操作變化下都展現(xiàn)出了強大的適應性。特別值得一提的是,在引入人類操作視頻進行預訓練后,成功率從56%飆升至86%。
▍基于生成視頻數(shù)據(jù)的自主操作探索再升級
作為該成果的研究團隊成員之一,逐際動力一直在探索"多元數(shù)據(jù)配方"策略——通過整合不同模態(tài)、不同來源的數(shù)據(jù),讓機器人更高效地學習操作技能。在視頻數(shù)據(jù)驅動的機器人訓練這一方向上,他們取得了多項突破。
今年年初,逐際動力推出的LimX VGM(VideoGenMotion)算法,首次實現(xiàn)了將人類操作視頻實現(xiàn)機器人操作。而這次的GVF-TAPE,進一步優(yōu)化了這一技術棧:
從分鐘級延遲到亞秒級響應,實現(xiàn)了實時視頻生成
從依賴深度相機到純視覺生成,增強了空間感知能力
以本體隨機探索替代人類示教,大幅降低了數(shù)據(jù)采集成本
這種持續(xù)的技術迭代,正在讓視頻數(shù)據(jù)成為機器人學習的"通用教材",推動著具身智能向更實用、更高效的方向發(fā)展。
試想一下,未來的場景:工廠里的機器人,通過學習大量操作視頻就能快速上崗;家里的服務機器人,參考網上的教程視頻不斷學習新技能;醫(yī)院的手術機器人,通過觀摩手術錄像持續(xù)提升操作水平。
這種讓機器人通過視頻學習的能力,或許正是具身智能真正走向大規(guī)模應用的關鍵一步。
畢竟,誰不想身邊有一個通過視頻就學會干活的機器人助手呢?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.