當特斯拉宣布Optimus機器人將摒棄傳統(tǒng)動作捕捉方案,轉而借助員工日常操作視頻開展訓練時,這一決策猶如投入湖面的巨石,在業(yè)界激起千層浪,也昭示著具身智能的學習范式正經歷著一場深刻變革。
無獨有偶,李飛飛團隊、Figure AI也都提出了機器人通過人類視頻學習日常技能的方法。
但很少有人知道,這背后的底層技術,有一個中國團隊早已搶先落地:早在今年年初,跨維智能披露YOTO (You Only Teach Once)雙臂協(xié)同精巧操作技術框架(YOTO [1]),用30秒短視頻,將雙機械臂訓成“米其林幫廚”,0遙操、0真機、無需采集大量真機數(shù)據(jù),高泛化遷移能力。這一前沿的技術框架,演示了僅憑單條雙目純視覺人類視頻,就能讓雙臂機器人零示教復現(xiàn)復雜長程操作,相關論文亦于2025年初被機器人頂會RSS收錄。視頻學習的賽點,其實早已在中國按下“開始”鍵。
這種“所見即所得”的學習模式,極大地拓展了機器人與環(huán)境交互的可能性邊界。
近期,該研究團隊再次發(fā)布升級版視頻學習框架,雙臂機器人不僅能完成精準的雙臂長程任務,更是能自主識別任務對象的狀態(tài),無論是倒扣的透明一次性碗或塑料框,還是從未見過的任意丟出的多種水瓶,面對隨機的干擾,都能絲滑地將任務完成,任務成功率高達95%。并且這一系列操作,已經快速遷移到不同的機器人本體,體現(xiàn)出該技術架構通往智能涌現(xiàn)的無限潛力。
1.視頻學習的本質到底是什么,真能讓機器人“一看就會”嗎?
視頻學習的本質在于將人類在視頻中暴露出的時空行為模式與語義意圖轉化為可供機器人執(zhí)行的操作策略:視頻提供了豐富的自然演示,包括空間布局、手-物交互、動作分段與語義上下文等。這些信息如果被可靠地抽取與對齊,能夠極大地降低對人工示教或昂貴遙操作數(shù)據(jù)的依賴,從而實現(xiàn)規(guī)?;募寄塬@?。P于從互聯(lián)網視頻擴展機器人學習的概念與綜述,請參見近年的Survey [2])。
圖源自網絡
然而,視頻學習天然存在若干核心缺陷:
?具身本體差異:人類演示的運動學/動力學與機器人平臺往往不匹配,直接照搬會導致失?。?/p>
?物理交互缺失:單純的視覺信號無法提供接觸力、摩擦等物理量,導致策略在真實接觸時不穩(wěn)定;
?感知噪聲與語義歧義:比如遮擋、視角差異、物體多樣性等使得直接從稀疏無標簽視頻中學到可執(zhí)行動作存在高噪比;
?長時序一致性與階段化策略學習的困難:即如何從連續(xù)視頻中抽取有語義的分段(keyframes)并保持時空一致性。
上述問題也是近期多項具身操作領域的研究工作試圖解決的動因,例如若干團隊正探索用大規(guī)模視頻預訓練或無標簽視頻蒸餾來獲得通用視覺-動作表示(Latent Action Pretraining [3] / VidBot [4]等),以期向“從互聯(lián)網視頻直接學習可跨形態(tài)的機器人控制”靠近。
在跨維智能研究團隊的視頻學習框架中,團隊通過一系列設計,有針對性地緩解了上述固有缺陷。
為了解決具身本體差異與長時序一致性問題,并不直接回歸密集連續(xù)動作,而是將人手演示簡化為語義化的關鍵幀序列與運動掩碼(motion mask),該離散化既能去噪又保留了操作任務的要點,使得在不同臂型之間的運動重定向(retargeting)更穩(wěn)定、易校正。
為了解決物理交互信息缺失,團隊采用示教驅動的快速示例增殖(auto-rollout + 3D幾何變換),在真實機器人上生成多樣化、可驗證的訓練示例,從而在視覺與真實執(zhí)行之間建立可靠對照樣本。為提高感知魯棒性并實現(xiàn)閉環(huán)抗擾,團隊在YOTO++中引入輕量級的視覺對齊(pre-grasp alignment)模塊(YOTO++ [5]),利用2D mask的幾何中心與二階矩估計平移與朝向偏差,并通過手眼標定映射到機器人坐標系,從而在初始抓取階段實施高頻閉環(huán)校正,這一做法在動態(tài)擾動下顯著提升了抓取與后續(xù)執(zhí)行的成功率。
該視頻學習框架的做法與當前“用大模型做語義引導”的趨勢是互補的(比如李飛飛團隊提出的關聯(lián)關鍵點ReKep [6]、操作模態(tài)鏈CoM [7]等 ):團隊把多模態(tài)大模型(VLM)用于物體語義/掩膜/語言提示的穩(wěn)健感知,而把關鍵幀+擴散策略(BiDP)用于動作表示與生成,二者在“語義先導、動作可執(zhí)行”的路徑上形成協(xié)同。
實際上,近年來業(yè)界的動向(以Google與Tesla為例)也反映了兩條互補路線:一方面,Google等團隊嘗試將大規(guī)模多模態(tài)/語言模型與機器人控制結合(例如RT-1 [8] / Gemini Robotics [9]的思路),強調把語言與視覺作為條件來訓練統(tǒng)一的控制器,從而提高跨任務泛化;另一方面,工業(yè)陣營(例如Tesla的Optimus團隊)正在將訓練重心從昂貴的動作捕捉/遙操作轉向大規(guī)模、視覺驅動的數(shù)據(jù)采集,以期通過海量視頻或員工演示實現(xiàn)更高的訓練覆蓋面。這兩條路線均顯示出“用大規(guī)模視頻與強語義模型擴大樣本池”的潛力,但也同時凸顯了純視覺預訓練在物理可靠性與跨具身執(zhí)行上的局限性。
另一個觀察視角是重新審視“數(shù)據(jù)金字塔”的概念,團隊將視頻模仿學習的樣本來源分層為:底層為海量互聯(lián)網視頻,特點是無標簽、分布多樣、語義豐富;中間為半結構化的人類演示數(shù)據(jù)/仿真合成數(shù)據(jù),常常帶有較好視角與場景一致性,但與機器人本體仍舊存在些許差異;頂層為驗證過的真機數(shù)據(jù)/遙操作數(shù)據(jù),這些數(shù)據(jù)帶精確動作與物理反饋。這些數(shù)據(jù)的獲取難度逐層遞增,現(xiàn)存的數(shù)量也逐漸變得稀少。
跨維智能視頻學習框架的設計理念是:利用底層與中層的視頻來快速獲取語義與時空先驗(高效、直觀、可解釋),再通過自動增殖與少量真實回放快速生成底層的有標簽訓練對照,從而形成“少樣本——可擴展——可驗證”的閉環(huán)體系。這種“少樣本視頻模仿”具有直觀(直接來自人類演示)、高效(減少昂貴采集)、可擴展(通過幾何變換/合成擴增)與可解釋(關鍵幀/語義標簽易于人工審查)等優(yōu)點,從而在實用工程中更加可行??缇S智能研究團隊在視頻學習方向上展示出了超前、卓越的技術成果:
?基于關鍵幀與motion mask的表示,能在跨臂型遷移中顯著提高執(zhí)行成功率;
?結合真實auto-rollout與幾何擴增的數(shù)據(jù)增殖策略,可在不大量人工標注的情況下快速產出數(shù)千條可驗證軌跡以訓練魯棒策略;
?視覺對齊的閉環(huán)預抓取,在多次動態(tài)擾動試驗中顯著提升抓取成功率并縮小抓取到完成任務間的性能差距(即部分解決了最脆弱的接觸前階段);
?將VLM用作語義/掩膜增強器與將BiDP用作動作生成器的組合,能在工具使用等長時序任務中維持較好的時空一致性與泛化能力;
使用該視頻學習框架既契合大規(guī)模視頻預訓練的長期發(fā)展方向,也通過工程化的表示、數(shù)據(jù)增殖與閉環(huán)對齊手段,補足了純視頻學習在“物理可執(zhí)行性”方面的短板,從而為可泛化的具身操作提供了一條務實可落地的路線。
2.視頻學習結合Sim2Real技術,機器人高魯棒、泛化的曙光
這一創(chuàng)新性的視頻學習框架,通過極少的真實數(shù)據(jù)樣本,結合Sim2Real高效數(shù)據(jù)增殖,使VLA模型具備極強的泛化性能。在家居服務場景中,機器人僅需一次視頻數(shù)據(jù)輸入,即可達到任務成功率≥95%。
視頻中,雙臂機器人通過“頭部”的雙目純視覺傳感器識別不同瓶子的位置及狀態(tài),能快速地將隨機扔出的任意狀態(tài)的瓶子扶正。即便面對隨機扔出的未見過的瓶子,機器人仍然體現(xiàn)出了極強的抗干擾及泛化能力,并且在連續(xù)作業(yè)中體現(xiàn)出了高達95%的任務成功率,率先通過“連續(xù)20次一鏡到底”壓力測試。
同時,機器人在面對連續(xù)的隨機干擾時,能自主識別哪只“手”距離瓶子更近,用更靠近操作對象的“手”去完成任務。這一技術不僅實現(xiàn)了任意未知物體、未知狀態(tài)間、連續(xù)擾動下的技能泛化,還實現(xiàn)了新技能的0真機快速生成、跨機器人平臺的平滑遷移,體現(xiàn)出了VLA模型更智能、高魯棒、跨場景、規(guī)?;渴鸬臒o限潛力。
研究團隊正是以視頻學習框架為核心,面向動態(tài)環(huán)境提出的這一套高效且魯棒的模型適配框架。
該框架利用視覺語言大模型(VLMs)的跨模態(tài)理解與推理能力,從單次示教人手視頻中抽取關鍵幀,并生成動作語義化表示,顯著降低數(shù)據(jù)需求;同時建立“感知—語義—動作”統(tǒng)一表征,將領域知識嵌入視覺、語言與動作空間,實現(xiàn)跨任務、跨環(huán)境泛化。
為提升抗干擾與一致性,研究團隊引入Sim2Real數(shù)據(jù)擴增與增量適配機制,提出“閉環(huán)抓取+開環(huán)執(zhí)行”混合控制范式,并設計基于圖像矩的輕量化視覺對齊算法替代傳統(tǒng)6D姿態(tài)估計,確保高動態(tài)場景下的實時性能。
進一步地,雙臂擴散策略模型(BiDP)結合語義條件學習,對長時序、多階段動作(如工具使用)進行建模,保持時空一致性。實驗在單臂、對側雙臂、同側雙臂及人形雙臂等多種具身平臺上驗證框架的跨形態(tài)可遷移性,突破了傳統(tǒng)模仿學習對大規(guī)模示教和單一任務環(huán)境的依賴。
3.具身智能或將邁入“全民共創(chuàng)”新時代
從廚房到便利店、從產線到無菌實驗室,雙臂機器人一旦擺脫“千次示教、萬元治具”的枷鎖,具備“看完就會”的協(xié)同能力,將把“示范一次”變成“遍地可用”的新標準,這必將帶領機器人叩開千行百業(yè)的大門。
這種技術演進正在重塑工業(yè)智能化發(fā)展路徑。從跨維智能讓機器人看懂互聯(lián)網視頻,到特斯拉用頭盔攝像頭記錄員工動作,具身智能正逐步擺脫對專業(yè)數(shù)據(jù)采集的依賴,邁向“全民共創(chuàng)”的嶄新時代。跨維智能視頻學習框架的成功實踐充分證明,視頻不再僅僅是數(shù)據(jù)的載體,更成為了機器人理解世界的“通用語言”。隨著多視角融合、開放域識別等技術的日益成熟,未來,工廠里的機器人或許能通過觀看數(shù)十年前的工藝視頻,重新掌握失傳的技藝;家庭服務機器人也可實時學習網紅菜譜。這種跨越時空的知識傳遞能力,正是視頻學習賦予具身智能的獨特魅力所在。
Reference:
[1] You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations, RSS'2025 https://arxiv.org/abs/2501.14208
[2] Towards Generalist Robot Learning from Internet Video: A Survey, JAIR'2025 https://arxiv.org/abs/2404.19664
[3] Latent Action Pretraining from Videos, ICLR'2025 https://arxiv.org/abs/2410.11758
[4] VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation, CVPR'2025 https://arxiv.org/abs/2503.07135
[5] YOTO++: Learning Long-Horizon Closed-Loop Bimanual Manipulation from One-Shot Human Video Demonstrations, https://hnuzhy.github.io/projects/YOTOPlus/
[6] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation, CoRL'2025 https://arxiv.org/abs/2409.01652
[7] Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models, ICRA'2025 https://arxiv.org/abs/2504.13351
[8] RT-1: Robotics Transformer for Real-World Control at Scale, RSS'2023 https://arxiv.org/abs/2212.06817
[9] Gemini Robotics: Bringing AI into the Physical World, https://arxiv.org/abs/2503.20020
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.