夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

搶跑特斯拉,中國團隊用視頻學習教機器人學會操作

0
分享至

當特斯拉宣布Optimus機器人將摒棄傳統(tǒng)動作捕捉方案,轉而借助員工日常操作視頻開展訓練時,這一決策猶如投入湖面的巨石,在業(yè)界激起千層浪,也昭示著具身智能的學習范式正經歷著一場深刻變革。

無獨有偶,李飛飛團隊、Figure AI也都提出了機器人通過人類視頻學習日常技能的方法。

但很少有人知道,這背后的底層技術,有一個中國團隊早已搶先落地:早在今年年初,跨維智能披露YOTO (You Only Teach Once)雙臂協(xié)同精巧操作技術框架(YOTO [1]),用30秒短視頻,將雙機械臂訓成“米其林幫廚”,0遙操、0真機、無需采集大量真機數(shù)據(jù),高泛化遷移能力。這一前沿的技術框架,演示了僅憑單條雙目純視覺人類視頻,就能讓雙臂機器人零示教復現(xiàn)復雜長程操作,相關論文亦于2025年初被機器人頂會RSS收錄。視頻學習的賽點,其實早已在中國按下“開始”鍵。

這種“所見即所得”的學習模式,極大地拓展了機器人與環(huán)境交互的可能性邊界。

近期,該研究團隊再次發(fā)布升級版視頻學習框架,雙臂機器人不僅能完成精準的雙臂長程任務,更是能自主識別任務對象的狀態(tài),無論是倒扣的透明一次性碗或塑料框,還是從未見過的任意丟出的多種水瓶,面對隨機的干擾,都能絲滑地將任務完成,任務成功率高達95%。并且這一系列操作,已經快速遷移到不同的機器人本體,體現(xiàn)出該技術架構通往智能涌現(xiàn)的無限潛力。

1.視頻學習的本質到底是什么,真能讓機器人“一看就會”嗎?

視頻學習的本質在于將人類在視頻中暴露出的時空行為模式與語義意圖轉化為可供機器人執(zhí)行的操作策略:視頻提供了豐富的自然演示,包括空間布局、手-物交互、動作分段與語義上下文等。這些信息如果被可靠地抽取與對齊,能夠極大地降低對人工示教或昂貴遙操作數(shù)據(jù)的依賴,從而實現(xiàn)規(guī)?;募寄塬@?。P于從互聯(lián)網視頻擴展機器人學習的概念與綜述,請參見近年的Survey [2])。


圖源自網絡

然而,視頻學習天然存在若干核心缺陷:

?具身本體差異:人類演示的運動學/動力學與機器人平臺往往不匹配,直接照搬會導致失?。?/p>

?物理交互缺失:單純的視覺信號無法提供接觸力、摩擦等物理量,導致策略在真實接觸時不穩(wěn)定;

?感知噪聲與語義歧義:比如遮擋、視角差異、物體多樣性等使得直接從稀疏無標簽視頻中學到可執(zhí)行動作存在高噪比;

?長時序一致性與階段化策略學習的困難:即如何從連續(xù)視頻中抽取有語義的分段(keyframes)并保持時空一致性。

上述問題也是近期多項具身操作領域的研究工作試圖解決的動因,例如若干團隊正探索用大規(guī)模視頻預訓練或無標簽視頻蒸餾來獲得通用視覺-動作表示(Latent Action Pretraining [3] / VidBot [4]等),以期向“從互聯(lián)網視頻直接學習可跨形態(tài)的機器人控制”靠近。

在跨維智能研究團隊的視頻學習框架中,團隊通過一系列設計,有針對性地緩解了上述固有缺陷。

為了解決具身本體差異與長時序一致性問題,并不直接回歸密集連續(xù)動作,而是將人手演示簡化為語義化的關鍵幀序列與運動掩碼(motion mask),該離散化既能去噪又保留了操作任務的要點,使得在不同臂型之間的運動重定向(retargeting)更穩(wěn)定、易校正。

為了解決物理交互信息缺失,團隊采用示教驅動的快速示例增殖(auto-rollout + 3D幾何變換),在真實機器人上生成多樣化、可驗證的訓練示例,從而在視覺與真實執(zhí)行之間建立可靠對照樣本。為提高感知魯棒性并實現(xiàn)閉環(huán)抗擾,團隊在YOTO++中引入輕量級的視覺對齊(pre-grasp alignment)模塊(YOTO++ [5]),利用2D mask的幾何中心與二階矩估計平移與朝向偏差,并通過手眼標定映射到機器人坐標系,從而在初始抓取階段實施高頻閉環(huán)校正,這一做法在動態(tài)擾動下顯著提升了抓取與后續(xù)執(zhí)行的成功率。

該視頻學習框架的做法與當前“用大模型做語義引導”的趨勢是互補的(比如李飛飛團隊提出的關聯(lián)關鍵點ReKep [6]、操作模態(tài)鏈CoM [7]等 )團隊把多模態(tài)大模型(VLM)用于物體語義/掩膜/語言提示的穩(wěn)健感知,而把關鍵幀+擴散策略(BiDP)用于動作表示與生成,二者在“語義先導、動作可執(zhí)行”的路徑上形成協(xié)同。

實際上,近年來業(yè)界的動向(以Google與Tesla為例)也反映了兩條互補路線:一方面,Google等團隊嘗試將大規(guī)模多模態(tài)/語言模型與機器人控制結合(例如RT-1 [8] / Gemini Robotics [9]的思路),強調把語言與視覺作為條件來訓練統(tǒng)一的控制器,從而提高跨任務泛化;另一方面,工業(yè)陣營(例如Tesla的Optimus團隊)正在將訓練重心從昂貴的動作捕捉/遙操作轉向大規(guī)模、視覺驅動的數(shù)據(jù)采集,以期通過海量視頻或員工演示實現(xiàn)更高的訓練覆蓋面。這兩條路線均顯示出“用大規(guī)模視頻與強語義模型擴大樣本池”的潛力,但也同時凸顯了純視覺預訓練在物理可靠性與跨具身執(zhí)行上的局限性。

另一個觀察視角是重新審視“數(shù)據(jù)金字塔”的概念,團隊將視頻模仿學習的樣本來源分層為:底層為海量互聯(lián)網視頻,特點是無標簽、分布多樣、語義豐富;中間為半結構化的人類演示數(shù)據(jù)/仿真合成數(shù)據(jù),常常帶有較好視角與場景一致性,但與機器人本體仍舊存在些許差異;頂層為驗證過的真機數(shù)據(jù)/遙操作數(shù)據(jù),這些數(shù)據(jù)帶精確動作與物理反饋。這些數(shù)據(jù)的獲取難度逐層遞增,現(xiàn)存的數(shù)量也逐漸變得稀少。



跨維智能視頻學習框架的設計理念是:利用底層與中層的視頻來快速獲取語義與時空先驗(高效、直觀、可解釋),再通過自動增殖與少量真實回放快速生成底層的有標簽訓練對照,從而形成“少樣本——可擴展——可驗證”的閉環(huán)體系。這種“少樣本視頻模仿”具有直觀(直接來自人類演示)、高效(減少昂貴采集)、可擴展(通過幾何變換/合成擴增)與可解釋(關鍵幀/語義標簽易于人工審查)等優(yōu)點,從而在實用工程中更加可行??缇S智能研究團隊在視頻學習方向上展示出了超前、卓越的技術成果

?基于關鍵幀與motion mask的表示,能在跨臂型遷移中顯著提高執(zhí)行成功率;

?結合真實auto-rollout與幾何擴增的數(shù)據(jù)增殖策略,可在不大量人工標注的情況下快速產出數(shù)千條可驗證軌跡以訓練魯棒策略;

?視覺對齊的閉環(huán)預抓取,在多次動態(tài)擾動試驗中顯著提升抓取成功率并縮小抓取到完成任務間的性能差距(即部分解決了最脆弱的接觸前階段);

?將VLM用作語義/掩膜增強器與將BiDP用作動作生成器的組合,能在工具使用等長時序任務中維持較好的時空一致性與泛化能力;

使用該視頻學習框架既契合大規(guī)模視頻預訓練的長期發(fā)展方向,也通過工程化的表示、數(shù)據(jù)增殖與閉環(huán)對齊手段,補足了純視頻學習在“物理可執(zhí)行性”方面的短板,從而為可泛化的具身操作提供了一條務實可落地的路線。

2.視頻學習結合Sim2Real技術,機器人高魯棒、泛化的曙光

這一創(chuàng)新性的視頻學習框架,通過極少的真實數(shù)據(jù)樣本,結合Sim2Real高效數(shù)據(jù)增殖,使VLA模型具備極強的泛化性能。在家居服務場景中,機器人僅需一次視頻數(shù)據(jù)輸入,即可達到任務成功率≥95%。

視頻中,雙臂機器人通過“頭部”的雙目純視覺傳感器識別不同瓶子的位置及狀態(tài),能快速地將隨機扔出的任意狀態(tài)的瓶子扶正。即便面對隨機扔出的未見過的瓶子,機器人仍然體現(xiàn)出了極強的抗干擾及泛化能力,并且在連續(xù)作業(yè)中體現(xiàn)出了高達95%的任務成功率,率先通過“連續(xù)20次一鏡到底”壓力測試

同時,機器人在面對連續(xù)的隨機干擾時,能自主識別哪只“手”距離瓶子更近,用更靠近操作對象的“手”去完成任務。這一技術不僅實現(xiàn)了任意未知物體、未知狀態(tài)間、連續(xù)擾動下的技能泛化,還實現(xiàn)了新技能的0真機快速生成、跨機器人平臺的平滑遷移,體現(xiàn)出了VLA模型更智能、高魯棒、跨場景、規(guī)?;渴鸬臒o限潛力。

研究團隊正是以視頻學習框架為核心,面向動態(tài)環(huán)境提出的這一套高效且魯棒的模型適配框架。



該框架利用視覺語言大模型(VLMs)的跨模態(tài)理解與推理能力,從單次示教人手視頻中抽取關鍵幀,并生成動作語義化表示,顯著降低數(shù)據(jù)需求;同時建立“感知—語義—動作”統(tǒng)一表征,將領域知識嵌入視覺、語言與動作空間,實現(xiàn)跨任務、跨環(huán)境泛化。

為提升抗干擾與一致性,研究團隊引入Sim2Real數(shù)據(jù)擴增與增量適配機制,提出“閉環(huán)抓取+開環(huán)執(zhí)行”混合控制范式,并設計基于圖像矩的輕量化視覺對齊算法替代傳統(tǒng)6D姿態(tài)估計,確保高動態(tài)場景下的實時性能。

進一步地,雙臂擴散策略模型(BiDP)結合語義條件學習,對長時序、多階段動作(如工具使用)進行建模,保持時空一致性。實驗在單臂、對側雙臂、同側雙臂及人形雙臂等多種具身平臺上驗證框架的跨形態(tài)可遷移性,突破了傳統(tǒng)模仿學習對大規(guī)模示教和單一任務環(huán)境的依賴。

3.具身智能或將邁入“全民共創(chuàng)”新時代

從廚房到便利店、從產線到無菌實驗室,雙臂機器人一旦擺脫“千次示教、萬元治具”的枷鎖,具備“看完就會”的協(xié)同能力,將把“示范一次”變成“遍地可用”的新標準,這必將帶領機器人叩開千行百業(yè)的大門。

這種技術演進正在重塑工業(yè)智能化發(fā)展路徑。從跨維智能讓機器人看懂互聯(lián)網視頻,到特斯拉用頭盔攝像頭記錄員工動作,具身智能正逐步擺脫對專業(yè)數(shù)據(jù)采集的依賴,邁向“全民共創(chuàng)”的嶄新時代。跨維智能視頻學習框架的成功實踐充分證明,視頻不再僅僅是數(shù)據(jù)的載體,更成為了機器人理解世界的“通用語言”。隨著多視角融合、開放域識別等技術的日益成熟,未來,工廠里的機器人或許能通過觀看數(shù)十年前的工藝視頻,重新掌握失傳的技藝;家庭服務機器人也可實時學習網紅菜譜。這種跨越時空的知識傳遞能力,正是視頻學習賦予具身智能的獨特魅力所在。

Reference:

[1] You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations, RSS'2025 https://arxiv.org/abs/2501.14208

[2] Towards Generalist Robot Learning from Internet Video: A Survey, JAIR'2025 https://arxiv.org/abs/2404.19664

[3] Latent Action Pretraining from Videos, ICLR'2025 https://arxiv.org/abs/2410.11758

[4] VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation, CVPR'2025 https://arxiv.org/abs/2503.07135

[5] YOTO++: Learning Long-Horizon Closed-Loop Bimanual Manipulation from One-Shot Human Video Demonstrations, https://hnuzhy.github.io/projects/YOTOPlus/

[6] ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation, CoRL'2025 https://arxiv.org/abs/2409.01652

[7] Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models, ICRA'2025 https://arxiv.org/abs/2504.13351

[8] RT-1: Robotics Transformer for Real-World Control at Scale, RSS'2023 https://arxiv.org/abs/2212.06817

[9] Gemini Robotics: Bringing AI into the Physical World, https://arxiv.org/abs/2503.20020

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國四星上將不愿跑步,主動辭職

美國四星上將不愿跑步,主動辭職

遠方青木
2025-10-08 23:20:50
新加坡雙尸案徐娜學霸路程曝光!同學透露:盡力找她在中國的親友

新加坡雙尸案徐娜學霸路程曝光!同學透露:盡力找她在中國的親友

談史論天地
2025-10-11 12:25:25
嚴學峰重獲自由,宗家金身已破

嚴學峰重獲自由,宗家金身已破

家傳編輯部
2025-10-10 21:06:49
力拓與必和必拓對人民幣結算的截然不同態(tài)度背后的股權戰(zhàn)爭分析。

力拓與必和必拓對人民幣結算的截然不同態(tài)度背后的股權戰(zhàn)爭分析。

丹徒生
2025-10-07 09:34:15
梅德韋杰夫在平壤一語驚人,金正恩對中國做出一個承諾,讓咱放心

梅德韋杰夫在平壤一語驚人,金正恩對中國做出一個承諾,讓咱放心

起喜電影
2025-10-11 15:25:45
相信嗎|無法解釋的玄學,照做就行!

相信嗎|無法解釋的玄學,照做就行!

糖逗在娛樂
2025-10-11 09:16:01
一代“高僧”釋永信調查有進展,私生女首曝光,眾女星曾發(fā)文辟謠

一代“高僧”釋永信調查有進展,私生女首曝光,眾女星曾發(fā)文辟謠

小seven的囧囧啊
2025-10-09 18:02:51
“人口警報”拉響,這次是沒人愿意再生了,奇葩專家亂出建議

“人口警報”拉響,這次是沒人愿意再生了,奇葩專家亂出建議

探史
2025-10-11 16:36:19
中國諾貝爾獎那么少,科技為啥那么發(fā)達?這才是中國科研真相

中國諾貝爾獎那么少,科技為啥那么發(fā)達?這才是中國科研真相

墨子連山
2025-10-08 18:00:43
董卿的現(xiàn)狀,老父親后悔自責:她嫁密春雷,是我沒攔住

董卿的現(xiàn)狀,老父親后悔自責:她嫁密春雷,是我沒攔住

君好伴讀
2025-09-22 12:49:18
騰訊、愛奇藝、優(yōu)酷“王炸劇”正面交鋒,網友:這下有好戲看了

騰訊、愛奇藝、優(yōu)酷“王炸劇”正面交鋒,網友:這下有好戲看了

手工制作阿殲
2025-10-11 15:18:02
大疆突然狂降價!究竟發(fā)生了什么?

大疆突然狂降價!究竟發(fā)生了什么?

無相商業(yè)趨勢
2025-10-09 14:32:07
揭秘40歲詹姆斯坐骨神經痛:已持續(xù)兩個半月以上 與打高爾夫無關

揭秘40歲詹姆斯坐骨神經痛:已持續(xù)兩個半月以上 與打高爾夫無關

羅說NBA
2025-10-11 07:04:54
從韭菜到夾頭:讀懂“股”和“票”,你就超越了90%的股民。

從韭菜到夾頭:讀懂“股”和“票”,你就超越了90%的股民。

悠閑葡萄
2025-10-11 19:07:44
中國腦梗發(fā)病率世界第一!提醒:罪魁禍首已揪出,3種蔬菜要少吃

中國腦梗發(fā)病率世界第一!提醒:罪魁禍首已揪出,3種蔬菜要少吃

小舟談歷史
2025-10-08 14:38:54
中國在月球又有大發(fā)現(xiàn),當年美國人給中國分享的月壤,果然有問題

中國在月球又有大發(fā)現(xiàn),當年美國人給中國分享的月壤,果然有問題

墨蘭史書
2025-10-10 07:40:03
谷正文能有多瘋狂,去到臺灣叫囂,只有他谷正文才能讓老蔣安心!

谷正文能有多瘋狂,去到臺灣叫囂,只有他谷正文才能讓老蔣安心!

鶴羽說個事
2025-10-11 16:10:51
花果山“板栗”事件后續(xù):官方介入調解,游客賠300元,民宿被扒

花果山“板栗”事件后續(xù):官方介入調解,游客賠300元,民宿被扒

凡知
2025-10-08 10:30:53
全是反轉!《絕命法官》20集大結局,是我今年看過最痛快的大結局

全是反轉!《絕命法官》20集大結局,是我今年看過最痛快的大結局

小丸子的娛樂圈
2025-10-10 22:07:18
上海大師賽又有女子大叫,比賽一度中斷!警方稱其系精神病人

上海大師賽又有女子大叫,比賽一度中斷!警方稱其系精神病人

南方都市報
2025-10-11 12:59:08
2025-10-11 20:20:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺
5809文章數(shù) 4544關注度
往期回顧 全部

科技要聞

在中國打不贏,還想在全球贏?

頭條要聞

宗澤后:一手好牌被打個稀爛 娃哈哈栽在宗馥莉手里了

頭條要聞

宗澤后:一手好牌被打個稀爛 娃哈哈栽在宗馥莉手里了

體育要聞

王牌對王牌,阿德巴約終究還是高攀了

娛樂要聞

《向往》收視創(chuàng)新低!節(jié)目氛圍遭吐槽

財經要聞

從稀土到高通 中國72小時連出10記重拳

汽車要聞

純電續(xù)航215km 全新阿爾法T5增程版10月底將上市

態(tài)度原創(chuàng)

健康
房產
數(shù)碼
手機
公開課

內分泌科專家破解身高八大謠言

房產要聞

104萬㎡,超1萬套!海口、三亞樓市“巨量”新房砸出!

數(shù)碼要聞

海信RGB-Mini LED成全場焦點,閃耀上海智家生活博覽會

手機要聞

新華社評小米對標蘋果:中國科技力量正在改寫競爭格局

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 国产精品片一区二区三区| 九色丨PORNY丨出轨| 亚洲中文字幕av无码区| 女人扒开腿 9 2 1 5让男人桶| 伊人久久大香线蕉综合5g| 欧美成人熟妇| 国产熟女性爱视频| 无码人妻系列不卡免费视频| 人妻无码久久精品人妻成人| 久久熟女一区二区| 丰满少妇被猛烈进出69影院 | 精品人妻一区二区三区蜜桃AⅤ | 亚洲熟妇无码av在线播放| 免费看黄片com| 亚洲AV打野战性色AV| 极品少妇小泬50pthepon | 欧美XX免费| 日本丰满毛茸茸熟妇| 51国偷自产一区二区三区的来源| 可以免费观看的av| 国产极品视觉盛宴| 毛片无摭无码在线免费观看 | 娇妻呻吟一区二区三区| 国产AV综合AV一区二区| 亚洲乱码无码永久不卡在线| 人妻少妇精品无码系列| 综合大色堂一二三区| 国内成+人 亚洲+欧美+综合在线 | 伊人色综合一区二区三区| 国产经典1区| 日本japanese熟睡人妻| 欧美高清精品一区二区| 黑巨茎破女处毛片| 欧美熟妇另类久久久久久多毛| 97精品伊人久久大香线蕉APP| 最近中文mv字幕免费高清在线| 亚洲乱码日产精品一二三| 国产av高清怡春院| 强抱少妇BBB搡BBB搡BBB| 久热精品视频| 国产亚洲人成网站在线观看|