夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

斯坦福大學(xué)提出RTR框架,讓機(jī)械臂助力人形機(jī)器人真機(jī)訓(xùn)練

0
分享至



人形機(jī)器人的運(yùn)動(dòng)控制,正成為強(qiáng)化學(xué)習(xí)(RL)算法應(yīng)用的下一個(gè)熱點(diǎn)研究領(lǐng)域。當(dāng)前,主流方案大多遵循 “仿真到現(xiàn)實(shí)”(Sim-to-Real)的范式。研究者們通過域隨機(jī)化(Domain Randomization)技術(shù),在成千上萬個(gè)具有不同物理參數(shù)的仿真環(huán)境中訓(xùn)練通用控制模型,期望它能憑借強(qiáng)大的泛化能力,直接適應(yīng)動(dòng)力學(xué)特性未知的真實(shí)世界。盡管這類 “零樣本遷移”(Zero-Shot Transfer)方案在多種運(yùn)動(dòng)任務(wù)上取得了卓越表現(xiàn),但其本質(zhì)目標(biāo)是訓(xùn)練一種在任何環(huán)境下都 “能用” 的保守策略。這種策略犧牲了機(jī)器人在特定真實(shí)環(huán)境中的性能上限,因?yàn)閷?duì)于最終落地而言,真實(shí)世界的表現(xiàn)才是唯一重要的標(biāo)準(zhǔn)。

為了突破這一瓶頸,近期一些工作開始探索在仿真預(yù)訓(xùn)練后,利用少量真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。例如,來自英偉達(dá)和 CMU 等機(jī)構(gòu)的研究者提出的ASAP[1],通過訓(xùn)練一個(gè)殘差網(wǎng)絡(luò)來快速補(bǔ)償仿真與現(xiàn)實(shí)的動(dòng)態(tài)差異;而學(xué)界經(jīng)典的RMA(Rapid Motor Adaptation) 算法 [2] 也被應(yīng)用于雙足機(jī)器人,通過一個(gè)適配模塊從歷史動(dòng)作中推斷環(huán)境動(dòng)力學(xué)信息 [3]。然而,這些工作大多仍著眼于對(duì)動(dòng)態(tài)偏差進(jìn)行一次性補(bǔ)償,交互范式也更偏向于離線學(xué)習(xí),并未在真實(shí)環(huán)境中對(duì)模型本身進(jìn)行持續(xù)的在線調(diào)整。由于人形機(jī)器人本身極不穩(wěn)定,任何微小的失誤都可能導(dǎo)致昂貴的硬件損壞,因此在真實(shí)環(huán)境中直接進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,長期以來被視為一個(gè)難以逾越的障礙。

從人類父母教授嬰兒學(xué)步的過程中汲取靈感,我們創(chuàng)造性地提出,使用一個(gè) “教師” 機(jī)械臂在現(xiàn)實(shí)世界中 “手把手” 地指導(dǎo) “學(xué)生” 人形機(jī)器人進(jìn)行在線強(qiáng)化學(xué)習(xí)。

在這一過程中,教師機(jī)械臂扮演了多重關(guān)鍵角色:它既是保護(hù)安全的 “吊索”,防止學(xué)生摔倒 ;也是自動(dòng)重置的 “幫手”,可以在失敗后迅速扶起學(xué)生繼續(xù)訓(xùn)練;它還是敏銳的 “信號(hào)源”,通過力傳感器收集寶貴的訓(xùn)練數(shù)據(jù),為學(xué)生提供在真實(shí)環(huán)境中不易獲得的獎(jiǎng)勵(lì)信號(hào);更是智慧的 “教練”,通過設(shè)置課程學(xué)習(xí)(Curriculum Learning)進(jìn)度和施加對(duì)抗性擾動(dòng),在訓(xùn)練初期幫助學(xué)生快速適應(yīng)環(huán)境,再循序漸進(jìn)地提升訓(xùn)練難度,增強(qiáng)學(xué)生的學(xué)習(xí)效率和策略的魯棒性。

我們將這一創(chuàng)新的軟硬件協(xié)同系統(tǒng)命名為 RTR (Robot-Trains-Robot),凸顯了由機(jī)器人教師提供主動(dòng)物理輔助,對(duì)于實(shí)現(xiàn)人形機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)有重要意義。同時(shí),為解決真實(shí)世界數(shù)據(jù)采集成本高昂的難題,團(tuán)隊(duì)還提出了一種新穎的強(qiáng)化學(xué)習(xí)算法,通過僅優(yōu)化一個(gè)與環(huán)境動(dòng)力學(xué)相關(guān)的低維隱變量來快速調(diào)整機(jī)器人的行為,極大地提升了樣本效率。這一算法上的貢獻(xiàn)進(jìn)一步解放了真機(jī)強(qiáng)化學(xué)習(xí)的潛力,在評(píng)測中顯著超越了 RMA 等傳統(tǒng)的在線系統(tǒng)識(shí)別基準(zhǔn)。



論文標(biāo)題:Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids

論文地址:https://arxiv.org/abs/2508.12252

方法

具體來說,RTR 系統(tǒng)由硬件和算法兩部分構(gòu)成:

硬件設(shè)置:教師與學(xué)生的協(xié)同生態(tài)系統(tǒng)

RTR 的硬件系統(tǒng)由 “教師” 和 “學(xué)生” 兩組機(jī)器人組成。

教師系統(tǒng):核心是一臺(tái)帶有力 - 矩(Force / Torque)傳感器的 UR5 六軸機(jī)械臂。四根彈性纜繩將機(jī)械臂的末端與人形機(jī)器人的肩部相連,這種柔性連接可以平滑地傳遞輔助力,避免剛性連接帶來的沖擊。在行走任務(wù)中,一臺(tái)可編程的跑步機(jī)作為輔助,確保學(xué)生始終在教師的臂展范圍內(nèi)。一臺(tái)迷你 PC 作為教師系統(tǒng)的 “大腦”,統(tǒng)一處理力反饋信號(hào)并控制機(jī)械臂與跑步機(jī)的行為。

學(xué)生系統(tǒng):學(xué)生基于開源的 ToddlerBot 人形機(jī)器人 [4],它擁有 30 個(gè)自由度,體型緊湊且硬件堅(jiān)固,適合長時(shí)間的連續(xù)訓(xùn)練。開源的機(jī)器人設(shè)計(jì)使得根據(jù)需要對(duì)其進(jìn)行修改更加便捷,一臺(tái)獨(dú)立的工作站則負(fù)責(zé)運(yùn)行強(qiáng)化學(xué)習(xí)算法,并在學(xué)生手機(jī)數(shù)據(jù)的同時(shí)持續(xù)將最新的策略模型發(fā)送給學(xué)生執(zhí)行。



算法設(shè)計(jì):三階段式高效 Sim-to-Real 微調(diào)

為了最大化數(shù)據(jù)效率,RTR 提出 Sim-to-Real 過程分為三個(gè)階段:

1. 仿真訓(xùn)練具有環(huán)境適應(yīng)性的策略。在大量域隨機(jī)化的仿真環(huán)境中,訓(xùn)練一個(gè)接受編碼了環(huán)境物理參數(shù)(如摩擦力、阻尼等)的隱變量 z 作為輸入的控制策略。該隱變量通過 FiLM (Feature-wise Linear Modulation) [5] 層融入策略網(wǎng)絡(luò),使得機(jī)器人的策略能夠根據(jù)不同的動(dòng)力學(xué)環(huán)境進(jìn)行自適應(yīng)調(diào)整。



實(shí)驗(yàn)驗(yàn)證

我們通過行走和 “蕩秋千” 兩個(gè)任務(wù),全面驗(yàn)證了 RTR 系統(tǒng)的有效性。

仿真到現(xiàn)實(shí)微調(diào)的行走任務(wù)中,我們是讓機(jī)器人在跑步機(jī)上精準(zhǔn)地追蹤目標(biāo)速度。消融實(shí)驗(yàn)證明了 RTR 系統(tǒng)設(shè)計(jì)的優(yōu)越性:

教師的輔助效果:與固定的吊架相比,能夠主動(dòng)順應(yīng)機(jī)器人運(yùn)動(dòng)的 “柔性” 機(jī)械臂(XY Compliant)顯著提升了學(xué)習(xí)效果。同時(shí),從高額輔助逐漸過渡到零輔助的 “課程學(xué)習(xí)” 策略(Z Schedule),優(yōu)于全程高輔助或全程低輔助的固定策略。

微調(diào)算法的數(shù)據(jù)效率:RTR 提出的 “微調(diào)隱變量” 方法,在數(shù)據(jù)效率和最終性能上均優(yōu)于微調(diào)整個(gè)策略網(wǎng)絡(luò)或微調(diào)殘差網(wǎng)絡(luò)的基線方法。僅需 20 分鐘的真實(shí)世界訓(xùn)練,RTR 就能將在仿真中預(yù)訓(xùn)練的行走策略速度提升一倍。



我們還進(jìn)一步設(shè)計(jì)了對(duì)比實(shí)驗(yàn),驗(yàn)證了使用 FiLM 層向策略網(wǎng)絡(luò)添加關(guān)于環(huán)境動(dòng)態(tài)的隱變量條件輸入,其效果優(yōu)于直接將環(huán)境動(dòng)態(tài)變量拼接到策略網(wǎng)絡(luò)的觀測中?;?RTR 提出方法的真機(jī)微調(diào)效果,也要強(qiáng)于 RMA 為代表的在線參數(shù)識(shí)別基線。



除了 Sim-to-Real 任務(wù),我們還設(shè)計(jì)了純真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)的 “蕩秋千” 實(shí)驗(yàn),以展示 RTR 系統(tǒng)在直接強(qiáng)化學(xué)習(xí)任務(wù)中的潛力。在這個(gè)任務(wù)中,人形機(jī)器人需要學(xué)會(huì)協(xié)調(diào)雙腿,像孩子一樣蕩起秋千,以最大化擺動(dòng)幅度。教師機(jī)械臂通過實(shí)時(shí)力反饋感知學(xué)生的擺動(dòng)相位,在適當(dāng)時(shí)機(jī)給予 “推動(dòng)”(幫助)或 “阻尼”(擾動(dòng))。實(shí)驗(yàn)結(jié)果表明,有教師主動(dòng)參與的 “幫助” 和 “擾動(dòng)” 課程學(xué)習(xí),其效率高于教師僅作為固定吊架的方案,同時(shí)教師感知到的力信息,始終作為重要的獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)生訓(xùn)練。整個(gè)學(xué)習(xí)過程從零開始,在 20 分鐘內(nèi)就學(xué)會(huì)了幅度明顯的周期性擺蕩動(dòng)作。



總結(jié)與展望

RTR 框架的提出,不僅為解決當(dāng)前人形機(jī)器人真機(jī)部署與訓(xùn)練的瓶頸提供了切實(shí)可行的方案,更重要的是,它引入了主動(dòng)力輔助這一全新的范式來幫助機(jī)器人在真實(shí)世界學(xué)習(xí)。這一極具擴(kuò)展性的框架在未來可以通過使用承載能力更強(qiáng)的工業(yè)機(jī)械臂或帶有力傳感的龍門吊系統(tǒng),將 RTR 的成功經(jīng)驗(yàn)推廣到全尺寸人形機(jī)器人,乃至其他各類復(fù)雜機(jī)器人系統(tǒng)的真實(shí)世界強(qiáng)化學(xué)習(xí)任務(wù)中。

作者介紹

本文的共同第一作者為清華大學(xué)交叉信息研究院許華哲組博士生胡開哲,與斯坦福大學(xué) C. Karen Liu 和 Shuran Song 組博士生史浩辰。文章在胡開哲于斯坦福大學(xué)訪問期間完成。共同通訊作者為斯坦福大學(xué)計(jì)算機(jī)系教授 C. Karen Liu,與斯坦福大學(xué)電子工程系助理教授 Shuran Song。RTR 已被 CoRL 2025 會(huì)議接收,項(xiàng)目代碼已全部開放,更多信息可以參考項(xiàng)目網(wǎng)站:robot-trains-robot.github.io,

參考文獻(xiàn):

[1] He, Tairan, et al. "Asap: Aligning simulation and real-world physics for learning agile humanoid whole-body skills." arXiv preprint arXiv:2502.01143 (2025).

[2] Kumar, Ashish, et al. "Rma: Rapid motor adaptation for legged robots." arXiv preprint arXiv:2107.04034 (2021).

[3] Kumar, Ashish, et al. "Adapting rapid motor adaptation for bipedal robots." 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022.

[4] Shi, Haochen, et al. "Toddlerbot: Open-source ml-compatible humanoid platform for loco-manipulation." arXiv preprint arXiv:2502.00893 (2025).

[5] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
iPhone 17 Pro Max突然提前上架,全系價(jià)格曝光!

iPhone 17 Pro Max突然提前上架,全系價(jià)格曝光!

科技堡壘
2025-08-29 12:21:17
全家開撕!貝克漢姆小兒子發(fā)布尖銳言論,三兒子已互相取消關(guān)注

全家開撕!貝克漢姆小兒子發(fā)布尖銳言論,三兒子已互相取消關(guān)注

揚(yáng)天下聲
2025-07-31 11:46:44
阿里深夜狂飆近12%,中概股、黃金拉升,美股科技股集體下挫

阿里深夜狂飆近12%,中概股、黃金拉升,美股科技股集體下挫

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-08-29 23:09:24
住建部一錘定音:老房樓齡滿25年,都要按新規(guī)處理,業(yè)主要發(fā)財(cái)了

住建部一錘定音:老房樓齡滿25年,都要按新規(guī)處理,業(yè)主要發(fā)財(cái)了

巢客HOME
2025-08-28 12:00:03
堅(jiān)決捍衛(wèi)國家主權(quán)安全!中國人民解放軍南部戰(zhàn)區(qū)位黃巖島領(lǐng)海領(lǐng)空及周邊區(qū)域組織戰(zhàn)備警巡

堅(jiān)決捍衛(wèi)國家主權(quán)安全!中國人民解放軍南部戰(zhàn)區(qū)位黃巖島領(lǐng)海領(lǐng)空及周邊區(qū)域組織戰(zhàn)備警巡

每日經(jīng)濟(jì)新聞
2025-08-29 17:02:33
國家終于不再原諒?fù)鯘鳎?7枚金牌不是萬能,狂妄自大只會(huì)被拋棄

國家終于不再原諒?fù)鯘鳎?7枚金牌不是萬能,狂妄自大只會(huì)被拋棄

凡知
2025-07-29 02:12:19
萊切0-2AC米蘭,賽后評(píng)分:不是莫德里奇第一,AC米蘭11號(hào)第一

萊切0-2AC米蘭,賽后評(píng)分:不是莫德里奇第一,AC米蘭11號(hào)第一

側(cè)身凌空斬
2025-08-30 04:46:05
??歐聯(lián)聯(lián)賽階段對(duì)陣:羅馬碰里爾 維拉戰(zhàn)薩爾茨堡 森林遇波爾圖

??歐聯(lián)聯(lián)賽階段對(duì)陣:羅馬碰里爾 維拉戰(zhàn)薩爾茨堡 森林遇波爾圖

直播吧
2025-08-29 19:55:51
重要賽事分析!賽事預(yù)告8月30日上午10:00!CCTV5、CCTV5+節(jié)目表

重要賽事分析!賽事預(yù)告8月30日上午10:00!CCTV5、CCTV5+節(jié)目表

皮皮觀天下
2025-08-30 05:18:21
覺醒!波神12中8轟26+7:大力掛框引歡呼 老鷹換他到期合同不虧

覺醒!波神12中8轟26+7:大力掛框引歡呼 老鷹換他到期合同不虧

顏小白的籃球夢(mèng)
2025-08-30 06:46:53
太尷尬!班主任通知10名學(xué)生家長去打掃衛(wèi)生,只到了3名引發(fā)抱怨

太尷尬!班主任通知10名學(xué)生家長去打掃衛(wèi)生,只到了3名引發(fā)抱怨

火山詩話
2025-08-29 14:03:04
金某完了,別說娶小三,牢底都要坐穿!網(wǎng)傳白麗穎跑去天津打胎

金某完了,別說娶小三,牢底都要坐穿!網(wǎng)傳白麗穎跑去天津打胎

公子麥少
2025-08-27 16:05:06
國臺(tái)辦重磅表態(tài),這些人可以出席九三閱兵,賴清德滿盤皆輸

國臺(tái)辦重磅表態(tài),這些人可以出席九三閱兵,賴清德滿盤皆輸

博覽歷史
2025-08-29 05:40:03
俄女子被困7400米高峰與友人最后微笑照片曝光,隨后她被“遺棄”等死,友人也遇難

俄女子被困7400米高峰與友人最后微笑照片曝光,隨后她被“遺棄”等死,友人也遇難

王二哥老搞笑
2025-08-29 11:03:06
在波蘭生活九個(gè)月,揭開當(dāng)?shù)厝松瞵F(xiàn)狀,說些可能刺耳的實(shí)話!

在波蘭生活九個(gè)月,揭開當(dāng)?shù)厝松瞵F(xiàn)狀,說些可能刺耳的實(shí)話!

天下霸奇
2025-08-22 11:39:49
白天陪玩晚上陪睡?明碼標(biāo)價(jià)8000一次!高端伴游淪為色情交易溫床

白天陪玩晚上陪睡?明碼標(biāo)價(jià)8000一次!高端伴游淪為色情交易溫床

阿纂看事
2025-08-29 15:46:57
2909億身價(jià)有何用?97歲的李嘉誠無力回天,兩個(gè)60歲兒子已成心病

2909億身價(jià)有何用?97歲的李嘉誠無力回天,兩個(gè)60歲兒子已成心病

歸史
2025-08-27 14:29:47
太熱了!浙江老板一天猛賣300多噸!凌晨4點(diǎn)都停不下來:需求量爆了

太熱了!浙江老板一天猛賣300多噸!凌晨4點(diǎn)都停不下來:需求量爆了

19樓
2025-08-29 08:18:03
“第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

“第二代賭王”周焯華,被判18年罰款248億,睡過的女星有多少?

芳芳?xì)v史燴
2025-08-26 16:43:53
外國記者:我要告訴全世界 中國人多么勇敢

外國記者:我要告訴全世界 中國人多么勇敢

看看新聞Knews
2025-08-28 19:48:22
2025-08-30 06:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142428關(guān)注度
往期回顧 全部

科技要聞

比亞迪中報(bào)營收首超特斯拉

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應(yīng)"是否譴責(zé)俄"

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應(yīng)"是否譴責(zé)俄"

體育要聞

從新疆飛行2小時(shí),就能看皇馬踢歐冠?!

娛樂要聞

韓磊報(bào)警工作室嚴(yán)正聲明 妻子也回應(yīng)了

財(cái)經(jīng)要聞

A股本輪行情,"創(chuàng)新牛"還是"資金牛"?

汽車要聞

售11.99萬元起 大眾全新凌渡L正式上市

態(tài)度原創(chuàng)

健康
房產(chǎn)
藝術(shù)
數(shù)碼
手機(jī)

精神科專家解答學(xué)習(xí)困難七大問題

房產(chǎn)要聞

三亞、陵水?dāng)鄼n發(fā)力,海南新房均價(jià)飆到1.8w+!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

三星Galaxy Book 5正式發(fā)布 搭載AI功能主打輕薄設(shè)計(jì)

手機(jī)要聞

一加 15 工程機(jī)現(xiàn)身 Geekbench,搭載高通驍龍 8 Elite Gen 5

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美黑人巨大| 东北老骚熟性高潮| 波多野结衣36分钟无码| 国产乱码日韩亚洲精品成人| 少妇大战二十8厘米黑人| 欧美日韩在线一区二区三区| 综合久久久久久| 亚洲αv久久久噜噜噜噜噜 | 伊人激情综合| 噜噜吧噜吧噜吧噜噜网A| 亚洲老熟女性亚洲| 成人欧美一区二区三区黑人麻豆| av一本久道久久波多野结衣| 99久久精品熟女高潮喷水免费| 亚洲h在线播放在线观看h| 国产精品亚洲а∨天堂网不卡| 极品少妇无码AV在线| 亚洲 欧美 激情 另类 校园| 国产成人AV区一区二区三| 99久久精品国产一区二区| 我被黑人强奸| 国产精品一级久久久| 九月婷婷色五月综合| 人摸人人人澡人人超碰97| 乱伦熟女一区二区| 天啦噜国产精品亚洲精品| av鲁丝一区鲁丝二区鲁丝三区 | 亚洲乱人伦中文字幕无码| 亚洲AV优女天堂波多野结衣| 欧美精致人妻视频| 少妇人妻老师好紧| 男人女人午夜视频免费| 少妇24PAV| 农村妇女野战BWWBWW| 精品无码人妻一区二区一三区性色| 国产乱子伦精品视频| 欧美黑人牲交videossexeso| 九九亚洲无码高清免费| 亚洲国产果果在线播放在线| 国产成人亚洲精品狼色在线| 国语精品一区二区三区|