網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福大學(xué)提出RTR框架，讓機(jī)械臂助力人形機(jī)器人真機(jī)訓(xùn)練

2025-08-27 15:10:30　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

人形機(jī)器人的運(yùn)動(dòng)控制，正成為強(qiáng)化學(xué)習(xí)（RL）算法應(yīng)用的下一個(gè)熱點(diǎn)研究領(lǐng)域。當(dāng)前，主流方案大多遵循 “仿真到現(xiàn)實(shí)”（Sim-to-Real）的范式。研究者們通過域隨機(jī)化（Domain Randomization）技術(shù)，在成千上萬個(gè)具有不同物理參數(shù)的仿真環(huán)境中訓(xùn)練通用控制模型，期望它能憑借強(qiáng)大的泛化能力，直接適應(yīng)動(dòng)力學(xué)特性未知的真實(shí)世界。盡管這類 “零樣本遷移”（Zero-Shot Transfer）方案在多種運(yùn)動(dòng)任務(wù)上取得了卓越表現(xiàn)，但其本質(zhì)目標(biāo)是訓(xùn)練一種在任何環(huán)境下都 “能用” 的保守策略。這種策略犧牲了機(jī)器人在特定真實(shí)環(huán)境中的性能上限，因?yàn)閷?duì)于最終落地而言，真實(shí)世界的表現(xiàn)才是唯一重要的標(biāo)準(zhǔn)。

為了突破這一瓶頸，近期一些工作開始探索在仿真預(yù)訓(xùn)練后，利用少量真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。例如，來自英偉達(dá)和 CMU 等機(jī)構(gòu)的研究者提出的ASAP[1]，通過訓(xùn)練一個(gè)殘差網(wǎng)絡(luò)來快速補(bǔ)償仿真與現(xiàn)實(shí)的動(dòng)態(tài)差異；而學(xué)界經(jīng)典的RMA(Rapid Motor Adaptation) 算法 [2] 也被應(yīng)用于雙足機(jī)器人，通過一個(gè)適配模塊從歷史動(dòng)作中推斷環(huán)境動(dòng)力學(xué)信息 [3]。然而，這些工作大多仍著眼于對(duì)動(dòng)態(tài)偏差進(jìn)行一次性補(bǔ)償，交互范式也更偏向于離線學(xué)習(xí)，并未在真實(shí)環(huán)境中對(duì)模型本身進(jìn)行持續(xù)的在線調(diào)整。由于人形機(jī)器人本身極不穩(wěn)定，任何微小的失誤都可能導(dǎo)致昂貴的硬件損壞，因此在真實(shí)環(huán)境中直接進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，長期以來被視為一個(gè)難以逾越的障礙。

從人類父母教授嬰兒學(xué)步的過程中汲取靈感，我們創(chuàng)造性地提出，使用一個(gè) “教師” 機(jī)械臂在現(xiàn)實(shí)世界中 “手把手” 地指導(dǎo) “學(xué)生” 人形機(jī)器人進(jìn)行在線強(qiáng)化學(xué)習(xí)。

在這一過程中，教師機(jī)械臂扮演了多重關(guān)鍵角色：它既是保護(hù)安全的 “吊索”，防止學(xué)生摔倒；也是自動(dòng)重置的 “幫手”，可以在失敗后迅速扶起學(xué)生繼續(xù)訓(xùn)練；它還是敏銳的 “信號(hào)源”，通過力傳感器收集寶貴的訓(xùn)練數(shù)據(jù)，為學(xué)生提供在真實(shí)環(huán)境中不易獲得的獎(jiǎng)勵(lì)信號(hào)；更是智慧的 “教練”，通過設(shè)置課程學(xué)習(xí)（Curriculum Learning）進(jìn)度和施加對(duì)抗性擾動(dòng)，在訓(xùn)練初期幫助學(xué)生快速適應(yīng)環(huán)境，再循序漸進(jìn)地提升訓(xùn)練難度，增強(qiáng)學(xué)生的學(xué)習(xí)效率和策略的魯棒性。

我們將這一創(chuàng)新的軟硬件協(xié)同系統(tǒng)命名為 RTR (Robot-Trains-Robot)，凸顯了由機(jī)器人教師提供主動(dòng)物理輔助，對(duì)于實(shí)現(xiàn)人形機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)有重要意義。同時(shí)，為解決真實(shí)世界數(shù)據(jù)采集成本高昂的難題，團(tuán)隊(duì)還提出了一種新穎的強(qiáng)化學(xué)習(xí)算法，通過僅優(yōu)化一個(gè)與環(huán)境動(dòng)力學(xué)相關(guān)的低維隱變量來快速調(diào)整機(jī)器人的行為，極大地提升了樣本效率。這一算法上的貢獻(xiàn)進(jìn)一步解放了真機(jī)強(qiáng)化學(xué)習(xí)的潛力，在評(píng)測中顯著超越了 RMA 等傳統(tǒng)的在線系統(tǒng)識(shí)別基準(zhǔn)。

論文標(biāo)題：Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids

論文地址：https://arxiv.org/abs/2508.12252

方法

具體來說，RTR 系統(tǒng)由硬件和算法兩部分構(gòu)成：

硬件設(shè)置：教師與學(xué)生的協(xié)同生態(tài)系統(tǒng)

RTR 的硬件系統(tǒng)由 “教師” 和 “學(xué)生” 兩組機(jī)器人組成。

教師系統(tǒng)：核心是一臺(tái)帶有力 - 矩（Force / Torque）傳感器的 UR5 六軸機(jī)械臂。四根彈性纜繩將機(jī)械臂的末端與人形機(jī)器人的肩部相連，這種柔性連接可以平滑地傳遞輔助力，避免剛性連接帶來的沖擊。在行走任務(wù)中，一臺(tái)可編程的跑步機(jī)作為輔助，確保學(xué)生始終在教師的臂展范圍內(nèi)。一臺(tái)迷你 PC 作為教師系統(tǒng)的 “大腦”，統(tǒng)一處理力反饋信號(hào)并控制機(jī)械臂與跑步機(jī)的行為。

學(xué)生系統(tǒng)：學(xué)生基于開源的 ToddlerBot 人形機(jī)器人 [4]，它擁有 30 個(gè)自由度，體型緊湊且硬件堅(jiān)固，適合長時(shí)間的連續(xù)訓(xùn)練。開源的機(jī)器人設(shè)計(jì)使得根據(jù)需要對(duì)其進(jìn)行修改更加便捷，一臺(tái)獨(dú)立的工作站則負(fù)責(zé)運(yùn)行強(qiáng)化學(xué)習(xí)算法，并在學(xué)生手機(jī)數(shù)據(jù)的同時(shí)持續(xù)將最新的策略模型發(fā)送給學(xué)生執(zhí)行。

算法設(shè)計(jì)：三階段式高效 Sim-to-Real 微調(diào)

為了最大化數(shù)據(jù)效率，RTR 提出 Sim-to-Real 過程分為三個(gè)階段：

1. 仿真訓(xùn)練具有環(huán)境適應(yīng)性的策略。在大量域隨機(jī)化的仿真環(huán)境中，訓(xùn)練一個(gè)接受編碼了環(huán)境物理參數(shù)（如摩擦力、阻尼等）的隱變量 z 作為輸入的控制策略。該隱變量通過 FiLM (Feature-wise Linear Modulation) [5] 層融入策略網(wǎng)絡(luò)，使得機(jī)器人的策略能夠根據(jù)不同的動(dòng)力學(xué)環(huán)境進(jìn)行自適應(yīng)調(diào)整。

實(shí)驗(yàn)驗(yàn)證

我們通過行走和 “蕩秋千” 兩個(gè)任務(wù)，全面驗(yàn)證了 RTR 系統(tǒng)的有效性。

仿真到現(xiàn)實(shí)微調(diào)的行走任務(wù)中，我們是讓機(jī)器人在跑步機(jī)上精準(zhǔn)地追蹤目標(biāo)速度。消融實(shí)驗(yàn)證明了 RTR 系統(tǒng)設(shè)計(jì)的優(yōu)越性：

教師的輔助效果：與固定的吊架相比，能夠主動(dòng)順應(yīng)機(jī)器人運(yùn)動(dòng)的 “柔性” 機(jī)械臂（XY Compliant）顯著提升了學(xué)習(xí)效果。同時(shí)，從高額輔助逐漸過渡到零輔助的 “課程學(xué)習(xí)” 策略（Z Schedule），優(yōu)于全程高輔助或全程低輔助的固定策略。

微調(diào)算法的數(shù)據(jù)效率：RTR 提出的 “微調(diào)隱變量” 方法，在數(shù)據(jù)效率和最終性能上均優(yōu)于微調(diào)整個(gè)策略網(wǎng)絡(luò)或微調(diào)殘差網(wǎng)絡(luò)的基線方法。僅需 20 分鐘的真實(shí)世界訓(xùn)練，RTR 就能將在仿真中預(yù)訓(xùn)練的行走策略速度提升一倍。

我們還進(jìn)一步設(shè)計(jì)了對(duì)比實(shí)驗(yàn)，驗(yàn)證了使用 FiLM 層向策略網(wǎng)絡(luò)添加關(guān)于環(huán)境動(dòng)態(tài)的隱變量條件輸入，其效果優(yōu)于直接將環(huán)境動(dòng)態(tài)變量拼接到策略網(wǎng)絡(luò)的觀測中?；?RTR 提出方法的真機(jī)微調(diào)效果，也要強(qiáng)于 RMA 為代表的在線參數(shù)識(shí)別基線。

除了 Sim-to-Real 任務(wù)，我們還設(shè)計(jì)了純真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)的 “蕩秋千” 實(shí)驗(yàn)，以展示 RTR 系統(tǒng)在直接強(qiáng)化學(xué)習(xí)任務(wù)中的潛力。在這個(gè)任務(wù)中，人形機(jī)器人需要學(xué)會(huì)協(xié)調(diào)雙腿，像孩子一樣蕩起秋千，以最大化擺動(dòng)幅度。教師機(jī)械臂通過實(shí)時(shí)力反饋感知學(xué)生的擺動(dòng)相位，在適當(dāng)時(shí)機(jī)給予 “推動(dòng)”（幫助）或 “阻尼”（擾動(dòng)）。實(shí)驗(yàn)結(jié)果表明，有教師主動(dòng)參與的 “幫助” 和 “擾動(dòng)” 課程學(xué)習(xí)，其效率高于教師僅作為固定吊架的方案，同時(shí)教師感知到的力信息，始終作為重要的獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)生訓(xùn)練。整個(gè)學(xué)習(xí)過程從零開始，在 20 分鐘內(nèi)就學(xué)會(huì)了幅度明顯的周期性擺蕩動(dòng)作。

總結(jié)與展望

RTR 框架的提出，不僅為解決當(dāng)前人形機(jī)器人真機(jī)部署與訓(xùn)練的瓶頸提供了切實(shí)可行的方案，更重要的是，它引入了主動(dòng)力輔助這一全新的范式來幫助機(jī)器人在真實(shí)世界學(xué)習(xí)。這一極具擴(kuò)展性的框架在未來可以通過使用承載能力更強(qiáng)的工業(yè)機(jī)械臂或帶有力傳感的龍門吊系統(tǒng)，將 RTR 的成功經(jīng)驗(yàn)推廣到全尺寸人形機(jī)器人，乃至其他各類復(fù)雜機(jī)器人系統(tǒng)的真實(shí)世界強(qiáng)化學(xué)習(xí)任務(wù)中。

作者介紹

本文的共同第一作者為清華大學(xué)交叉信息研究院許華哲組博士生胡開哲，與斯坦福大學(xué) C. Karen Liu 和 Shuran Song 組博士生史浩辰。文章在胡開哲于斯坦福大學(xué)訪問期間完成。共同通訊作者為斯坦福大學(xué)計(jì)算機(jī)系教授 C. Karen Liu，與斯坦福大學(xué)電子工程系助理教授 Shuran Song。RTR 已被 CoRL 2025 會(huì)議接收，項(xiàng)目代碼已全部開放，更多信息可以參考項(xiàng)目網(wǎng)站：robot-trains-robot.github.io，

參考文獻(xiàn)：

[1] He, Tairan, et al. "Asap: Aligning simulation and real-world physics for learning agile humanoid whole-body skills." arXiv preprint arXiv:2502.01143 (2025).

[2] Kumar, Ashish, et al. "Rma: Rapid motor adaptation for legged robots." arXiv preprint arXiv:2107.04034 (2021).

[3] Kumar, Ashish, et al. "Adapting rapid motor adaptation for bipedal robots." 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022.

[4] Shi, Haochen, et al. "Toddlerbot: Open-source ml-compatible humanoid platform for loco-manipulation." arXiv preprint arXiv:2502.00893 (2025).

[5] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.