人形機(jī)器人的運(yùn)動(dòng)控制,正成為強(qiáng)化學(xué)習(xí)(RL)算法應(yīng)用的下一個(gè)熱點(diǎn)研究領(lǐng)域。當(dāng)前,主流方案大多遵循 “仿真到現(xiàn)實(shí)”(Sim-to-Real)的范式。研究者們通過域隨機(jī)化(Domain Randomization)技術(shù),在成千上萬個(gè)具有不同物理參數(shù)的仿真環(huán)境中訓(xùn)練通用控制模型,期望它能憑借強(qiáng)大的泛化能力,直接適應(yīng)動(dòng)力學(xué)特性未知的真實(shí)世界。盡管這類 “零樣本遷移”(Zero-Shot Transfer)方案在多種運(yùn)動(dòng)任務(wù)上取得了卓越表現(xiàn),但其本質(zhì)目標(biāo)是訓(xùn)練一種在任何環(huán)境下都 “能用” 的保守策略。這種策略犧牲了機(jī)器人在特定真實(shí)環(huán)境中的性能上限,因?yàn)閷?duì)于最終落地而言,真實(shí)世界的表現(xiàn)才是唯一重要的標(biāo)準(zhǔn)。
為了突破這一瓶頸,近期一些工作開始探索在仿真預(yù)訓(xùn)練后,利用少量真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。例如,來自英偉達(dá)和 CMU 等機(jī)構(gòu)的研究者提出的ASAP[1],通過訓(xùn)練一個(gè)殘差網(wǎng)絡(luò)來快速補(bǔ)償仿真與現(xiàn)實(shí)的動(dòng)態(tài)差異;而學(xué)界經(jīng)典的RMA(Rapid Motor Adaptation) 算法 [2] 也被應(yīng)用于雙足機(jī)器人,通過一個(gè)適配模塊從歷史動(dòng)作中推斷環(huán)境動(dòng)力學(xué)信息 [3]。然而,這些工作大多仍著眼于對(duì)動(dòng)態(tài)偏差進(jìn)行一次性補(bǔ)償,交互范式也更偏向于離線學(xué)習(xí),并未在真實(shí)環(huán)境中對(duì)模型本身進(jìn)行持續(xù)的在線調(diào)整。由于人形機(jī)器人本身極不穩(wěn)定,任何微小的失誤都可能導(dǎo)致昂貴的硬件損壞,因此在真實(shí)環(huán)境中直接進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,長期以來被視為一個(gè)難以逾越的障礙。
從人類父母教授嬰兒學(xué)步的過程中汲取靈感,我們創(chuàng)造性地提出,使用一個(gè) “教師” 機(jī)械臂在現(xiàn)實(shí)世界中 “手把手” 地指導(dǎo) “學(xué)生” 人形機(jī)器人進(jìn)行在線強(qiáng)化學(xué)習(xí)。
在這一過程中,教師機(jī)械臂扮演了多重關(guān)鍵角色:它既是保護(hù)安全的 “吊索”,防止學(xué)生摔倒 ;也是自動(dòng)重置的 “幫手”,可以在失敗后迅速扶起學(xué)生繼續(xù)訓(xùn)練;它還是敏銳的 “信號(hào)源”,通過力傳感器收集寶貴的訓(xùn)練數(shù)據(jù),為學(xué)生提供在真實(shí)環(huán)境中不易獲得的獎(jiǎng)勵(lì)信號(hào);更是智慧的 “教練”,通過設(shè)置課程學(xué)習(xí)(Curriculum Learning)進(jìn)度和施加對(duì)抗性擾動(dòng),在訓(xùn)練初期幫助學(xué)生快速適應(yīng)環(huán)境,再循序漸進(jìn)地提升訓(xùn)練難度,增強(qiáng)學(xué)生的學(xué)習(xí)效率和策略的魯棒性。
我們將這一創(chuàng)新的軟硬件協(xié)同系統(tǒng)命名為 RTR (Robot-Trains-Robot),凸顯了由機(jī)器人教師提供主動(dòng)物理輔助,對(duì)于實(shí)現(xiàn)人形機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)有重要意義。同時(shí),為解決真實(shí)世界數(shù)據(jù)采集成本高昂的難題,團(tuán)隊(duì)還提出了一種新穎的強(qiáng)化學(xué)習(xí)算法,通過僅優(yōu)化一個(gè)與環(huán)境動(dòng)力學(xué)相關(guān)的低維隱變量來快速調(diào)整機(jī)器人的行為,極大地提升了樣本效率。這一算法上的貢獻(xiàn)進(jìn)一步解放了真機(jī)強(qiáng)化學(xué)習(xí)的潛力,在評(píng)測中顯著超越了 RMA 等傳統(tǒng)的在線系統(tǒng)識(shí)別基準(zhǔn)。
論文標(biāo)題:Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids
論文地址:https://arxiv.org/abs/2508.12252
方法
具體來說,RTR 系統(tǒng)由硬件和算法兩部分構(gòu)成:
硬件設(shè)置:教師與學(xué)生的協(xié)同生態(tài)系統(tǒng)
RTR 的硬件系統(tǒng)由 “教師” 和 “學(xué)生” 兩組機(jī)器人組成。
教師系統(tǒng):核心是一臺(tái)帶有力 - 矩(Force / Torque)傳感器的 UR5 六軸機(jī)械臂。四根彈性纜繩將機(jī)械臂的末端與人形機(jī)器人的肩部相連,這種柔性連接可以平滑地傳遞輔助力,避免剛性連接帶來的沖擊。在行走任務(wù)中,一臺(tái)可編程的跑步機(jī)作為輔助,確保學(xué)生始終在教師的臂展范圍內(nèi)。一臺(tái)迷你 PC 作為教師系統(tǒng)的 “大腦”,統(tǒng)一處理力反饋信號(hào)并控制機(jī)械臂與跑步機(jī)的行為。
學(xué)生系統(tǒng):學(xué)生基于開源的 ToddlerBot 人形機(jī)器人 [4],它擁有 30 個(gè)自由度,體型緊湊且硬件堅(jiān)固,適合長時(shí)間的連續(xù)訓(xùn)練。開源的機(jī)器人設(shè)計(jì)使得根據(jù)需要對(duì)其進(jìn)行修改更加便捷,一臺(tái)獨(dú)立的工作站則負(fù)責(zé)運(yùn)行強(qiáng)化學(xué)習(xí)算法,并在學(xué)生手機(jī)數(shù)據(jù)的同時(shí)持續(xù)將最新的策略模型發(fā)送給學(xué)生執(zhí)行。
算法設(shè)計(jì):三階段式高效 Sim-to-Real 微調(diào)
為了最大化數(shù)據(jù)效率,RTR 提出 Sim-to-Real 過程分為三個(gè)階段:
1. 仿真訓(xùn)練具有環(huán)境適應(yīng)性的策略。在大量域隨機(jī)化的仿真環(huán)境中,訓(xùn)練一個(gè)接受編碼了環(huán)境物理參數(shù)(如摩擦力、阻尼等)的隱變量 z 作為輸入的控制策略。該隱變量通過 FiLM (Feature-wise Linear Modulation) [5] 層融入策略網(wǎng)絡(luò),使得機(jī)器人的策略能夠根據(jù)不同的動(dòng)力學(xué)環(huán)境進(jìn)行自適應(yīng)調(diào)整。
實(shí)驗(yàn)驗(yàn)證
我們通過行走和 “蕩秋千” 兩個(gè)任務(wù),全面驗(yàn)證了 RTR 系統(tǒng)的有效性。
仿真到現(xiàn)實(shí)微調(diào)的行走任務(wù)中,我們是讓機(jī)器人在跑步機(jī)上精準(zhǔn)地追蹤目標(biāo)速度。消融實(shí)驗(yàn)證明了 RTR 系統(tǒng)設(shè)計(jì)的優(yōu)越性:
教師的輔助效果:與固定的吊架相比,能夠主動(dòng)順應(yīng)機(jī)器人運(yùn)動(dòng)的 “柔性” 機(jī)械臂(XY Compliant)顯著提升了學(xué)習(xí)效果。同時(shí),從高額輔助逐漸過渡到零輔助的 “課程學(xué)習(xí)” 策略(Z Schedule),優(yōu)于全程高輔助或全程低輔助的固定策略。
微調(diào)算法的數(shù)據(jù)效率:RTR 提出的 “微調(diào)隱變量” 方法,在數(shù)據(jù)效率和最終性能上均優(yōu)于微調(diào)整個(gè)策略網(wǎng)絡(luò)或微調(diào)殘差網(wǎng)絡(luò)的基線方法。僅需 20 分鐘的真實(shí)世界訓(xùn)練,RTR 就能將在仿真中預(yù)訓(xùn)練的行走策略速度提升一倍。
我們還進(jìn)一步設(shè)計(jì)了對(duì)比實(shí)驗(yàn),驗(yàn)證了使用 FiLM 層向策略網(wǎng)絡(luò)添加關(guān)于環(huán)境動(dòng)態(tài)的隱變量條件輸入,其效果優(yōu)于直接將環(huán)境動(dòng)態(tài)變量拼接到策略網(wǎng)絡(luò)的觀測中?;?RTR 提出方法的真機(jī)微調(diào)效果,也要強(qiáng)于 RMA 為代表的在線參數(shù)識(shí)別基線。
除了 Sim-to-Real 任務(wù),我們還設(shè)計(jì)了純真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)的 “蕩秋千” 實(shí)驗(yàn),以展示 RTR 系統(tǒng)在直接強(qiáng)化學(xué)習(xí)任務(wù)中的潛力。在這個(gè)任務(wù)中,人形機(jī)器人需要學(xué)會(huì)協(xié)調(diào)雙腿,像孩子一樣蕩起秋千,以最大化擺動(dòng)幅度。教師機(jī)械臂通過實(shí)時(shí)力反饋感知學(xué)生的擺動(dòng)相位,在適當(dāng)時(shí)機(jī)給予 “推動(dòng)”(幫助)或 “阻尼”(擾動(dòng))。實(shí)驗(yàn)結(jié)果表明,有教師主動(dòng)參與的 “幫助” 和 “擾動(dòng)” 課程學(xué)習(xí),其效率高于教師僅作為固定吊架的方案,同時(shí)教師感知到的力信息,始終作為重要的獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)生訓(xùn)練。整個(gè)學(xué)習(xí)過程從零開始,在 20 分鐘內(nèi)就學(xué)會(huì)了幅度明顯的周期性擺蕩動(dòng)作。
總結(jié)與展望
RTR 框架的提出,不僅為解決當(dāng)前人形機(jī)器人真機(jī)部署與訓(xùn)練的瓶頸提供了切實(shí)可行的方案,更重要的是,它引入了主動(dòng)力輔助這一全新的范式來幫助機(jī)器人在真實(shí)世界學(xué)習(xí)。這一極具擴(kuò)展性的框架在未來可以通過使用承載能力更強(qiáng)的工業(yè)機(jī)械臂或帶有力傳感的龍門吊系統(tǒng),將 RTR 的成功經(jīng)驗(yàn)推廣到全尺寸人形機(jī)器人,乃至其他各類復(fù)雜機(jī)器人系統(tǒng)的真實(shí)世界強(qiáng)化學(xué)習(xí)任務(wù)中。
作者介紹
本文的共同第一作者為清華大學(xué)交叉信息研究院許華哲組博士生胡開哲,與斯坦福大學(xué) C. Karen Liu 和 Shuran Song 組博士生史浩辰。文章在胡開哲于斯坦福大學(xué)訪問期間完成。共同通訊作者為斯坦福大學(xué)計(jì)算機(jī)系教授 C. Karen Liu,與斯坦福大學(xué)電子工程系助理教授 Shuran Song。RTR 已被 CoRL 2025 會(huì)議接收,項(xiàng)目代碼已全部開放,更多信息可以參考項(xiàng)目網(wǎng)站:robot-trains-robot.github.io,
參考文獻(xiàn):
[1] He, Tairan, et al. "Asap: Aligning simulation and real-world physics for learning agile humanoid whole-body skills." arXiv preprint arXiv:2502.01143 (2025).
[2] Kumar, Ashish, et al. "Rma: Rapid motor adaptation for legged robots." arXiv preprint arXiv:2107.04034 (2021).
[3] Kumar, Ashish, et al. "Adapting rapid motor adaptation for bipedal robots." 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022.
[4] Shi, Haochen, et al. "Toddlerbot: Open-source ml-compatible humanoid platform for loco-manipulation." arXiv preprint arXiv:2502.00893 (2025).
[5] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.