PNP具身解讀——RSS2025論文加州伯克利RLDG: 通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)機(jī)器人通才策略提煉。
在過(guò)去十年中,機(jī)器人學(xué)習(xí)(Robot Learning)經(jīng)歷了從單任務(wù)強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)到跨任務(wù)模仿學(xué)習(xí)(Imitation Learning, IL),再到通用策略模型(Generalist Policy Models)演進(jìn)。研究者們逐漸意識(shí)到:如果每一個(gè)機(jī)器人都需要從零開(kāi)始訓(xùn)練,或者只能執(zhí)行少量特定任務(wù),那么通用人工智能(AGI)與具身智能(Embodied AI)的前景將受到嚴(yán)重限制。
RLDG電子產(chǎn)品接頭插裝實(shí)驗(yàn)
近年來(lái),出現(xiàn)了一系列嘗試構(gòu)建通用機(jī)器人策略(Generalist Policy)的研究。例如:
RT-1 / RT-2(Google DeepMind 與 Everyday Robots 提出),通過(guò)大規(guī)模視頻+語(yǔ)言標(biāo)注數(shù)據(jù),訓(xùn)練大模型來(lái)控制真實(shí)機(jī)械臂;
LBM (Large Behavior Model)(Toyota Research Institute提出),通過(guò)統(tǒng)一的tokenization方式,把不同任務(wù)抽象成序列建模問(wèn)題;
Diffusion Policy,將高維動(dòng)作空間建模為分布生成問(wèn)題,實(shí)現(xiàn)靈巧操作;
Multi-Task RL 系列研究,通過(guò)參數(shù)共享和多任務(wù)獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)跨環(huán)境泛化。
然而,這些方法普遍存在幾個(gè)問(wèn)題:
數(shù)據(jù)依賴性過(guò)強(qiáng):大多數(shù)方法依賴于數(shù)百萬(wàn)真實(shí)操作數(shù)據(jù)或仿真數(shù)據(jù),收集成本極高。
泛化性不足:即使是大模型策略,遷移到新任務(wù)、新機(jī)器人平臺(tái)時(shí),仍需額外適配與訓(xùn)練。
優(yōu)化效率低:純模仿學(xué)習(xí)(Behavior Cloning, BC)在面對(duì)噪聲數(shù)據(jù)時(shí)容易過(guò)擬合,而單純強(qiáng)化學(xué)習(xí)在稀疏獎(jiǎng)勵(lì)下效率極差。
缺乏統(tǒng)一蒸餾框架:如何把分散的多任務(wù)經(jīng)驗(yàn)整合到一個(gè)穩(wěn)定的“通用策略模型”中,一直缺乏系統(tǒng)性解法。
為了解決上述問(wèn)題,論文提出了 RLDG(Robotic Generalist Policy Distillation via Reinforcement Learning)。
該方法的核心思想是:
通過(guò)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的蒸餾機(jī)制(RL-driven Distillation),將不同任務(wù)和教師模型的知識(shí)統(tǒng)一到單一通用策略中;
結(jié)合模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),提升泛化性和學(xué)習(xí)效率;
在多機(jī)器人平臺(tái)與多任務(wù)場(chǎng)景下,實(shí)現(xiàn)跨域遷移與性能提升。
可以說(shuō),RLDG 是繼 RT 系列、LBM 之后,又一類探索“通用機(jī)器人大模型”的代表性方法。
RLDG 是一個(gè)將專家級(jí)強(qiáng)化學(xué)習(xí)策略提煉為通用機(jī)器人策略的框架。通過(guò)這種方式訓(xùn)練的通用機(jī)器人策略相比于使用人類演示的傳統(tǒng)微調(diào)方法,表現(xiàn)出更高的性能,并且比提煉出的強(qiáng)化學(xué)習(xí)策略具有更強(qiáng)的泛化能力。
RLDG 的方法論核心在于:使用強(qiáng)化學(xué)習(xí)作為優(yōu)化驅(qū)動(dòng)力,將多個(gè)教師策略的行為知識(shí)蒸餾到一個(gè)學(xué)生通用策略模型中。
其設(shè)計(jì)目標(biāo)包括:
通用性(Generality):學(xué)生模型必須能夠在多種任務(wù)、多個(gè)機(jī)器人平臺(tái)上保持穩(wěn)定性能;
高效性(Efficiency):避免單純依賴昂貴的模仿數(shù)據(jù),而是通過(guò) RL 優(yōu)化不斷提升策略;
穩(wěn)定性(Stability):在蒸餾過(guò)程中,避免教師模型之間的沖突,保證學(xué)生模型不會(huì)陷入災(zāi)難性遺忘。
RLDG 整體框架可以分為三個(gè)部分:
教師策略集合(Teacher Policies):這些教師模型可能來(lái)自單任務(wù)強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、專家示范數(shù)據(jù)等。
學(xué)生通用策略(Student Generalist Policy):一個(gè)統(tǒng)一的大模型策略,接收來(lái)自多個(gè)任務(wù)的狀態(tài)輸入,輸出對(duì)應(yīng)動(dòng)作。
蒸餾優(yōu)化機(jī)制(RL-driven Distillation):通過(guò)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)與蒸餾損失函數(shù)的結(jié)合,使學(xué)生模型學(xué)習(xí)教師知識(shí),同時(shí)具備自我探索能力。
論文定義了一個(gè)組合損失函數(shù):
L(πs)=α?Ldistill(πs,πt)+β?LRL(πs)L(\pi_s) = \alpha \cdot L_{distill}(\pi_s, \pi_t) + \beta \cdot L_{RL}(\pi_s)L(πs
)=α?Ldistill
(πs
,πt
)+β?LRL
(πs
)
其中:
πs\pi_sπs
表示學(xué)生策略;
πt\pi_tπt
表示教師策略集合;
LdistillL_{distill}Ldistill
表示蒸餾損失(模仿教師);
LRLL_{RL}LRL
表示強(qiáng)化學(xué)習(xí)損失(通過(guò)獎(jiǎng)勵(lì)優(yōu)化);
α,β\alpha, \betaα,β 控制二者權(quán)重。
這種設(shè)計(jì)保證了:
學(xué)生模型不會(huì)偏離教師的先驗(yàn)知識(shí);
同時(shí)通過(guò) RL 改善教師策略未覆蓋的區(qū)域。
與傳統(tǒng) BC-only 方法不同,RLDG 引入 RL 優(yōu)化:
當(dāng)學(xué)生模型模仿教師后,若在某些任務(wù)中表現(xiàn)仍不佳,RL 會(huì)通過(guò)獎(jiǎng)勵(lì)反饋推動(dòng)進(jìn)一步優(yōu)化;
RL 優(yōu)化采用 Actor-Critic 結(jié)構(gòu),并結(jié)合 Proximal Policy Optimization (PPO) 提升穩(wěn)定性。
輸入:環(huán)境狀態(tài)(機(jī)器人關(guān)節(jié)位置、速度、力覺(jué)信息)、視覺(jué)信息(相機(jī)RGB/Depth)、任務(wù)指令(自然語(yǔ)言/任務(wù)ID)。
輸出:低維控制命令(關(guān)節(jié)角速度/力矩)或高維動(dòng)作分布(token化表示)。
學(xué)生策略采用了 多模態(tài) Transformer 架構(gòu):
視覺(jué)編碼器(Vision Encoder):提取圖像特征;
狀態(tài)編碼器(State Encoder):處理低維機(jī)器人狀態(tài);
任務(wù)嵌入模塊:把任務(wù)指令轉(zhuǎn)換成上下文向量;
融合模塊:通過(guò)多頭注意力機(jī)制融合不同模態(tài);
動(dòng)作解碼器:輸出具體動(dòng)作分布。
教師模型可能來(lái)自不同領(lǐng)域(如抓取、堆疊、開(kāi)門(mén)等)。在蒸餾時(shí):
學(xué)生策略需要匹配教師的行為分布(通過(guò) KL 散度約束);
若不同教師策略沖突,學(xué)生會(huì)依賴 RL 獎(jiǎng)勵(lì)信號(hào)進(jìn)行加權(quán)選擇。
這一機(jī)制避免了災(zāi)難性遺忘問(wèn)題,同時(shí)保持多任務(wù)性能。
論文在以下平臺(tái)進(jìn)行實(shí)驗(yàn):
仿真環(huán)境:MuJoCo、Isaac Gym,用于大規(guī)模數(shù)據(jù)采集;
真實(shí)機(jī)器人:Franka機(jī)器人等機(jī)械臂;
任務(wù)類型:抓?。≒ick)、放置(Place)、堆疊(Stack)、門(mén)把操作(Door Opening)、工具使用(Tool Use)。
測(cè)試場(chǎng)景(FRANKA機(jī)器人)
RLDG 與以下方法進(jìn)行了對(duì)比:
BC(Behavior Cloning):?jiǎn)渭兡7聦W(xué)習(xí);
Multi-task RL:?jiǎn)我?RL 訓(xùn)練的多任務(wù)模型;
Mixture of Experts (MoE):教師策略組合,但未蒸餾為單一模型;
RT-1 / RT-2:代表性的大模型機(jī)器人策略。
不同模型成功率對(duì)比
實(shí)驗(yàn)結(jié)果表明:
在 跨任務(wù)泛化性 上,RLDG 優(yōu)于 BC 與 Multi-task RL;
在 樣本效率 上,RLDG 需要的示范數(shù)據(jù)量比 RT 系列少 40% 以上;
在 真實(shí)機(jī)器人遷移 上,RLDG 能夠從仿真平滑遷移到現(xiàn)實(shí),成功率提升約 20%。
不同場(chǎng)景周期對(duì)比
與現(xiàn)有方法相比,RLDG 的優(yōu)勢(shì)主要體現(xiàn)在:
蒸餾與RL結(jié)合:兼具教師知識(shí)與自我探索能力;
多任務(wù)一致性:避免了 MoE 中任務(wù)割裂的問(wèn)題;
跨平臺(tái)能力:在不同機(jī)器人平臺(tái)保持性能;
更少依賴大規(guī)模人類標(biāo)注:與 RT-1/RT-2 相比,數(shù)據(jù)效率更高。
RLDG 的提出具有以下價(jià)值:
推動(dòng)通用機(jī)器人學(xué)習(xí):邁向一個(gè)能執(zhí)行“任何任務(wù)”的通用機(jī)器人;
提升現(xiàn)實(shí)可行性:減少對(duì)昂貴數(shù)據(jù)的依賴,降低部署成本;
支持多模態(tài)輸入:未來(lái)可結(jié)合語(yǔ)言、視頻,實(shí)現(xiàn)自然指令控制;
對(duì)具身智能發(fā)展:RLDG 是 AGI 與 Embodied AI 的橋梁,幫助機(jī)器人“學(xué)會(huì)學(xué)習(xí)”。
局限性與未來(lái)展望
盡管 RLDG 展現(xiàn)了強(qiáng)大潛力,但仍存在以下不足:
教師策略質(zhì)量依賴:若教師模型本身表現(xiàn)有限,蒸餾效果受限;
RL 訓(xùn)練仍昂貴:在高維動(dòng)作空間中,RL 收斂依舊需要大量計(jì)算;
多任務(wù)沖突問(wèn)題:當(dāng)任務(wù)差異極大時(shí),蒸餾可能產(chǎn)生性能折中;
缺乏大規(guī)模真實(shí)驗(yàn)證:目前實(shí)驗(yàn)更多集中于實(shí)驗(yàn)室環(huán)境,現(xiàn)實(shí)應(yīng)用仍需擴(kuò)展。
未來(lái)方向:
結(jié)合大語(yǔ)言模型(LLM),實(shí)現(xiàn)更自然的人機(jī)交互;
結(jié)合生成模型(Diffusion Policy, World Models),提升動(dòng)作生成的多樣性;
探索終身學(xué)習(xí)機(jī)制,讓通用策略持續(xù)學(xué)習(xí)新任務(wù)而不遺忘;
擴(kuò)展到多機(jī)器人協(xié)作,實(shí)現(xiàn)群體智能。
從更宏觀的角度來(lái)看,RLDG 的意義在于它代表了一種范式轉(zhuǎn)變:
傳統(tǒng)機(jī)器人學(xué)習(xí) → 單任務(wù)優(yōu)化;
LBM / RT 系列 → 大模型 + 模仿數(shù)據(jù);
RLDG → 蒸餾 + RL 的結(jié)合,形成一個(gè)“會(huì)模仿、會(huì)探索、會(huì)泛化”的機(jī)器人通用策略。
它可能成為未來(lái)通用機(jī)器人訓(xùn)練流水線中的關(guān)鍵模塊:
先通過(guò)專家或大模型教師提供初始能力;
再通過(guò) RL 蒸餾優(yōu)化,實(shí)現(xiàn)通用策略;
最終形成可以跨機(jī)器人平臺(tái)、跨任務(wù)應(yīng)用的智能體。
這種思路與人類學(xué)習(xí)方式非常相似:先模仿,再探索,最后融會(huì)貫通。
RLDG核心貢獻(xiàn)在于提出了一種 基于強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的策略蒸餾方法,能夠?qū)⒍嘟處煵呗越y(tǒng)一為單一通用學(xué)生模型,并在多任務(wù)、多平臺(tái)機(jī)器人場(chǎng)景中表現(xiàn)出強(qiáng)大的泛化能力和效率優(yōu)勢(shì)。
PNP機(jī)器人提供基于強(qiáng)化學(xué)習(xí)的學(xué)習(xí)平臺(tái)參考:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.