夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

RSS2025加州伯克利RLDG: 通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)機(jī)器人通才策略提煉

0
分享至

PNP具身解讀——RSS2025論文加州伯克利RLDG: 通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)機(jī)器人通才策略提煉。

在過(guò)去十年中,機(jī)器人學(xué)習(xí)(Robot Learning)經(jīng)歷了從單任務(wù)強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)到跨任務(wù)模仿學(xué)習(xí)(Imitation Learning, IL),再到通用策略模型(Generalist Policy Models)演進(jìn)。研究者們逐漸意識(shí)到:如果每一個(gè)機(jī)器人都需要從零開(kāi)始訓(xùn)練,或者只能執(zhí)行少量特定任務(wù),那么通用人工智能(AGI)與具身智能(Embodied AI)的前景將受到嚴(yán)重限制。



RLDG電子產(chǎn)品接頭插裝實(shí)驗(yàn)

近年來(lái),出現(xiàn)了一系列嘗試構(gòu)建通用機(jī)器人策略(Generalist Policy)的研究。例如:

RT-1 / RT-2(Google DeepMind 與 Everyday Robots 提出),通過(guò)大規(guī)模視頻+語(yǔ)言標(biāo)注數(shù)據(jù),訓(xùn)練大模型來(lái)控制真實(shí)機(jī)械臂;

LBM (Large Behavior Model)(Toyota Research Institute提出),通過(guò)統(tǒng)一的tokenization方式,把不同任務(wù)抽象成序列建模問(wèn)題;

Diffusion Policy,將高維動(dòng)作空間建模為分布生成問(wèn)題,實(shí)現(xiàn)靈巧操作;

Multi-Task RL 系列研究,通過(guò)參數(shù)共享和多任務(wù)獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)跨環(huán)境泛化。

然而,這些方法普遍存在幾個(gè)問(wèn)題:

數(shù)據(jù)依賴性過(guò)強(qiáng):大多數(shù)方法依賴于數(shù)百萬(wàn)真實(shí)操作數(shù)據(jù)或仿真數(shù)據(jù),收集成本極高。

泛化性不足:即使是大模型策略,遷移到新任務(wù)、新機(jī)器人平臺(tái)時(shí),仍需額外適配與訓(xùn)練。

優(yōu)化效率低:純模仿學(xué)習(xí)(Behavior Cloning, BC)在面對(duì)噪聲數(shù)據(jù)時(shí)容易過(guò)擬合,而單純強(qiáng)化學(xué)習(xí)在稀疏獎(jiǎng)勵(lì)下效率極差。

缺乏統(tǒng)一蒸餾框架:如何把分散的多任務(wù)經(jīng)驗(yàn)整合到一個(gè)穩(wěn)定的“通用策略模型”中,一直缺乏系統(tǒng)性解法。

為了解決上述問(wèn)題,論文提出了 RLDG(Robotic Generalist Policy Distillation via Reinforcement Learning)。



該方法的核心思想是:

通過(guò)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的蒸餾機(jī)制(RL-driven Distillation),將不同任務(wù)和教師模型的知識(shí)統(tǒng)一到單一通用策略中;

結(jié)合模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),提升泛化性和學(xué)習(xí)效率;

在多機(jī)器人平臺(tái)與多任務(wù)場(chǎng)景下,實(shí)現(xiàn)跨域遷移與性能提升。

可以說(shuō),RLDG 是繼 RT 系列、LBM 之后,又一類探索“通用機(jī)器人大模型”的代表性方法。

RLDG 是一個(gè)將專家級(jí)強(qiáng)化學(xué)習(xí)策略提煉為通用機(jī)器人策略的框架。通過(guò)這種方式訓(xùn)練的通用機(jī)器人策略相比于使用人類演示的傳統(tǒng)微調(diào)方法,表現(xiàn)出更高的性能,并且比提煉出的強(qiáng)化學(xué)習(xí)策略具有更強(qiáng)的泛化能力。

RLDG 的方法論核心在于:使用強(qiáng)化學(xué)習(xí)作為優(yōu)化驅(qū)動(dòng)力,將多個(gè)教師策略的行為知識(shí)蒸餾到一個(gè)學(xué)生通用策略模型中。

其設(shè)計(jì)目標(biāo)包括:

通用性(Generality):學(xué)生模型必須能夠在多種任務(wù)、多個(gè)機(jī)器人平臺(tái)上保持穩(wěn)定性能;

高效性(Efficiency):避免單純依賴昂貴的模仿數(shù)據(jù),而是通過(guò) RL 優(yōu)化不斷提升策略;

穩(wěn)定性(Stability):在蒸餾過(guò)程中,避免教師模型之間的沖突,保證學(xué)生模型不會(huì)陷入災(zāi)難性遺忘。

RLDG 整體框架可以分為三個(gè)部分:

教師策略集合(Teacher Policies):這些教師模型可能來(lái)自單任務(wù)強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、專家示范數(shù)據(jù)等。

學(xué)生通用策略(Student Generalist Policy):一個(gè)統(tǒng)一的大模型策略,接收來(lái)自多個(gè)任務(wù)的狀態(tài)輸入,輸出對(duì)應(yīng)動(dòng)作。

蒸餾優(yōu)化機(jī)制(RL-driven Distillation):通過(guò)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)與蒸餾損失函數(shù)的結(jié)合,使學(xué)生模型學(xué)習(xí)教師知識(shí),同時(shí)具備自我探索能力。

論文定義了一個(gè)組合損失函數(shù):

L(πs)=α?Ldistill(πs,πt)+β?LRL(πs)L(\pi_s) = \alpha \cdot L_{distill}(\pi_s, \pi_t) + \beta \cdot L_{RL}(\pi_s)L(πs
)=α?Ldistill
(πs
,πt
)+β?LRL
(πs
)

其中:

πs\pi_sπs
表示學(xué)生策略;

πt\pi_tπt
表示教師策略集合;

LdistillL_{distill}Ldistill
表示蒸餾損失(模仿教師);

LRLL_{RL}LRL
表示強(qiáng)化學(xué)習(xí)損失(通過(guò)獎(jiǎng)勵(lì)優(yōu)化);

α,β\alpha, \betaα,β 控制二者權(quán)重。

這種設(shè)計(jì)保證了:

學(xué)生模型不會(huì)偏離教師的先驗(yàn)知識(shí);

同時(shí)通過(guò) RL 改善教師策略未覆蓋的區(qū)域。

與傳統(tǒng) BC-only 方法不同,RLDG 引入 RL 優(yōu)化:

當(dāng)學(xué)生模型模仿教師后,若在某些任務(wù)中表現(xiàn)仍不佳,RL 會(huì)通過(guò)獎(jiǎng)勵(lì)反饋推動(dòng)進(jìn)一步優(yōu)化;

RL 優(yōu)化采用 Actor-Critic 結(jié)構(gòu),并結(jié)合 Proximal Policy Optimization (PPO) 提升穩(wěn)定性。

輸入:環(huán)境狀態(tài)(機(jī)器人關(guān)節(jié)位置、速度、力覺(jué)信息)、視覺(jué)信息(相機(jī)RGB/Depth)、任務(wù)指令(自然語(yǔ)言/任務(wù)ID)。

輸出:低維控制命令(關(guān)節(jié)角速度/力矩)或高維動(dòng)作分布(token化表示)。

學(xué)生策略采用了 多模態(tài) Transformer 架構(gòu):

視覺(jué)編碼器(Vision Encoder):提取圖像特征;

狀態(tài)編碼器(State Encoder):處理低維機(jī)器人狀態(tài);

任務(wù)嵌入模塊:把任務(wù)指令轉(zhuǎn)換成上下文向量;

融合模塊:通過(guò)多頭注意力機(jī)制融合不同模態(tài);

動(dòng)作解碼器:輸出具體動(dòng)作分布。

教師模型可能來(lái)自不同領(lǐng)域(如抓取、堆疊、開(kāi)門(mén)等)。在蒸餾時(shí):

學(xué)生策略需要匹配教師的行為分布(通過(guò) KL 散度約束);

若不同教師策略沖突,學(xué)生會(huì)依賴 RL 獎(jiǎng)勵(lì)信號(hào)進(jìn)行加權(quán)選擇。

這一機(jī)制避免了災(zāi)難性遺忘問(wèn)題,同時(shí)保持多任務(wù)性能。

論文在以下平臺(tái)進(jìn)行實(shí)驗(yàn):

仿真環(huán)境:MuJoCo、Isaac Gym,用于大規(guī)模數(shù)據(jù)采集;

真實(shí)機(jī)器人:Franka機(jī)器人等機(jī)械臂;

任務(wù)類型:抓?。≒ick)、放置(Place)、堆疊(Stack)、門(mén)把操作(Door Opening)、工具使用(Tool Use)。



測(cè)試場(chǎng)景(FRANKA機(jī)器人)

RLDG 與以下方法進(jìn)行了對(duì)比:

BC(Behavior Cloning):?jiǎn)渭兡7聦W(xué)習(xí);

Multi-task RL:?jiǎn)我?RL 訓(xùn)練的多任務(wù)模型;

Mixture of Experts (MoE):教師策略組合,但未蒸餾為單一模型;

RT-1 / RT-2:代表性的大模型機(jī)器人策略。



不同模型成功率對(duì)比

實(shí)驗(yàn)結(jié)果表明:

在 跨任務(wù)泛化性 上,RLDG 優(yōu)于 BC 與 Multi-task RL;

在 樣本效率 上,RLDG 需要的示范數(shù)據(jù)量比 RT 系列少 40% 以上;

在 真實(shí)機(jī)器人遷移 上,RLDG 能夠從仿真平滑遷移到現(xiàn)實(shí),成功率提升約 20%。



不同場(chǎng)景周期對(duì)比

與現(xiàn)有方法相比,RLDG 的優(yōu)勢(shì)主要體現(xiàn)在:

蒸餾與RL結(jié)合:兼具教師知識(shí)與自我探索能力;

多任務(wù)一致性:避免了 MoE 中任務(wù)割裂的問(wèn)題;

跨平臺(tái)能力:在不同機(jī)器人平臺(tái)保持性能;

更少依賴大規(guī)模人類標(biāo)注:與 RT-1/RT-2 相比,數(shù)據(jù)效率更高。

RLDG 的提出具有以下價(jià)值:

推動(dòng)通用機(jī)器人學(xué)習(xí):邁向一個(gè)能執(zhí)行“任何任務(wù)”的通用機(jī)器人;

提升現(xiàn)實(shí)可行性:減少對(duì)昂貴數(shù)據(jù)的依賴,降低部署成本;

支持多模態(tài)輸入:未來(lái)可結(jié)合語(yǔ)言、視頻,實(shí)現(xiàn)自然指令控制;

對(duì)具身智能發(fā)展:RLDG 是 AGI 與 Embodied AI 的橋梁,幫助機(jī)器人“學(xué)會(huì)學(xué)習(xí)”。

局限性與未來(lái)展望

盡管 RLDG 展現(xiàn)了強(qiáng)大潛力,但仍存在以下不足:

教師策略質(zhì)量依賴:若教師模型本身表現(xiàn)有限,蒸餾效果受限;

RL 訓(xùn)練仍昂貴:在高維動(dòng)作空間中,RL 收斂依舊需要大量計(jì)算;

多任務(wù)沖突問(wèn)題:當(dāng)任務(wù)差異極大時(shí),蒸餾可能產(chǎn)生性能折中;

缺乏大規(guī)模真實(shí)驗(yàn)證:目前實(shí)驗(yàn)更多集中于實(shí)驗(yàn)室環(huán)境,現(xiàn)實(shí)應(yīng)用仍需擴(kuò)展。

未來(lái)方向:

結(jié)合大語(yǔ)言模型(LLM),實(shí)現(xiàn)更自然的人機(jī)交互;

結(jié)合生成模型(Diffusion Policy, World Models),提升動(dòng)作生成的多樣性;

探索終身學(xué)習(xí)機(jī)制,讓通用策略持續(xù)學(xué)習(xí)新任務(wù)而不遺忘;

擴(kuò)展到多機(jī)器人協(xié)作,實(shí)現(xiàn)群體智能。

從更宏觀的角度來(lái)看,RLDG 的意義在于它代表了一種范式轉(zhuǎn)變:

傳統(tǒng)機(jī)器人學(xué)習(xí) → 單任務(wù)優(yōu)化;

LBM / RT 系列 → 大模型 + 模仿數(shù)據(jù);

RLDG → 蒸餾 + RL 的結(jié)合,形成一個(gè)“會(huì)模仿、會(huì)探索、會(huì)泛化”的機(jī)器人通用策略。

它可能成為未來(lái)通用機(jī)器人訓(xùn)練流水線中的關(guān)鍵模塊:

先通過(guò)專家或大模型教師提供初始能力;

再通過(guò) RL 蒸餾優(yōu)化,實(shí)現(xiàn)通用策略;

最終形成可以跨機(jī)器人平臺(tái)、跨任務(wù)應(yīng)用的智能體。

這種思路與人類學(xué)習(xí)方式非常相似:先模仿,再探索,最后融會(huì)貫通。

RLDG核心貢獻(xiàn)在于提出了一種 基于強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的策略蒸餾方法,能夠?qū)⒍嘟處煵呗越y(tǒng)一為單一通用學(xué)生模型,并在多任務(wù)、多平臺(tái)機(jī)器人場(chǎng)景中表現(xiàn)出強(qiáng)大的泛化能力和效率優(yōu)勢(shì)。

PNP機(jī)器人提供基于強(qiáng)化學(xué)習(xí)的學(xué)習(xí)平臺(tái)參考:





特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3-1擺脫墊底!1.25億神鋒任意球世界波 世界杯4冠王迎世預(yù)賽首勝

3-1擺脫墊底!1.25億神鋒任意球世界波 世界杯4冠王迎世預(yù)賽首勝

狍子歪解體壇
2025-09-08 04:44:18
九三閱兵后,6名間諜落網(wǎng)!帶1448份機(jī)密出逃,意圖泄露尖端武器

九三閱兵后,6名間諜落網(wǎng)!帶1448份機(jī)密出逃,意圖泄露尖端武器

墨蘭史書(shū)
2025-09-06 05:05:04
武漢大學(xué)白色座椅靠背粘貼紅色圓形標(biāo)簽引發(fā)爭(zhēng)議,武漢大學(xué):深表歉意,今后將更加注重工作細(xì)節(jié)

武漢大學(xué)白色座椅靠背粘貼紅色圓形標(biāo)簽引發(fā)爭(zhēng)議,武漢大學(xué):深表歉意,今后將更加注重工作細(xì)節(jié)

大風(fēng)新聞
2025-09-06 20:13:07
中國(guó)賺錢(qián)美國(guó)花?老戲骨祖孫三代在美享樂(lè) 過(guò)上“人上人”生活

中國(guó)賺錢(qián)美國(guó)花?老戲骨祖孫三代在美享樂(lè) 過(guò)上“人上人”生活

書(shū)雁飛史oh
2025-09-03 15:12:12
普通人活到80歲的概率是多少?10%、 30%還是50%,或者更高?

普通人活到80歲的概率是多少?10%、 30%還是50%,或者更高?

暖心人社
2025-08-09 22:31:41
23歲女孩剛逃出戰(zhàn)火紛飛的烏克蘭,就在美國(guó)輕軌上被殺害,陌生男子對(duì)她頸部連刺3刀

23歲女孩剛逃出戰(zhàn)火紛飛的烏克蘭,就在美國(guó)輕軌上被殺害,陌生男子對(duì)她頸部連刺3刀

極目新聞
2025-09-07 11:01:05
王二麻子為中國(guó)GDP做出了應(yīng)有貢獻(xiàn),自己破產(chǎn)了

王二麻子為中國(guó)GDP做出了應(yīng)有貢獻(xiàn),自己破產(chǎn)了

小筑
2025-09-07 08:06:20
金正恩剛回朝鮮,不到24小時(shí),三國(guó)將在半島軍演,中方態(tài)度很明確

金正恩剛回朝鮮,不到24小時(shí),三國(guó)將在半島軍演,中方態(tài)度很明確

南宮一二
2025-09-06 13:09:38
江蘇女子在家發(fā)現(xiàn)10萬(wàn)現(xiàn)金以為是老公的私房錢(qián),氣憤存進(jìn)銀行,柜員把錢(qián)放進(jìn)驗(yàn)鈔機(jī)后報(bào)警了…

江蘇女子在家發(fā)現(xiàn)10萬(wàn)現(xiàn)金以為是老公的私房錢(qián),氣憤存進(jìn)銀行,柜員把錢(qián)放進(jìn)驗(yàn)鈔機(jī)后報(bào)警了…

黎兜兜
2025-09-04 22:03:28
今晚睡不著覺(jué)了!證券市場(chǎng)傳來(lái)重磅消息,明天開(kāi)盤(pán)務(wù)必聽(tīng)我一句

今晚睡不著覺(jué)了!證券市場(chǎng)傳來(lái)重磅消息,明天開(kāi)盤(pán)務(wù)必聽(tīng)我一句

阿傖說(shuō)事
2025-09-07 23:33:40
廈門(mén)航空一航班起飛前加速約20秒后突然急剎!乘客:馬上要離地時(shí)發(fā)生劇烈震蕩,看到窗外有火光

廈門(mén)航空一航班起飛前加速約20秒后突然急剎!乘客:馬上要離地時(shí)發(fā)生劇烈震蕩,看到窗外有火光

觀威海
2025-09-07 10:01:11
毛新宇少將被攙著參加閱兵,高顏值妻女全程陪同,一畫(huà)面信息量大

毛新宇少將被攙著參加閱兵,高顏值妻女全程陪同,一畫(huà)面信息量大

溫柔看世界
2025-09-07 00:33:00
接棒國(guó)民黨主席?盧秀燕正式表態(tài),朱立倫被打臉,國(guó)民黨亂戰(zhàn)開(kāi)始

接棒國(guó)民黨主席?盧秀燕正式表態(tài),朱立倫被打臉,國(guó)民黨亂戰(zhàn)開(kāi)始

boss外傳
2025-09-07 03:00:03
隨著淮安3-1泰州,鹽城3-2蘇州,蘇超最新積分:8強(qiáng)定4席+2隊(duì)出局

隨著淮安3-1泰州,鹽城3-2蘇州,蘇超最新積分:8強(qiáng)定4席+2隊(duì)出局

小火箭愛(ài)體育
2025-09-07 21:43:05
極限沖刺救女兒獲數(shù)十萬(wàn)點(diǎn)贊的“超人爸爸”找到了:多虧自己摔倒后滑了一段,不然可能救不到孩子

極限沖刺救女兒獲數(shù)十萬(wàn)點(diǎn)贊的“超人爸爸”找到了:多虧自己摔倒后滑了一段,不然可能救不到孩子

極目新聞
2025-09-07 18:06:49
央視國(guó)宴那瓶水火了!不是娃哈哈更不是農(nóng)夫山泉,背后講究真不少

央視國(guó)宴那瓶水火了!不是娃哈哈更不是農(nóng)夫山泉,背后講究真不少

巷子里的歷史
2025-09-06 17:36:17
最新調(diào)查:73%的烏克蘭人認(rèn)為能贏,烏克蘭還有三個(gè)依靠

最新調(diào)查:73%的烏克蘭人認(rèn)為能贏,烏克蘭還有三個(gè)依靠

boss外傳
2025-09-07 03:30:03
小泉夜訪并閉門(mén)會(huì)談兩小時(shí),石破茂宣布辭任自民黨總裁:曾公開(kāi)吐槽“當(dāng)首相沒(méi)意思”

小泉夜訪并閉門(mén)會(huì)談兩小時(shí),石破茂宣布辭任自民黨總裁:曾公開(kāi)吐槽“當(dāng)首相沒(méi)意思”

紅星新聞
2025-09-07 18:28:15
朝鮮駐華使館內(nèi)部首次公開(kāi)!金正恩攜女兒到訪

朝鮮駐華使館內(nèi)部首次公開(kāi)!金正恩攜女兒到訪

看看新聞Knews
2025-09-07 16:49:16
丈母娘出軌女婿100多次,女兒睡在隔壁房間都不收斂

丈母娘出軌女婿100多次,女兒睡在隔壁房間都不收斂

第7情感
2025-09-07 21:28:15
2025-09-08 05:11:00
PNP機(jī)器人
PNP機(jī)器人
FRNAKA機(jī)器人金牌合作,科技達(dá)人
38文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

我國(guó)為何將主動(dòng)撞擊一顆小行星?

頭條要聞

爸爸極限沖刺救女兒獲數(shù)十萬(wàn)點(diǎn)贊 本人發(fā)聲

頭條要聞

爸爸極限沖刺救女兒獲數(shù)十萬(wàn)點(diǎn)贊 本人發(fā)聲

體育要聞

千帆過(guò)盡,薩巴倫卡終于成為水泥叢林女王

娛樂(lè)要聞

辛芷蕾奪得威尼斯影后打臉了五個(gè)人

財(cái)經(jīng)要聞

曾負(fù)債超200億元,知名車企宣布:馬上復(fù)產(chǎn)!

汽車要聞

又一批造車者蠢蠢欲動(dòng) “幸存者游戲”有何魔力

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
教育
公開(kāi)課
軍事航空

手機(jī)要聞

郭明錤稱蘋(píng)果9月10日推出AirPods Pro3,明年配備IR紅外攝像頭

數(shù)碼要聞

領(lǐng)普頂裝人體存在傳感器 ES5 上架,單只 69 元

教育要聞

南京市中小學(xué)生新學(xué)期新祝福請(qǐng)查收

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

防御"利刃"出鞘:反無(wú)人機(jī)強(qiáng)大"鐵三角"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲成人资源AV| 久久这里只有精品免费| 欧美日韩在线第一页免费观看 | 97国产视频| 国产成人精品无码一区二区三| 亚洲欧美太紧了| 亚洲综合网色AV| 一本一久本久A久久精品综合| 精品无码av毛片一区二区三区| 99精品国产在热久久无毒| 午夜丰满少妇性开放视频| 国产精品三级黄色小视频| 我欧美性爱网| 女m羞辱调教视频网站| 俺来啦俺去啦| 高清无码 国产一区| 成人无码区免费视频| 毛片免费视频播放大全| 在线视频7777| 激情五月欧美| 好男人好资源WWW社区| 成人免费视频一区二区在线无码| 久久国产成人av蜜臀| 亚洲群交影院| 国产精品18久久久| 国产福利欧美| 手机av在线免费看| 国产精品亚洲第一区在线| 亚洲国产欧美蜜臀影视| 国产精品中文av专线| 欧美伦理激情视频一区二区| 亚洲性夜夜摸人人天天| 日韩国产综合熟女88| 人人曰人人看| 奇米色在线视频| 肏屄麻豆一区| 亚洲精品国产一区二区三| 成人午夜一区二区视频网站| 特偏黄色视频毛片免费看| 成人无码毛片免费看| 狠狠躁夜夜躁人人爽天天古典|