夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

RLinf上新πRL:在線強化學習微調π0和π0.5

0
分享至



近年來,基于流匹配的VLA 模型,特別是 Physical Intelligence 發(fā)布的π0和π0.5,已經成為機器人領域備受關注的前沿技術路線。流匹配以極簡方式建模多峰分布,能夠生成高維且平滑的連續(xù)動作序列,在應對復雜操控任務時展現出顯著優(yōu)勢。

盡管如此,VLA 模型在訓練過程中嚴重依賴于大規(guī)模、高質量的人類演示數據,而收集和標注這些數據的成本高昂且周期漫長。強化學習允許智能體通過與環(huán)境的真實交互自行探索和迭代改進,可以減少VLA 模型對大量數據的依賴,并進一步提升SFT 的性能上限。

目前,針對流匹配VLA 的 RL研究仍較少,主流工作大多集中在OpenVLA 和 OpenVLA-OFT等自回歸VLA上。其核心挑戰(zhàn)在于:流匹配VLA 通過迭代去噪生成動作,導致難以直接計算輸出動作的對數似然——而這是PPO、GRPO 等策略梯度方法更新的關鍵。

清華、北大、CMU 等機構聯(lián)合推出了一套面向流匹配 VLA(π0,π0.5)的在線強化學習(PPO 和 GRPO)微調框架πRL。該框架基于 RLinf(首個面向具身智能的大規(guī)模強化學習系統(tǒng))實現,提出Flow-Noise 和 Flow-SDE兩種微調方案,在公開測試平臺LIBERO 達到平均 97.6% (π0) 和 98.3% (π0.5),驗證了微調方案的有效性。

進一步,πRL在涵蓋4,352 種抓取-放置任務組合中進行訓練,成功率漲幅40% 以上,最終成功率超 80%,驗證了框架支持大規(guī)模任務訓練的能力。目前,全部代碼、模型和文檔示例已完全開源。



  • 論文鏈接: https://arxiv.org/pdf/2510.25889
  • 開源代碼: https://github.com/RLinf/RLinf
  • 模型倉庫: https://huggingface.co/RLinf
  • 復現文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/pi0.html



圖 1:本框架分別支持 π0和 π0.5兩個模型,并提出了Flow-Noise 和 Flow-SDE兩種技術方案,在LIBERO 和 ManiSkill測試平臺上分別實現了最高40.0% 和 44.7%的增幅。

πRL 核心原理

針對流匹配VLA 難以直接計算輸出動作對數似然問題,πRL提出了兩條技術路線:Flow-Noise 和 Flow-SDE。



圖 2:Flow-Noise 通過將去噪過程建模為離散馬爾可夫過程,能夠直接計算去噪序列的聯(lián)合概率密度;Flow-SDE 則將去噪與環(huán)境交互過程相結合,構建了雙層 MDP。策略在 rollout 階段收集完數據后,統(tǒng)一采用 PPO 進行策略梯度優(yōu)化。

Flow-Noise

  • 注入可學習噪聲:引入一個可學習的噪聲網絡,在去噪每一步均加入噪聲,使去噪過程變?yōu)殡S機過程。
  • 計算聯(lián)合概率:由于每一步噪聲均可知(由噪聲網絡輸出),整個去噪序列(從初始噪聲至最終動作)的聯(lián)合對數似然可精確計算。
  • 策略梯度優(yōu)化:基于可精確計算的聯(lián)合對數似然,可直接用標準策略梯度方法進行優(yōu)化。

Flow-SDE

  • ODE-SDE 轉化:將原有確定性ODE 去噪步驟,轉化為等效 SDE,從而在策略中引入隨機性。
  • 構建兩層 MDP:SDE 去噪作為內層循環(huán),與智能體-環(huán)境交互(外層循環(huán))結合,構建雙層MDP 結構
  • 混合采樣提速:訓練中大部分采用ODE 確定性采樣,小部分用SDE 探索,以加速訓練同時保證探索。
  • 策略梯度優(yōu)化:在雙層MDP 中,策略輸出由與環(huán)境交互的動作轉為流匹配模型輸出的速度場,可直接進行策略梯度優(yōu)化。

Critic 設計

針對π0和π0.5模型,πRL應用PPO 算法微調時,探索了兩種Actor-Critic 架構

  • Action Expert Critic(適用于π0)

  • VLM 僅包含圖像和語言信息,機器人狀態(tài)與噪聲動作一同送入 Action Expert。
  • Critic 接 Action Expert隱藏層輸出,并通過對全部噪聲步取平均獲得穩(wěn)定的估計。

  • VLM Critic(適用于π0.5)

  • VLM 融合全部輸入(圖像、語言、機器人狀態(tài))。
  • Critic 直接接 VLM隱藏層輸出。



圖 3:我們系統(tǒng)性地探索了兩種 Critic 設計思路:一種將 Critic 部署在動作模型(Action Expert)之后,另一種則將 Critic 直接接入視覺語言模型(VLM)后。

實驗結果

πRL 在常用VLA 評測集 LIBERO 及 ManiSkill自建多任務集上驗證了其有效性。

LIBERO:少樣本 SFT+RL 范式超越全數據 SFT!

πRL讓π0(few-shot)平均成功率從57.6% 提高到 97.6%,π0.5(few-shot)從77.1% 提高到 98.3%,超越全數據 SFT 訓練的流匹配 VLA 表現。



圖 4:LIBERO 測試平臺下的性能對比

與此同時,在LIBERO-Long 長時序任務上,πRL使π0.5單樣本 (one-shot) SFT性能從 43.9% 提升到 94.0%!



圖 5:LIBERO-Long任務 one-shot SFT 的 RL收斂曲線

ManiSkill:驗證大規(guī)模多任務 RL 能力!

為了驗證πRL大規(guī)模多任務的支持能力,我們在Maniskill 中構造了涵蓋4,352 種抓取-放置任務組合。結果表明,通過在320個并行環(huán)境中進行訓練,πRL(Flow-Noise)將π0成功率從38.42% 提升到 78.83%,π0.5成功率從40.06% 提升到 90.85%。



圖 6:ManiSkill Main任務中Pi05的RL收斂曲線

此外,我們還設計了12 個與訓練環(huán)境不同的域隨機化測試環(huán)境,用于考察模型的泛化能力。在這些環(huán)境中,我們改變語言指令、物體類型、桌面紋理,或者在執(zhí)行過程中移動物體、添加多個物體,來考察模型的泛化能力,并在每個環(huán)境中進行了256 次測試來排除統(tǒng)計漲落的結果的影響。結果表明,πRL算法能夠顯著提升兩類模型在新環(huán)境下的泛化性能



圖 7:ManiSkill環(huán)境中對泛化能力的測試

我們還在實驗中觀測到,相比監(jiān)督微調,強化學習可以使得模型更少犯錯,模型完成操作任務的平均步數可以顯著減少,直到逼近專家數據水平:



圖 8:強化學習提高完成任務的效率

消融研究

除上述對比試驗外,論文還包含大量消融實驗,為后續(xù)基于流匹配VLA 的 RL研究積累了經驗。

  • 算法對比(PPO vs. GRPO):使用流匹配VLA,PPO 在最終性能和訓練穩(wěn)定性上均優(yōu)于GRPO



圖 9:PPO 和 GRPO 算法的收斂曲線對比

  • MDP 對比:Flow-Noise(單層 MDP)收斂略快,Flow-SDE(雙層 MDP)單步更新更快(與去噪步數解耦),最終性能接近。

  • 隨機性注入對比:可學習噪聲(Flow-Noise)與固定噪聲(Flow-SDE)兩種策略,在相同MDP 框架下性能類似,證明兩類噪聲注入均有效。

  • Critic 設計:Critic 接在 VLM 后略優(yōu)于接在Action Expert 后,且更穩(wěn)定。

更多技術細節(jié)和消融結果詳見論文。

未來展望

πRL未來將繼續(xù)發(fā)布更多結果,包括:

  • 更多基準測試集:接入更多仿真環(huán)境,進行更豐富的評測。
  • 提升 OOD 泛化能力:針對強化學習帶來的泛化增益展開更深入分析。
  • 真實機器人部署:推動πRL框架從仿真走向真實物理機器人,驗證其實際應用價值。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“舉報的家長們后悔了?”學校不打印課后作業(yè),家長不滿老師冷笑

“舉報的家長們后悔了?”學校不打印課后作業(yè),家長不滿老師冷笑

熙熙說教
2025-11-01 20:36:25
7年雪藏8億罰款,范冰冰用《地母》殺回東京電影節(jié),但翻身仍無望

7年雪藏8億罰款,范冰冰用《地母》殺回東京電影節(jié),但翻身仍無望

電影票房預告片
2025-11-06 15:40:49
鄭麗文:尊重2300萬臺灣人意愿,絕不能武統(tǒng)!洪秀柱:當然可以打

鄭麗文:尊重2300萬臺灣人意愿,絕不能武統(tǒng)!洪秀柱:當然可以打

剛哥說法365
2025-11-01 17:15:20
中國顏值巔峰的6個AAAAA景區(qū),去過3個很幸福,去過6個此生無悔!

中國顏值巔峰的6個AAAAA景區(qū),去過3個很幸福,去過6個此生無悔!

戶外釣魚哥阿勇
2025-10-21 08:15:56
終于見到莎莎了,在香港轉機,跟哥是一前一后,兩人這距離好安心

終于見到莎莎了,在香港轉機,跟哥是一前一后,兩人這距離好安心

黃小仙的搞笑視頻
2025-10-11 10:40:27
上海地鐵驚現“廢話”廣告!Canva這波操作太懂年輕人

上海地鐵驚現“廢話”廣告!Canva這波操作太懂年輕人

侃故事的阿慶
2025-11-07 02:00:49
1976年,華國鋒做的一個決定影響至今,毛主席沒有看錯人

1976年,華國鋒做的一個決定影響至今,毛主席沒有看錯人

南書房
2025-11-06 16:55:03
恥辱3連敗,西部倒數第1!拿門面擔當換最脆超巨,3方交易虧大了

恥辱3連敗,西部倒數第1!拿門面擔當換最脆超巨,3方交易虧大了

毒舌NBA
2025-11-07 09:59:38
副院長出軌眼科主任后續(xù),部門介入調查,雙方停診,網友維護說話

副院長出軌眼科主任后續(xù),部門介入調查,雙方停診,網友維護說話

鋭娛之樂
2025-11-06 13:36:07
山姆會員,再也忍不下去了

山姆會員,再也忍不下去了

冰川思想庫
2025-11-07 11:01:47
國安亞冠3比0完勝大埔,王子銘為何一分鐘都沒上,引發(fā)熱議

國安亞冠3比0完勝大埔,王子銘為何一分鐘都沒上,引發(fā)熱議

張麗說足球
2025-11-07 10:43:46
汪小菲真寵女兒,八萬元的外套一下買兩件,小玥兒穿上很顯貴氣

汪小菲真寵女兒,八萬元的外套一下買兩件,小玥兒穿上很顯貴氣

鋭娛之樂
2025-11-05 08:44:46
聯(lián)合國前主席稱:中國人的風俗,世界上沒有一個國家能夠學得來

聯(lián)合國前主席稱:中國人的風俗,世界上沒有一個國家能夠學得來

小鬼頭體育
2025-11-07 10:15:43
五角大樓沒想到,大陸對臺使出最絕的一招:邀請日本自衛(wèi)隊到北京

五角大樓沒想到,大陸對臺使出最絕的一招:邀請日本自衛(wèi)隊到北京

頭條爆料007
2025-11-06 19:04:22
馬塔:我想繼續(xù)證明我依然能享受足球,并且保持高水平狀態(tài)

馬塔:我想繼續(xù)證明我依然能享受足球,并且保持高水平狀態(tài)

懂球帝
2025-11-07 09:25:12
馬斯克說對了!繼芯片后又一東西全球瘋搶,中國或成最大受益者

馬斯克說對了!繼芯片后又一東西全球瘋搶,中國或成最大受益者

史紀文譚
2025-11-06 15:46:54
東風就緒!神舟二十號3人乘組準備回家,神二十二1人將飛行超1年

東風就緒!神舟二十號3人乘組準備回家,神二十二1人將飛行超1年

古事尋蹤記
2025-11-06 10:11:15
中國首善李春平離世,13年軟飯換268億遺產,大39歲女星身份曝光

中國首善李春平離世,13年軟飯換268億遺產,大39歲女星身份曝光

壹月情感
2025-10-31 15:08:21
小米巨省電空調,能效比倒數第一*,空調高管不懂空調術語?

小米巨省電空調,能效比倒數第一*,空調高管不懂空調術語?

小小河
2025-11-06 01:34:24
紅軍城爭奪戰(zhàn)結束,俄軍進行最后清剿,大量烏軍投降

紅軍城爭奪戰(zhàn)結束,俄軍進行最后清剿,大量烏軍投降

兵國大事
2025-11-04 17:30:59
2025-11-07 11:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11666文章數 142499關注度
往期回顧 全部

科技要聞

75%贊成!特斯拉股東同意馬斯克天價薪酬

頭條要聞

荒野求生第30天 "奪冠熱門"退伍特種兵退賽:已瘦25斤

頭條要聞

荒野求生第30天 "奪冠熱門"退伍特種兵退賽:已瘦25斤

體育要聞

送走兩位全明星,公牛成了東部第一

娛樂要聞

白百何回應東京電影節(jié)爭議

財經要聞

老登們的社交貨幣全崩了

汽車要聞

小鵬X9增程版綜合續(xù)航1606公里 有底氣挑戰(zhàn)賽那?

態(tài)度原創(chuàng)

本地
時尚
房產
旅游
軍事航空

本地新聞

這屆干飯人,已經把博物館吃成了食堂

美拉德失寵了?今年冬天最流行的3個顏色,誰穿誰好看!

房產要聞

錨定居住新趨勢!廣佛新世界重構灣區(qū)“理想生活投資學”

旅游要聞

大理又要開“濾鏡”了

軍事要聞

美軍兩架B-52轟炸機接近委內瑞拉海岸

無障礙瀏覽 進入關懷版 91人妻一区二区三区蜜臀| 中文字幕中文无码在线观看| 中文字幕乱码一区二区免费 | 99精品国产成人一区二区| 亚洲色无码中文字幕手机在线| 西西4444www无码视频软件| 99re永久地址| 免费人成网站在线观看欧美| 亚洲综合色在线视频WWW| 国产无遮挡免费视频免费| 国产成人免费观看久久久| 欧美丰满少妇xxxx性| 色偷偷色噜噜狠狠网站年轻人 | 亚洲精品屋v一区二区| 一个人看的片免费高清www| 在线免费无码| 国产亚洲精品拍拍拍拍拍| 国产亚洲经典视频| 黄网站色成年片在线观看| 欧美黑人巨大videos| 日本一区二区三区视频免费在线观看| 男女性杂交内射妇女bbwxz| 大肥婆老熟女一区二区| A三级三级成人网站在线视频| 伊人色合天天久久综合网| 亚洲一级无毛片无码在线免费视频 | 麻豆国产成人AV在线播放| 乱女乱妇熟女熟妇网站AⅤ少妇| 久久69热人妻偷产精品| av在线播放日韩亚洲欧我不卡| 国产综合操逼| 伊人色综合网一区二区三区| 日本一卡2卡3卡4卡5卡精品视频| Chinese老女人| 日本亚洲欧美在线视观看| 亚洲精品无码a√中文字幕网站| 老司机久久99久久精品播放免费 | 精品久久久久久无码中文字幕漫画 | 午夜视频在线瓜伦| 日本精油按摩被中出| 嗯嗯……啊好爽网站视频|