夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeurIPS 2025 | CMU、清華、UTAustin開源ReinFlow

0
分享至



作者簡(jiǎn)介:本文第一作者為卡耐基梅隆大學(xué)機(jī)器人所研究生 Tonghe Zhang,主要研究方向?yàn)闄C(jī)器人操作大模型和全身控制算法。合作者為德克薩斯大學(xué)奧斯汀分校博士生 Sichang Su, 研究方向?yàn)閺?qiáng)化學(xué)習(xí)和通用機(jī)器人策略。指導(dǎo)教師是清華大學(xué)和北京中關(guān)村學(xué)院的 Chao Yu 教授以及清華大學(xué) Yu Wang 教授。



想要進(jìn)一步增強(qiáng)開源 VLA 模型的能力,除了增加數(shù)據(jù)多樣性,強(qiáng)化學(xué)習(xí)也是一種高度有效的方法。來自卡內(nèi)基梅隆大學(xué)、清華大學(xué)和德克薩斯大學(xué)奧斯汀分校的研究團(tuán)隊(duì)提出了一個(gè)用于微調(diào)流匹配策略的在線強(qiáng)化學(xué)習(xí)框架 ReinFlow, 該工作已被 NeurIPS 2025 接收,并開源了詳細(xì)的復(fù)現(xiàn)教程,包括代碼、訓(xùn)練權(quán)重、和訓(xùn)練結(jié)果。



  • 論文標(biāo)題:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2505.22094
  • 項(xiàng)目主頁:https://reinflow.github.io
  • 開源資源(代碼、模型、數(shù)據(jù)、W&B 訓(xùn)練記錄)https://github.com/ReinFlow/ReinFlow

ReinFlow 的算法特點(diǎn)

  • 理論基礎(chǔ):基于策略梯度理論推導(dǎo),將確定性流轉(zhuǎn)換為離散時(shí)間馬爾可夫過程,直接優(yōu)化整條流匹配鏈;
  • 訓(xùn)練高效:相比 DPPO 節(jié)省 60% 以上訓(xùn)練時(shí)間,支持少步甚至單步推理;
  • 實(shí)驗(yàn)驗(yàn)證:在多個(gè)基準(zhǔn)任務(wù)上相較預(yù)訓(xùn)練模型取得了顯著性能提升;
  • 復(fù)現(xiàn)友好:提供完整訓(xùn)練教程、數(shù)據(jù)集、檢查點(diǎn)、WandB 指標(biāo),支持許多 legged locomotion 和 manipulation benchmark, 以及在 SimplerEnv 中使用規(guī)?;⑿蟹抡嫖⒄{(diào)模型。

ReinFlow 核心原理

ReinFlow 是一個(gè)針對(duì)常微分方程策略的通用策略梯度算法。想要進(jìn)行策略梯度優(yōu)化,首先要設(shè)法獲取動(dòng)作的邊緣概率分布 。對(duì)于流匹配模型而言,這與推理時(shí)動(dòng)作生成的機(jī)理相關(guān)。流匹配策略每一步推理時(shí)進(jìn)行了如下步驟:





如果使用流匹配的理論公式,我們可以計(jì)算流策略的最終動(dòng)作的似然函數(shù)。但是由于流匹配動(dòng)作通過積分來定義,這個(gè)方法計(jì)算相當(dāng)復(fù)雜,而且存在估計(jì)噪聲,并不適合于強(qiáng)化學(xué)習(xí)。那么有沒有辦法可以簡(jiǎn)單獲得流匹配策略推理時(shí)候的似然函數(shù)呢?其實(shí)可以, 但是要做一些小改動(dòng)

流匹配模型的推理是一個(gè)馬爾科夫過程。如果我們貯存所有的中間動(dòng)作,雖然難以獲得最終動(dòng)作的最終動(dòng)作的邊緣分布,但是可以用鏈?zhǔn)椒▌t獲得擴(kuò)散鏈條的聯(lián)合概率分布:



但是由于使用常微分方程進(jìn)行積分,預(yù)訓(xùn)練流匹配模型的每步轉(zhuǎn)移概率都是狄拉克函數(shù), 據(jù)此仍然無法導(dǎo)出數(shù)值穩(wěn)定的計(jì)算公式。因此,在 ReinFlow 中,我們向流策略的確定性路徑中注入少量可學(xué)習(xí)的噪聲,將其轉(zhuǎn)移過程改回一個(gè)隨機(jī)的擴(kuò)散過程:



其中,第一項(xiàng)是預(yù)訓(xùn)練得到的速度,對(duì)應(yīng)隨機(jī)微分方程的漂移項(xiàng);第二項(xiàng)是端到端訓(xùn)練的噪聲注入網(wǎng)絡(luò),對(duì)應(yīng)微分方程的擴(kuò)散項(xiàng)。這樣,由于相鄰擴(kuò)散步的轉(zhuǎn)移概率都是高斯分布,流匹配的聯(lián)合概率便可以被嚴(yán)格計(jì)算出來:



好消息是,我們的研究表明利用聯(lián)合概率也可以進(jìn)行策略梯度優(yōu)化。根據(jù)如下定理,我們可以使用多種經(jīng)典的策略梯度方法對(duì)流匹配策略進(jìn)行強(qiáng)化學(xué)習(xí)。



雖然引入噪聲改變了流匹配模型的軌跡,但是我們把噪聲控制到較小范圍內(nèi),以減少與預(yù)訓(xùn)練策略的偏離,防止微調(diào)時(shí)性能大幅受損。但同時(shí),我們也為噪聲設(shè)置強(qiáng)度下限,以鼓勵(lì)適當(dāng)?shù)?strong>探索。另外,ReinFlow 雖然引入了額外的噪聲網(wǎng)絡(luò),但是其參數(shù)量遠(yuǎn)小于預(yù)訓(xùn)練的速度場(chǎng),并且與之共用視覺特征:這樣可以減少微調(diào)時(shí)帶來的額外開銷。

任務(wù)評(píng)測(cè)

ReinFlow 是一個(gè)通用的框架。原理上,ReinFlow 可以適用于所有常微分方程定義的策略,比如 Rectified Flow 和 Shortcut Models,甚至支持極少步數(shù)下,如 1,2,4 步時(shí)的推理。而且,更新公式可以適用于幾乎所有強(qiáng)化學(xué)習(xí)梯度算法,比如 PPO。

足式運(yùn)動(dòng)控制

在 D4RL 足式運(yùn)動(dòng)控制任務(wù)中,ReinFlow 微調(diào)后的 Rectified Flow 策略取得了平均 135.36% 的凈性能增長(zhǎng)。與當(dāng)前的擴(kuò)散 RL 微調(diào)方法 DPPO 相比,ReinFlow 在保持類似性能的同時(shí),可以極大減少擴(kuò)散步驟,從而節(jié)省了微調(diào)所用的 82.63% 的墻鐘時(shí)間



長(zhǎng)程操作任務(wù)

在接收稀疏獎(jiǎng)勵(lì)和高維輸入的操作任務(wù)中(Franka Kitchen、Robomimic) ,ReinFlow 微調(diào)的 Shortcut Model 策略在 4 步甚至 1 步去噪的情況下,比預(yù)訓(xùn)練模型平均凈增了 40.34% 的成功率。其性能與使用 DPPO 微調(diào)的 DDIM 策略相當(dāng),但訓(xùn)練時(shí)間平均節(jié)省 23.20%





VLA + 大規(guī)模并行強(qiáng)化學(xué)習(xí)





消融實(shí)驗(yàn)

研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究,研究以下因素對(duì)訓(xùn)練結(jié)果的影響:

1. 數(shù)據(jù)擴(kuò)展 vs RL 微調(diào):實(shí)驗(yàn)顯示僅靠增加數(shù)據(jù)或推理步數(shù)較快達(dá)到性能瓶頸,而 RL 微調(diào)能進(jìn)一步提升性能。

2. 時(shí)間采樣策略:ReinFlow 對(duì)均勻、Logit-normal 和 Beta 分布等多種時(shí)間采樣方式都表現(xiàn)良好的性能。

3. 噪聲條件和大?。和瑫r(shí)以狀態(tài)和時(shí)間為條件生成噪聲,有助于產(chǎn)生更多樣化的動(dòng)作。噪聲過小訓(xùn)練會(huì)陷入瓶頸,一定閾值后可以探索的新策略。

4. 熵正則化:可以進(jìn)一步促進(jìn)探索。





保姆級(jí)開源

ReinFlow 的 GitHub 項(xiàng)目已經(jīng)全面開源,并在積極維護(hù)中。歡迎通過郵件或 GitHub 與作者交流。項(xiàng)目包含了:

完整代碼庫

  • 支持 Rectified Flow、Shortcut Models 等多種流模型;
  • 涵蓋 OpenAI Gym(D4RL)、Franka Kitchen、Robomimic 等多個(gè)經(jīng)典 RL 環(huán)境;
  • 詳細(xì)的安裝指南和使用教程。

模型 Checkpoints

  • 提供所有實(shí)驗(yàn)的預(yù)訓(xùn)練模型;
  • 包含行為克隆和 RL 微調(diào)后的權(quán)重;
  • 支持一鍵加載和評(píng)估。

WandB 指標(biāo)

  • 公開所有實(shí)驗(yàn)的訓(xùn)練曲線(損失、獎(jiǎng)勵(lì)、學(xué)習(xí)率等);
  • 可直接訪問:https://wandb.ai/reinflow/projects;
  • 便于社區(qū)下載基線和本方法測(cè)試結(jié)果,進(jìn)行公平驗(yàn)證和對(duì)比。

詳盡文檔

  • 完整復(fù)現(xiàn)實(shí)驗(yàn)的步驟:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
  • 復(fù)現(xiàn)論文圖表的指南:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
  • 關(guān)鍵超參數(shù)說明:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
  • 添加自定義數(shù)據(jù)集 / 環(huán)境:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
  • 常見問題解答:https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md

未來展望

ReinFlow 將在未來公布更多結(jié)果,包括:

  • 發(fā)布更多大型視覺語言模型微調(diào)結(jié)果;
  • 支持用在線 RL 微調(diào) Mean Flow;
  • 研究如何使用該方法進(jìn)行 sim2real 和真機(jī)強(qiáng)化學(xué)習(xí)微調(diào)。

歡迎大家關(guān)注!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
價(jià)格炒到上萬元!上海年輕人入坑:一"盤"不可收拾!醫(yī)生提醒↗

價(jià)格炒到上萬元!上海年輕人入坑:一"盤"不可收拾!醫(yī)生提醒↗

極目新聞
2025-10-21 16:49:31
安徽帥哥楊高聳去世,年僅29歲高188厘米,結(jié)婚兩年,遺孀曝原因

安徽帥哥楊高聳去世,年僅29歲高188厘米,結(jié)婚兩年,遺孀曝原因

裕豐娛間說
2025-10-20 23:03:06
華為Mate80 即將上線,新設(shè)計(jì)長(zhǎng)這樣

華為Mate80 即將上線,新設(shè)計(jì)長(zhǎng)這樣

科技堡壘
2025-10-21 12:29:20
潘金蓮與西門慶連續(xù)行房15天,武大郎為何放任不管?武松心知肚明

潘金蓮與西門慶連續(xù)行房15天,武大郎為何放任不管?武松心知肚明

云端小院
2025-10-21 09:02:29
美國(guó)商務(wù)部:在美國(guó)的制裁下,中國(guó)休想制造出數(shù)量龐大的AI芯片

美國(guó)商務(wù)部:在美國(guó)的制裁下,中國(guó)休想制造出數(shù)量龐大的AI芯片

文史旺旺旺
2025-10-20 20:49:02
一年連虧三部電影,最多接近6億,巨星黃渤因何被棄

一年連虧三部電影,最多接近6億,巨星黃渤因何被棄

影視高原說
2025-10-19 08:51:50
石洵瑤挑戰(zhàn)張本美和,一場(chǎng)1:3的完勝是否預(yù)示著中國(guó)乒乓的新王者誕生?

石洵瑤挑戰(zhàn)張本美和,一場(chǎng)1:3的完勝是否預(yù)示著中國(guó)乒乓的新王者誕生?

阿晞體育
2025-10-21 16:13:05
郭艾倫回應(yīng)“血書門”:不是我?guī)ь^ 媒體靠想象報(bào)道誤導(dǎo)這么多年

郭艾倫回應(yīng)“血書門”:不是我?guī)ь^ 媒體靠想象報(bào)道誤導(dǎo)這么多年

醉臥浮生
2025-10-21 16:46:51
廣場(chǎng)舞搞出事情了!四川67歲大媽成首例HIV-2型女?dāng)y帶者,8個(gè)伴侶

廣場(chǎng)舞搞出事情了!四川67歲大媽成首例HIV-2型女?dāng)y帶者,8個(gè)伴侶

火山詩話
2025-10-21 06:45:57
反轉(zhuǎn)!阿富汗光速服軟,對(duì)美硬剛20年,為何撐不過巴鐵7小時(shí)空襲

反轉(zhuǎn)!阿富汗光速服軟,對(duì)美硬剛20年,為何撐不過巴鐵7小時(shí)空襲

井普椿的獨(dú)白
2025-10-21 11:14:55
這下,法國(guó)驚呆了,德國(guó)震驚了,就連美國(guó)都傻眼了!

這下,法國(guó)驚呆了,德國(guó)震驚了,就連美國(guó)都傻眼了!

另子維愛讀史
2025-10-20 23:32:52
明明顏值一般,卻被粉絲吹成“神顏”,這5位男星自己不臉紅嗎?

明明顏值一般,卻被粉絲吹成“神顏”,這5位男星自己不臉紅嗎?

老吳教育課堂
2025-10-21 02:58:17
臺(tái)海傳出炮聲!臺(tái)坦克已集結(jié),大陸18架次戰(zhàn)機(jī)出動(dòng),美軍機(jī)被攔截

臺(tái)海傳出炮聲!臺(tái)坦克已集結(jié),大陸18架次戰(zhàn)機(jī)出動(dòng),美軍機(jī)被攔截

李健政觀察
2025-10-20 14:01:00
茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對(duì)這5種疾病有好處,建議常吃

茼蒿立大功!醫(yī)生調(diào)查發(fā)現(xiàn):茼蒿對(duì)這5種疾病有好處,建議常吃

阿纂看事
2025-10-13 15:36:03
果然不出所料:鄭麗文想來北京的消息傳遍島內(nèi),民進(jìn)黨送她一句話

果然不出所料:鄭麗文想來北京的消息傳遍島內(nèi),民進(jìn)黨送她一句話

聞識(shí)
2025-10-21 10:15:41
楊振寧兒女定居美國(guó),無一人繼承父親衣缽,誰都沒有翁帆愛楊先生

楊振寧兒女定居美國(guó),無一人繼承父親衣缽,誰都沒有翁帆愛楊先生

書雁飛史oh
2025-10-20 20:35:03
那不勒斯2-6慘敗,孔蒂教練生涯首次單場(chǎng)被對(duì)手打進(jìn)6球

那不勒斯2-6慘敗,孔蒂教練生涯首次單場(chǎng)被對(duì)手打進(jìn)6球

懂球帝
2025-10-22 05:00:42
7~8級(jí)大風(fēng)!南昌官宣正式進(jìn)入!接下來天氣太刺激……

7~8級(jí)大風(fēng)!南昌官宣正式進(jìn)入!接下來天氣太刺激……

魯中晨報(bào)
2025-10-20 22:36:02
一紙遺囑熄了網(wǎng)端的火,別墅歸清華只給居住權(quán),翁帆的體面不是傳說

一紙遺囑熄了網(wǎng)端的火,別墅歸清華只給居住權(quán),翁帆的體面不是傳說

白淺娛樂聊
2025-10-22 03:59:30
最新!緬甸政府軍突襲KK園區(qū),發(fā)現(xiàn)2198名涉詐涉賭人員,查獲30套“星鏈”設(shè)備

最新!緬甸政府軍突襲KK園區(qū),發(fā)現(xiàn)2198名涉詐涉賭人員,查獲30套“星鏈”設(shè)備

大象新聞
2025-10-20 17:49:05
2025-10-22 05:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11524文章數(shù) 142490關(guān)注度
往期回顧 全部

科技要聞

追思楊振寧,潘建偉饒毅等首次披露哪些細(xì)節(jié)

頭條要聞

因遭洪森曝光通話錄音 佩通坦決定辭去為泰黨黨首職務(wù)

頭條要聞

因遭洪森曝光通話錄音 佩通坦決定辭去為泰黨黨首職務(wù)

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

陳柏霖已承認(rèn)逃兵役,他知道跑不掉了

財(cái)經(jīng)要聞

黃金白銀高臺(tái)跳水,什么原因?

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

時(shí)尚
本地
手機(jī)
數(shù)碼
房產(chǎn)

連衣裙+運(yùn)動(dòng)鞋,今秋最美穿法!舒適又時(shí)髦!

本地新聞

云游中國(guó)|一腳踏入萬州,才懂煙火江城的真意

手機(jī)要聞

一加15與一加Ace6:參數(shù)規(guī)格基均再被確認(rèn)!網(wǎng)友:加沖低,關(guān)鍵年

數(shù)碼要聞

綠聯(lián)NAS私有云新品DH2300發(fā)布:國(guó)補(bǔ)價(jià)854元起 支持Docker

房產(chǎn)要聞

22.95億!三亞海昌不夜城正式易主!

無障礙瀏覽 進(jìn)入關(guān)懷版 超碰在线套图| sm调教片视频在线观看| 国产一区二区大屁股| 久久九九草视频| 性色Av无码一区二区三区| 99riav国产精品视频| 青春草免费观看| 国产精品一国产精品一k频道| 国产边打电话边被躁视频| 人成乱码一区二区三区| 免费国产va在线观看| 国产一区二三区日韩精品| 日本最新免费二区三区| 国产精品久久久久久亚洲欧洲| 成人无码区免费AⅤ片www软件| 爆乳亚洲一区二区中文字幕久久| 欧美人与人动人物2020| 肉色超薄丝袜脚交一区二区| 2012国语在线看免费观看视频| 国产不卡一区二区在线视频| 加勒比中文字幕无码一区| 国产成人亚洲精品77| 农村的激情av| 色噜噜噜亚洲男人的天堂| 亚洲国产精品国语在线| 麻豆成人av不卡一二三区| 国产成人无码一区二区在线播放| 亚洲成av人片香蕉片| 国产精品青草久久福利不卡| 蜜桃av.con| 高大丰满熟妇丰满的大白屁股| 翘臀少妇被扒开屁股日出水爆乳| 久久这里只有精品18| 国语憿情少妇无码av| 中日韩欧美啪啪视频| 国产毛片久久久久久久久春天| 淫乱视频免费观看| 日韩无码丝袜人妻视频| 色噜噜人妻丝袜aV先锋影院先| 少妇人妻好深好紧精品无码| 男女18禁一区二区三区囗H毛片|