網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

NeurIPS 2025 | CMU、清華、UTAustin開源ReinFlow

2025-10-20 17:55:09　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

作者簡(jiǎn)介：本文第一作者為卡耐基梅隆大學(xué)機(jī)器人所研究生 Tonghe Zhang，主要研究方向?yàn)闄C(jī)器人操作大模型和全身控制算法。合作者為德克薩斯大學(xué)奧斯汀分校博士生 Sichang Su, 研究方向?yàn)閺?qiáng)化學(xué)習(xí)和通用機(jī)器人策略。指導(dǎo)教師是清華大學(xué)和北京中關(guān)村學(xué)院的 Chao Yu 教授以及清華大學(xué) Yu Wang 教授。

想要進(jìn)一步增強(qiáng)開源 VLA 模型的能力，除了增加數(shù)據(jù)多樣性，強(qiáng)化學(xué)習(xí)也是一種高度有效的方法。來自卡內(nèi)基梅隆大學(xué)、清華大學(xué)和德克薩斯大學(xué)奧斯汀分校的研究團(tuán)隊(duì)提出了一個(gè)用于微調(diào)流匹配策略的在線強(qiáng)化學(xué)習(xí)框架 ReinFlow，該工作已被 NeurIPS 2025 接收，并開源了詳細(xì)的復(fù)現(xiàn)教程，包括代碼、訓(xùn)練權(quán)重、和訓(xùn)練結(jié)果。

論文標(biāo)題：ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
論文鏈接：https://arxiv.org/abs/2505.22094
項(xiàng)目主頁：https://reinflow.github.io
開源資源（代碼、模型、數(shù)據(jù)、W&B 訓(xùn)練記錄）https://github.com/ReinFlow/ReinFlow

ReinFlow 的算法特點(diǎn)

理論基礎(chǔ)：基于策略梯度理論推導(dǎo)，將確定性流轉(zhuǎn)換為離散時(shí)間馬爾可夫過程，直接優(yōu)化整條流匹配鏈；
訓(xùn)練高效：相比 DPPO 節(jié)省 60% 以上訓(xùn)練時(shí)間，支持少步甚至單步推理；
實(shí)驗(yàn)驗(yàn)證：在多個(gè)基準(zhǔn)任務(wù)上相較預(yù)訓(xùn)練模型取得了顯著性能提升；
復(fù)現(xiàn)友好：提供完整訓(xùn)練教程、數(shù)據(jù)集、檢查點(diǎn)、WandB 指標(biāo)，支持許多 legged locomotion 和 manipulation benchmark，以及在 SimplerEnv 中使用規(guī)?；⑿蟹抡嫖⒄{(diào)模型。

ReinFlow 核心原理

ReinFlow 是一個(gè)針對(duì)常微分方程策略的通用策略梯度算法。想要進(jìn)行策略梯度優(yōu)化，首先要設(shè)法獲取動(dòng)作的邊緣概率分布。對(duì)于流匹配模型而言，這與推理時(shí)動(dòng)作生成的機(jī)理相關(guān)。流匹配策略每一步推理時(shí)進(jìn)行了如下步驟：

如果使用流匹配的理論公式，我們可以計(jì)算流策略的最終動(dòng)作的似然函數(shù)。但是由于流匹配動(dòng)作通過積分來定義，這個(gè)方法計(jì)算相當(dāng)復(fù)雜，而且存在估計(jì)噪聲，并不適合于強(qiáng)化學(xué)習(xí)。那么有沒有辦法可以簡(jiǎn)單獲得流匹配策略推理時(shí)候的似然函數(shù)呢？其實(shí)可以，但是要做一些小改動(dòng)

流匹配模型的推理是一個(gè)馬爾科夫過程。如果我們貯存所有的中間動(dòng)作，雖然難以獲得最終動(dòng)作的最終動(dòng)作的邊緣分布，但是可以用鏈?zhǔn)椒▌t獲得擴(kuò)散鏈條的聯(lián)合概率分布：

但是由于使用常微分方程進(jìn)行積分，預(yù)訓(xùn)練流匹配模型的每步轉(zhuǎn)移概率都是狄拉克函數(shù)，據(jù)此仍然無法導(dǎo)出數(shù)值穩(wěn)定的計(jì)算公式。因此，在 ReinFlow 中，我們向流策略的確定性路徑中注入少量可學(xué)習(xí)的噪聲，將其轉(zhuǎn)移過程改回一個(gè)隨機(jī)的擴(kuò)散過程：

其中，第一項(xiàng)是預(yù)訓(xùn)練得到的速度，對(duì)應(yīng)隨機(jī)微分方程的漂移項(xiàng)；第二項(xiàng)是端到端訓(xùn)練的噪聲注入網(wǎng)絡(luò)，對(duì)應(yīng)微分方程的擴(kuò)散項(xiàng)。這樣，由于相鄰擴(kuò)散步的轉(zhuǎn)移概率都是高斯分布，流匹配的聯(lián)合概率便可以被嚴(yán)格計(jì)算出來：

好消息是，我們的研究表明利用聯(lián)合概率也可以進(jìn)行策略梯度優(yōu)化。根據(jù)如下定理，我們可以使用多種經(jīng)典的策略梯度方法對(duì)流匹配策略進(jìn)行強(qiáng)化學(xué)習(xí)。

雖然引入噪聲改變了流匹配模型的軌跡，但是我們把噪聲控制到較小范圍內(nèi)，以減少與預(yù)訓(xùn)練策略的偏離，防止微調(diào)時(shí)性能大幅受損。但同時(shí)，我們也為噪聲設(shè)置強(qiáng)度下限，以鼓勵(lì)適當(dāng)?shù)?strong>探索。另外，ReinFlow 雖然引入了額外的噪聲網(wǎng)絡(luò)，但是其參數(shù)量遠(yuǎn)小于預(yù)訓(xùn)練的速度場(chǎng)，并且與之共用視覺特征：這樣可以減少微調(diào)時(shí)帶來的額外開銷。

任務(wù)評(píng)測(cè)

ReinFlow 是一個(gè)通用的框架。原理上，ReinFlow 可以適用于所有常微分方程定義的策略，比如 Rectified Flow 和 Shortcut Models，甚至支持極少步數(shù)下，如 1,2,4 步時(shí)的推理。而且，更新公式可以適用于幾乎所有強(qiáng)化學(xué)習(xí)梯度算法，比如 PPO。

足式運(yùn)動(dòng)控制

在 D4RL 足式運(yùn)動(dòng)控制任務(wù)中，ReinFlow 微調(diào)后的 Rectified Flow 策略取得了平均 135.36% 的凈性能增長(zhǎng)。與當(dāng)前的擴(kuò)散 RL 微調(diào)方法 DPPO 相比，ReinFlow 在保持類似性能的同時(shí)，可以極大減少擴(kuò)散步驟，從而節(jié)省了微調(diào)所用的 82.63% 的墻鐘時(shí)間

長(zhǎng)程操作任務(wù)

在接收稀疏獎(jiǎng)勵(lì)和高維輸入的操作任務(wù)中（Franka Kitchen、Robomimic) ，ReinFlow 微調(diào)的 Shortcut Model 策略在 4 步甚至 1 步去噪的情況下，比預(yù)訓(xùn)練模型平均凈增了 40.34% 的成功率。其性能與使用 DPPO 微調(diào)的 DDIM 策略相當(dāng)，但訓(xùn)練時(shí)間平均節(jié)省 23.20%

VLA + 大規(guī)模并行強(qiáng)化學(xué)習(xí)

消融實(shí)驗(yàn)

研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究，研究以下因素對(duì)訓(xùn)練結(jié)果的影響：

1. 數(shù)據(jù)擴(kuò)展 vs RL 微調(diào)：實(shí)驗(yàn)顯示僅靠增加數(shù)據(jù)或推理步數(shù)較快達(dá)到性能瓶頸，而 RL 微調(diào)能進(jìn)一步提升性能。

2. 時(shí)間采樣策略：ReinFlow 對(duì)均勻、Logit-normal 和 Beta 分布等多種時(shí)間采樣方式都表現(xiàn)良好的性能。

3. 噪聲條件和大?。和瑫r(shí)以狀態(tài)和時(shí)間為條件生成噪聲，有助于產(chǎn)生更多樣化的動(dòng)作。噪聲過小訓(xùn)練會(huì)陷入瓶頸，一定閾值后可以探索的新策略。

4. 熵正則化：可以進(jìn)一步促進(jìn)探索。

保姆級(jí)開源

ReinFlow 的 GitHub 項(xiàng)目已經(jīng)全面開源，并在積極維護(hù)中。歡迎通過郵件或 GitHub 與作者交流。項(xiàng)目包含了：

完整代碼庫

支持 Rectified Flow、Shortcut Models 等多種流模型；
涵蓋 OpenAI Gym（D4RL)、Franka Kitchen、Robomimic 等多個(gè)經(jīng)典 RL 環(huán)境；
詳細(xì)的安裝指南和使用教程。

模型 Checkpoints

提供所有實(shí)驗(yàn)的預(yù)訓(xùn)練模型；
包含行為克隆和 RL 微調(diào)后的權(quán)重；
支持一鍵加載和評(píng)估。

WandB 指標(biāo)

公開所有實(shí)驗(yàn)的訓(xùn)練曲線（損失、獎(jiǎng)勵(lì)、學(xué)習(xí)率等）；
可直接訪問：https://wandb.ai/reinflow/projects；
便于社區(qū)下載基線和本方法測(cè)試結(jié)果，進(jìn)行公平驗(yàn)證和對(duì)比。

詳盡文檔

完整復(fù)現(xiàn)實(shí)驗(yàn)的步驟：https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
復(fù)現(xiàn)論文圖表的指南：https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
關(guān)鍵超參數(shù)說明：https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
添加自定義數(shù)據(jù)集 / 環(huán)境：https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
常見問題解答：https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md

未來展望

ReinFlow 將在未來公布更多結(jié)果，包括：

發(fā)布更多大型視覺語言模型微調(diào)結(jié)果；
支持用在線 RL 微調(diào) Mean Flow；
研究如何使用該方法進(jìn)行 sim2real 和真機(jī)強(qiáng)化學(xué)習(xí)微調(diào)。

歡迎大家關(guān)注！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.