作者簡(jiǎn)介:本文第一作者為卡耐基梅隆大學(xué)機(jī)器人所研究生 Tonghe Zhang,主要研究方向?yàn)闄C(jī)器人操作大模型和全身控制算法。合作者為德克薩斯大學(xué)奧斯汀分校博士生 Sichang Su, 研究方向?yàn)閺?qiáng)化學(xué)習(xí)和通用機(jī)器人策略。指導(dǎo)教師是清華大學(xué)和北京中關(guān)村學(xué)院的 Chao Yu 教授以及清華大學(xué) Yu Wang 教授。
想要進(jìn)一步增強(qiáng)開源 VLA 模型的能力,除了增加數(shù)據(jù)多樣性,強(qiáng)化學(xué)習(xí)也是一種高度有效的方法。來自卡內(nèi)基梅隆大學(xué)、清華大學(xué)和德克薩斯大學(xué)奧斯汀分校的研究團(tuán)隊(duì)提出了一個(gè)用于微調(diào)流匹配策略的在線強(qiáng)化學(xué)習(xí)框架 ReinFlow, 該工作已被 NeurIPS 2025 接收,并開源了詳細(xì)的復(fù)現(xiàn)教程,包括代碼、訓(xùn)練權(quán)重、和訓(xùn)練結(jié)果。
- 論文標(biāo)題:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2505.22094
- 項(xiàng)目主頁:https://reinflow.github.io
- 開源資源(代碼、模型、數(shù)據(jù)、W&B 訓(xùn)練記錄)https://github.com/ReinFlow/ReinFlow
ReinFlow 的算法特點(diǎn)
- 理論基礎(chǔ):基于策略梯度理論推導(dǎo),將確定性流轉(zhuǎn)換為離散時(shí)間馬爾可夫過程,直接優(yōu)化整條流匹配鏈;
- 訓(xùn)練高效:相比 DPPO 節(jié)省 60% 以上訓(xùn)練時(shí)間,支持少步甚至單步推理;
- 實(shí)驗(yàn)驗(yàn)證:在多個(gè)基準(zhǔn)任務(wù)上相較預(yù)訓(xùn)練模型取得了顯著性能提升;
- 復(fù)現(xiàn)友好:提供完整訓(xùn)練教程、數(shù)據(jù)集、檢查點(diǎn)、WandB 指標(biāo),支持許多 legged locomotion 和 manipulation benchmark, 以及在 SimplerEnv 中使用規(guī)?;⑿蟹抡嫖⒄{(diào)模型。
ReinFlow 核心原理
ReinFlow 是一個(gè)針對(duì)常微分方程策略的通用策略梯度算法。想要進(jìn)行策略梯度優(yōu)化,首先要設(shè)法獲取動(dòng)作的邊緣概率分布 。對(duì)于流匹配模型而言,這與推理時(shí)動(dòng)作生成的機(jī)理相關(guān)。流匹配策略每一步推理時(shí)進(jìn)行了如下步驟:
如果使用流匹配的理論公式,我們可以計(jì)算流策略的最終動(dòng)作的似然函數(shù)。但是由于流匹配動(dòng)作通過積分來定義,這個(gè)方法計(jì)算相當(dāng)復(fù)雜,而且存在估計(jì)噪聲,并不適合于強(qiáng)化學(xué)習(xí)。那么有沒有辦法可以簡(jiǎn)單獲得流匹配策略推理時(shí)候的似然函數(shù)呢?其實(shí)可以, 但是要做一些小改動(dòng)
流匹配模型的推理是一個(gè)馬爾科夫過程。如果我們貯存所有的中間動(dòng)作,雖然難以獲得最終動(dòng)作的最終動(dòng)作的邊緣分布,但是可以用鏈?zhǔn)椒▌t獲得擴(kuò)散鏈條的聯(lián)合概率分布:
但是由于使用常微分方程進(jìn)行積分,預(yù)訓(xùn)練流匹配模型的每步轉(zhuǎn)移概率都是狄拉克函數(shù), 據(jù)此仍然無法導(dǎo)出數(shù)值穩(wěn)定的計(jì)算公式。因此,在 ReinFlow 中,我們向流策略的確定性路徑中注入少量可學(xué)習(xí)的噪聲,將其轉(zhuǎn)移過程改回一個(gè)隨機(jī)的擴(kuò)散過程:
其中,第一項(xiàng)是預(yù)訓(xùn)練得到的速度,對(duì)應(yīng)隨機(jī)微分方程的漂移項(xiàng);第二項(xiàng)是端到端訓(xùn)練的噪聲注入網(wǎng)絡(luò),對(duì)應(yīng)微分方程的擴(kuò)散項(xiàng)。這樣,由于相鄰擴(kuò)散步的轉(zhuǎn)移概率都是高斯分布,流匹配的聯(lián)合概率便可以被嚴(yán)格計(jì)算出來:
好消息是,我們的研究表明利用聯(lián)合概率也可以進(jìn)行策略梯度優(yōu)化。根據(jù)如下定理,我們可以使用多種經(jīng)典的策略梯度方法對(duì)流匹配策略進(jìn)行強(qiáng)化學(xué)習(xí)。
雖然引入噪聲改變了流匹配模型的軌跡,但是我們把噪聲控制到較小范圍內(nèi),以減少與預(yù)訓(xùn)練策略的偏離,防止微調(diào)時(shí)性能大幅受損。但同時(shí),我們也為噪聲設(shè)置強(qiáng)度下限,以鼓勵(lì)適當(dāng)?shù)?strong>探索。另外,ReinFlow 雖然引入了額外的噪聲網(wǎng)絡(luò),但是其參數(shù)量遠(yuǎn)小于預(yù)訓(xùn)練的速度場(chǎng),并且與之共用視覺特征:這樣可以減少微調(diào)時(shí)帶來的額外開銷。
任務(wù)評(píng)測(cè)
ReinFlow 是一個(gè)通用的框架。原理上,ReinFlow 可以適用于所有常微分方程定義的策略,比如 Rectified Flow 和 Shortcut Models,甚至支持極少步數(shù)下,如 1,2,4 步時(shí)的推理。而且,更新公式可以適用于幾乎所有強(qiáng)化學(xué)習(xí)梯度算法,比如 PPO。
足式運(yùn)動(dòng)控制
在 D4RL 足式運(yùn)動(dòng)控制任務(wù)中,ReinFlow 微調(diào)后的 Rectified Flow 策略取得了平均 135.36% 的凈性能增長(zhǎng)。與當(dāng)前的擴(kuò)散 RL 微調(diào)方法 DPPO 相比,ReinFlow 在保持類似性能的同時(shí),可以極大減少擴(kuò)散步驟,從而節(jié)省了微調(diào)所用的 82.63% 的墻鐘時(shí)間
長(zhǎng)程操作任務(wù)
在接收稀疏獎(jiǎng)勵(lì)和高維輸入的操作任務(wù)中(Franka Kitchen、Robomimic) ,ReinFlow 微調(diào)的 Shortcut Model 策略在 4 步甚至 1 步去噪的情況下,比預(yù)訓(xùn)練模型平均凈增了 40.34% 的成功率。其性能與使用 DPPO 微調(diào)的 DDIM 策略相當(dāng),但訓(xùn)練時(shí)間平均節(jié)省 23.20%
VLA + 大規(guī)模并行強(qiáng)化學(xué)習(xí)
消融實(shí)驗(yàn)
研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的消融研究,研究以下因素對(duì)訓(xùn)練結(jié)果的影響:
1. 數(shù)據(jù)擴(kuò)展 vs RL 微調(diào):實(shí)驗(yàn)顯示僅靠增加數(shù)據(jù)或推理步數(shù)較快達(dá)到性能瓶頸,而 RL 微調(diào)能進(jìn)一步提升性能。
2. 時(shí)間采樣策略:ReinFlow 對(duì)均勻、Logit-normal 和 Beta 分布等多種時(shí)間采樣方式都表現(xiàn)良好的性能。
3. 噪聲條件和大?。和瑫r(shí)以狀態(tài)和時(shí)間為條件生成噪聲,有助于產(chǎn)生更多樣化的動(dòng)作。噪聲過小訓(xùn)練會(huì)陷入瓶頸,一定閾值后可以探索的新策略。
4. 熵正則化:可以進(jìn)一步促進(jìn)探索。
保姆級(jí)開源
ReinFlow 的 GitHub 項(xiàng)目已經(jīng)全面開源,并在積極維護(hù)中。歡迎通過郵件或 GitHub 與作者交流。項(xiàng)目包含了:
完整代碼庫
- 支持 Rectified Flow、Shortcut Models 等多種流模型;
- 涵蓋 OpenAI Gym(D4RL)、Franka Kitchen、Robomimic 等多個(gè)經(jīng)典 RL 環(huán)境;
- 詳細(xì)的安裝指南和使用教程。
模型 Checkpoints
- 提供所有實(shí)驗(yàn)的預(yù)訓(xùn)練模型;
- 包含行為克隆和 RL 微調(diào)后的權(quán)重;
- 支持一鍵加載和評(píng)估。
WandB 指標(biāo)
- 公開所有實(shí)驗(yàn)的訓(xùn)練曲線(損失、獎(jiǎng)勵(lì)、學(xué)習(xí)率等);
- 可直接訪問:https://wandb.ai/reinflow/projects;
- 便于社區(qū)下載基線和本方法測(cè)試結(jié)果,進(jìn)行公平驗(yàn)證和對(duì)比。
詳盡文檔
- 完整復(fù)現(xiàn)實(shí)驗(yàn)的步驟:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
- 復(fù)現(xiàn)論文圖表的指南:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
- 關(guān)鍵超參數(shù)說明:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
- 添加自定義數(shù)據(jù)集 / 環(huán)境:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
- 常見問題解答:https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md
未來展望
ReinFlow 將在未來公布更多結(jié)果,包括:
- 發(fā)布更多大型視覺語言模型微調(diào)結(jié)果;
- 支持用在線 RL 微調(diào) Mean Flow;
- 研究如何使用該方法進(jìn)行 sim2real 和真機(jī)強(qiáng)化學(xué)習(xí)微調(diào)。
歡迎大家關(guān)注!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.