網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

突破多模態(tài)獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

2025-05-08 17:47:02　來源: 量子位

美國,猶他州舉報

分享至

R1-Reward團隊投稿
量子位 | 公眾號 QbitAI

多模態(tài)獎勵模型（MRMs）在提升多模態(tài)大語言模型（MLLMs）的表現(xiàn)中起著至關(guān)重要的作用：

在訓練階段，它可以提供穩(wěn)定的reward；
在評估階段，它可以選擇更好的sample結(jié)果；
單獨使用時，它可以直接作為evaluator；

而強化學習（RL）在理論上能夠?qū)RM引入長期推理能力，使MRM更加高效。

但如果直接把現(xiàn)有的RL算法（比如Reinforce++）用到訓練MRM上，就會出現(xiàn)很多狀況，比如，訓練過程會很不穩(wěn)定、甚至可能直接崩掉

現(xiàn)在，來自中科院自動化所、清華大學、快手和南京大學的研究團隊，在探索如何利用強化學習來穩(wěn)定、有效地提升多模態(tài)獎勵模型的長時推理能力方面，取得了新進展：

基于多模態(tài)強化學習的工作MM-RLHF（ICML 2025），進一步推出了R1-Reward模型。

在現(xiàn)有的多模態(tài)獎勵模型benchmark的基礎(chǔ)上，相比于當前最先進的SOTA模型，實現(xiàn)5%-15%的提升。

且隨著inference sampleing的數(shù)目增多還能進一步增長！

主要貢獻

1. 重新定義問題

作者把訓練獎勵模型這個問題，看成是一個基于規(guī)則的強化學習任務(wù)。簡單說，就是給獎勵模型一個問題和兩個答案，讓它通過學習來判斷哪個答案更好，并且能給出合理的分析。

2. 提出新算法StableReinforce

針對現(xiàn)有RL算法的不足，他們提出了一個改進版的算法叫StableReinforce。這個算法主要在幾個方面做了優(yōu)化：

改進了損失函數(shù)里的裁剪操作，提出了Pre-Clip，防止數(shù)值計算不穩(wěn)定。
提出了一種更穩(wěn)健的優(yōu)勢值（advantage）處理方法（叫做優(yōu)勢過濾器Advantage Filter），不容易被極端值帶偏。
設(shè)計了一個新穎的“一致性獎勵”(Consistency Reward)：它引入了另一個大模型作為“裁判”，專門檢查獎勵模型自己的分析過程和它最終給出的答案是不是一致的。如果一致，就給獎勵，這樣能促使模型做出更符合邏輯的判斷。

3. 漸進式的訓練策略

他們從各種公開數(shù)據(jù)集中收集了20萬條偏好數(shù)據(jù)，構(gòu)建了一個名為R1-Reward-200k的數(shù)據(jù)集用于訓練。
采用了一種“漸進式難度”的訓練策略。因為直接用RL訓練模型效果不好（冷啟動問題），他們先用GPT-4o對這些數(shù)據(jù)生成了詳細的思考過程，作為監(jiān)督微調(diào)（SFT）的數(shù)據(jù)，讓模型先“入門”。同時，他們記錄了GPT-4o判斷每個樣本的難度（需要嘗試幾次才能判斷對）。
在后續(xù)的強化學習階段，專門挑選那些GPT-4o都覺得比較難（需要嘗試多次或者干脆判斷錯誤）的樣本進行訓練，讓模型在難題上得到鍛煉。

4. 效果顯著

實驗結(jié)果表明，這個R1-Reward模型在幾個主流的多模態(tài)獎勵模型測評基準（如VL Reward-Bench,Multimodal Reward Bench）上表現(xiàn)非常出色，顯著超過了之前的最佳模型(SOTA)。比如在一個榜單上提升了8.4%，在另一個榜單上提升了14.3%。
更有趣的是，他們發(fā)現(xiàn)通過在推理時多做幾次計算（比如采樣5次或15次，然后投票選最多的答案），R1-Reward的性能還能進一步大幅提升，這說明RL方法在優(yōu)化獎勵模型方面潛力巨大。
他們還觀察到，經(jīng)過StableReinforce的RL訓練后，模型輸出的平均長度減少了大約15%，這意味著模型可能變得更有效率了。

現(xiàn)有強化學習方法的局限性

什么是獎勵模型

首先得知道，獎勵模型（Reward Model）是干嘛的。簡單說，它就是用來判斷兩個模型的回答，哪一個更符合人類喜好。

具體的優(yōu)化公式大概長這樣：

這里的r(y|x)就是模型打的分數(shù)，σ是個sigmoid函數(shù)，E表示求期望（平均）。意思就是，模型要盡量讓好答案的分比壞答案的分高，差距越大越好，然后通過log和sigmoid函數(shù)來計算損失。

PPO和Reinforce++算法簡介

PPO(Proximal Policy Optimization)

PPO是一種很常用的強化學習算法，屬于策略梯度方法，目標是直接優(yōu)化模型（策略）來獲得最大的累積獎勵。它的厲害之處在于——它不像傳統(tǒng)的策略梯度方法那樣，容易因為步子邁太大而導致訓練不穩(wěn)定。

PPO通過一種特殊的方式來限制每次策略更新的幅度。它的目標函數(shù)是這樣的：

這個公式的核心思想在于那個min和clip操作。它確保了就算ratio*A_t（標準的策略梯度目標）很大，也會被clip后的項限制住，防止策略更新過猛導致訓練不穩(wěn)定。

PPO因為實現(xiàn)簡單、效果好，所以在很多地方（比如機器人控制、玩游戲）都用得很廣。

Reinforce++

Reinforce++是在PPO基礎(chǔ)上做了一些優(yōu)化的版本，目的是讓訓練更穩(wěn)定、更高效。主要改進有：

加了KL散度懲罰：在獎勵函數(shù)里加入了一項，用來懲罰強化學習模型（RL model）和監(jiān)督微調(diào)模型（SFT model）在每個詞（token）上的輸出概率分布差異過大。獎勵函數(shù)變成了類似這樣：。這里表示只有在生成結(jié)束符時才加上原始的任務(wù)獎勵，是那個KL懲罰項。
獎勵和優(yōu)勢的歸一化：它會對整個批次（batch）的獎勵進行歸一化、裁剪和縮放，還對優(yōu)勢值A(chǔ)進行歸一化：（減去均值，再除以標準差）。

在很多研究中，Reinforce++都比GRPO更穩(wěn)定、比PPO收斂更快。

PPO/Reinforce++的問題在哪？

雖然PPO和Reinforce++不錯，但在實際訓練中，尤其是在訓練獎勵模型的時候，研究者們發(fā)現(xiàn)它們有兩個核心問題，很容易讓模型訓練不穩(wěn)定甚至失?。?/p>

訓練損失導致的不穩(wěn)定
計算PPO損失時，需要算那個概率比值ratio。如果新舊策略差別很大，這個ratio可能會變得非常大或非常小。
在代碼實現(xiàn)里（比如用PyTorch），通常是算ratio = torch.exp(log_probs - old_log_probs)。如果log_probs - old_log_probs這個差值很大，exp()運算可能會導致數(shù)值溢出，直接讓程序崩潰。
就算沒崩潰，如果算出來的ratio很大，并且優(yōu)勢A_t是負的（表示這個動作不好），那么根據(jù)PPO的損失公式，這個損失值可能會變得異常大。這么大的損失會讓模型的參數(shù)更新變得極其不穩(wěn)定。
優(yōu)勢歸一化導致的不穩(wěn)定
獎勵模型的訓練數(shù)據(jù)標簽通常很簡單，比如就兩個標簽：1和2（1好還是2更好）。模型比較容易學會區(qū)分。
這就導致在訓練后期，一個批次（batch）里的數(shù)據(jù)，模型可能大部分都能預測對。比如一個batch里有255個樣本的真實獎勵是1，只有1個是0。
在這種情況下，獎勵的方差會非常小。如果這時候還用標準的優(yōu)勢歸一化方法（減均值除以標準差），那個獎勵為0的樣本對應(yīng)的優(yōu)勢值，在歸一化之后可能會變成一個絕對值非常大的數(shù)（例子中是-15.96）。
這么大的優(yōu)勢值同樣會干擾模型的更新，導致訓練不穩(wěn)定。

總的來說，就是直接把PPO或者Reinforce++用在獎勵模型訓練上，會因為損失計算和優(yōu)勢歸一化這兩個環(huán)節(jié)內(nèi)在的問題，在高效率訓練或者訓練后期特定數(shù)據(jù)分布下，引發(fā)數(shù)值不穩(wěn)定，最終影響模型效果。

StableReinforce提升訓練穩(wěn)定性

1.Pre-CLIP策略

為了減小大比例差異的影響，Pre-CLIP策略會在計算對數(shù)概率的指數(shù)值之前對比例進行裁剪。通過在應(yīng)用指數(shù)函數(shù)前裁剪log-πθ/πθold的比例，可以避免由于比例差異過大而導致的溢出問題，并緩解負優(yōu)勢情況下的大對數(shù)差異。裁剪后的公式為：

其中，

分別為允許的最小和最大比例限制（上面的偽代碼會更清晰一些（algorithm 1））。

2.Advantage Filter策略

為了避免由于優(yōu)勢分布的極端不平衡對訓練帶來的影響，文章采用了3-sigma規(guī)則（即保留標準化優(yōu)勢在[-3, 3]范圍內(nèi)的樣本）。公式為：

標準化后的優(yōu)勢

通過公式

計算，其中

分別為優(yōu)勢分布的均值和標準差。

結(jié)合了Pre-CLIP和優(yōu)勢過濾器，最終用來優(yōu)化的目標函數(shù)長得有點像常用的PPO算法的目標函數(shù)，但有所修改：

R1-Reward

將MRM轉(zhuǎn)化為強化學習問題

首先使用下面的prompt，將獎勵建模問題轉(zhuǎn)化為rule-based的強化學習問題：

近期follow deepseek-r1工作的方法基本上都是格式獎勵+結(jié)果獎勵，但是在獎勵模型訓練過程中，這存在著一致性問題：即只用上面兩個獎勵時，模型有時會“精神分裂”：

分析部分（

）明明說回答2更好，但最后卻輸出。因此本文引入了一個額外的“裁判”模型（文中用了Qwen2.5-VL-7B-Instruct）。這個裁判專門負責檢查獎勵模型自己輸出的分析內(nèi)容，看它是不是真的支持最終給出的那個答案。

獎勵函數(shù)設(shè)計：文章提出了三種獎勵函數(shù)

格式獎勵：要求模型的輸出符合指定的格式，即‘ ’，鼓勵模型在給出最終答案之前先進行推理，以提高內(nèi)容的質(zhì)量和可解釋性。
結(jié)果獎勵：模型最終生成的答案必須與人類專家的偏好一致。
一致性獎勵：確保推理過程與最終答案一致，即模型的最終結(jié)果應(yīng)當直接源自其推理過程，而不是與推理步驟無關(guān)的生成內(nèi)容。
最終獎勵計算：為了解決可能出現(xiàn)的一致性獎勵過度偏重的問題，最終的獎勵計算公式為：

這樣的設(shè)計好在Consistency Reward的加成效果（乘以0.5再加1）只有在Result Reward大于0（也就是答案選對）的時候才能真正起作用。如果答案選錯了，Result Reward通常是0或者負數(shù)，那么一致性獎勵就不會帶來正向激勵（或者激勵很?。?，從而確保模型首要目標還是把答案選對。格式獎勵作為一個基礎(chǔ)分被加上去。

“長思考鏈”的冷啟動問題(Long-CoT Cold Start)

多模態(tài)大模型（MLLMs）本身并不是為做獎勵模型這種“評價比較”任務(wù)而設(shè)計的，所以直接用強化學習去訓練它們，效果通常很差而且不穩(wěn)定，因此本文先進行了一輪監(jiān)督微調(diào)。

做法：讓GPT-4o對R1-Reward-200k數(shù)據(jù)集里的每一條數(shù)據(jù)，都按照Table 1里的提示模板，生成標準的“分析過程”和“最終答案”。生成時設(shè)置temperature=1（讓輸出更發(fā)散），并且最多嘗試3次，直到生成的答案和真實標簽一致。

記錄難度：同時，他們還記錄了GPT-4o需要嘗試幾次才能生成正確答案，把這個次數(shù)作為樣本“難度”的指標。

目的：這個SFT階段就像是給模型“預習”。通過模仿GPT-4o的輸出，先讓模型學會任務(wù)的基本格式和流程，熟悉這個獎勵建模任務(wù)應(yīng)該怎么做。

強化學習（RL）訓練數(shù)據(jù)的篩選

篩選標準：在進行真正的強化學習訓練時，并不是用SFT階段的所有數(shù)據(jù)。研究人員專門挑選了那些被認為是“更難”的樣本。
具體來源
在SFT階段，那些GPT-4o需要嘗試2次或3次才能給出正確答案的樣本。
以及那些GPT-4o嘗試了3次仍然沒能給出正確答案的樣本。

研究人員認為，這些樣本通常意味著兩個回答之間的差別更小，更難判斷優(yōu)劣。用這些“硬骨頭”來訓練模型進行強化學習，可以更有效地提升模型辨別細微差異的能力。

有趣的實驗發(fā)現(xiàn)

研究人員通過一系列實驗來驗證他們提出的R1-Reward模型和StableReinforce算法的效果，得到了一些挺有意思的結(jié)果：

R1-Reward效果拔群

在好幾個主流的多模態(tài)獎勵模型排行榜（比如VLReward Bench, Multimodal Reward Bench, MM-RLHF-Reward Bench）上，R1-Reward的表現(xiàn)都非常亮眼，平均準確率顯著超過了之前最好的開源模型（比如IXC-2.5-Reward）。

Test-Time Scaling

他們嘗試在評價的時候，讓R1-Reward模型對同一個問題輸出好幾個判斷結(jié)果（比如輸出5次或15次），然后采取少數(shù)服從多數(shù)（投票）的方式來決定最終哪個答案更好。

結(jié)果發(fā)現(xiàn)，這種簡單的“投票”策略能大幅提升R1-Reward的準確率。比如在MM-RLHF這個比較難的榜單上，投票5次就能把準確率從大約71%提升到85.3%，投票15次更是達到86.47%，遠超其他模型。

更有意思的是，他們還試了另一種策略叫“Any Correct”，就是只要模型輸出的K次結(jié)果里有一次是正確的，就算對。結(jié)果發(fā)現(xiàn)，當K=15時，這種策略的準確率幾乎接近100%！這暗示R1-Reward其實有潛力完美區(qū)分所有樣本，只是需要更多的數(shù)據(jù)或更好的訓練策略來完全激發(fā)出來。

aha Moment

通過SFT和RL訓練，R1-Reward不僅學會了如何評價兩個回答，還自主地學習到了一套分析流程：先明確目標、分析圖像、嘗試解決問題、給出答案，然后基于這個過程去評價兩個外部給定的回答。

更有趣的是，模型展示出了類似人類的反思和糾錯能力。比如在上圖中，模型自己計算時出錯了，但在檢查圖表后，意識到了錯誤并重新計算得到了正確結(jié)果。這說明模型不僅僅是在模仿，還在學習某種程度的自我檢查和修正機制。

經(jīng)過強化學習訓練后，模型輸出的分析內(nèi)容的平均長度還減少了約15%，說明模型可能變得更“言簡意賅”，推理效率提高了。

結(jié)論

本文介紹了R1-Reward，這是一種使用StableReinforce算法訓練的多模態(tài)獎勵模型（MRM）。通過實驗，本文證明了強化學習（RL）在獎勵建模中的有效應(yīng)用，顯著提升了模型的表現(xiàn)。R1-Reward解決了多個關(guān)鍵問題，包括訓練不穩(wěn)定、優(yōu)勢歸一化限制以及推理和結(jié)果之間的不一致性。通過引入Pre-Clipping、優(yōu)勢過濾、一致性獎勵以及漸進式訓練策略，StableReinforce算法有效穩(wěn)定了訓練過程并提升了模型性能。

實驗結(jié)果表明，R1-Reward在多個多模態(tài)獎勵模型基準上超越了現(xiàn)有最先進的模型（SOTA），在準確率和數(shù)據(jù)效率方面取得了顯著進展。此外，R1-Reward還展示了優(yōu)秀的推理時擴展能力，為未來將強化學習融入多模態(tài)獎勵模型（MRM）的研究奠定了基礎(chǔ)。

展望未來，RL在獎勵建模中的應(yīng)用仍有許多值得探索的方向。例如，本文僅測試了簡單的多數(shù)投票策略用于推理時擴展，未來可能通過更先進的方法進一步提升性能。此外，改進訓練策略以進一步增強獎勵模型的基礎(chǔ)能力，也是一個有意義的開放性問題。

論文鏈接：
https://arxiv.org/abs/2505.02835
https://github.com/yfzhang114/r1_reward
https://huggingface.co/yifanzhang114/R1-Reward

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.