大模型在強化學(xué)習(xí)過程中,終于知道什么經(jīng)驗更寶貴了!
來自上海人工智能實驗室、澳門大學(xué)、南京大學(xué)和香港中文大學(xué)的研究團隊,最近提出了一套經(jīng)驗管理和學(xué)習(xí)框架ExGRPO——
通過科學(xué)地識別、存儲、篩選和學(xué)習(xí)有價值的經(jīng)驗,讓大模型在優(yōu)化推理能力的道路上,走得更穩(wěn)、更快、更遠(yuǎn)。
實驗結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗證獎勵的強化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。
尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。
而且該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。
不過在展開之前,我們先來回答一個核心問題——
大模型推理的下一步,為什么我們需要“經(jīng)驗驅(qū)動”的訓(xùn)練方法?
2025年初以來,賦能大模型推理能力的技術(shù)路線以基于可驗證獎勵的強化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards)為主導(dǎo)。
簡單來說,就是讓模型像個學(xué)生一樣,不斷地“刷題”(生成推理步驟),然后由“判卷老師”(獎勵模型)來打分,模型根據(jù)分?jǐn)?shù)高低調(diào)整自己的“解題思路”。
但RLVR存在一個天然缺陷:經(jīng)驗浪費。
在標(biāo)準(zhǔn)的RLVR訓(xùn)練中,模型生成的推理軌跡(Rollouts)只會被使用一次,之后就被丟棄。這意味著模型從來不會回頭復(fù)盤,甚至不記得自己是如何答對或答錯的。
以現(xiàn)實世界作比,它們像一個只做新題、從不復(fù)習(xí)的學(xué)生。每當(dāng)模型做完一道題,無論這道題的解法多么精妙、多么有啟發(fā)性,都可能都會在一次參數(shù)更新后,把這次寶貴的“解題經(jīng)驗”忘得一干二凈。
這種“學(xué)完就忘”的模式,由于Rollout代價昂貴不僅導(dǎo)致了計算資源浪費,也讓訓(xùn)練過程變得非常不穩(wěn)定。
因此,學(xué)會“溫故而知新”,讓模型根據(jù)“錯題本”,把每一次寶貴的成功經(jīng)驗都內(nèi)化為自己的能力對訓(xùn)練效率和能力提升都至關(guān)重要。
值得注意的是,強化學(xué)習(xí)著名學(xué)者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:
- 人類數(shù)據(jù)正在用盡,經(jīng)驗將是下一個超級數(shù)據(jù)源,是能夠為AI帶來能力提升的下一個突破口。
但是,一個看似簡單卻被忽視的問題是:
既然經(jīng)驗這么重要,那么什么樣的經(jīng)驗才值得反復(fù)學(xué)習(xí)?在大模型全面鋪開應(yīng)用的當(dāng)下,面對經(jīng)驗這個超級數(shù)據(jù)源的增長,其量級和高復(fù)雜性之高是我們不得不考慮的因素。
針對這一挑戰(zhàn),ExGRPO框架應(yīng)運而生。
圖1. 主流人工智能范式的簡要時間軸示意圖。縱軸表示該領(lǐng)域總投入和計算資源中專注于強化學(xué)習(xí)(RL)的比例。截取自David Silver, Richard S. Sutton. Welcome to the Era of Experience.
什么樣的“經(jīng)驗”才是好經(jīng)驗?
在設(shè)計一個“復(fù)習(xí)”系統(tǒng)前,我們首先要搞清楚一個根本問題:
對一個正在學(xué)習(xí)推理的模型來說,什么樣的“解題經(jīng)驗”才是最有價值的?是不是所有做對的題目都值得反復(fù)回味?
為了找到答案,該工作進行了一系列有趣的探索性實驗(見圖2),并發(fā)現(xiàn),一份“高質(zhì)量”的經(jīng)驗,其價值體現(xiàn)在兩個關(guān)鍵維度上:問題的難度和解題路徑的質(zhì)量。
問題的甜蜜點:中等難度的問題
作者把模型在訓(xùn)練中遇到的問題,根據(jù)它當(dāng)下的“正確率”動態(tài)地分成了三類:簡單題(正確率>75%)、中等題(25%-75%)和難題(<25%)。
然后,分別只用這三類問題來進行On-Policy RLVR訓(xùn)練模型。
結(jié)果一目了然:只刷“中等難度”問題的模型,最終性能提升最大。
這也符合一般直覺,簡單題模型通常已經(jīng)掌握了,反復(fù)練習(xí)邊際效益遞減,容易“學(xué)廢”;對于難題,遠(yuǎn)超模型當(dāng)前能力,強行學(xué)習(xí)容易讓模型“受挫”,產(chǎn)生胡亂猜測的壞習(xí)慣。
而中等難度的題恰好處于模型的最近發(fā)展區(qū),既有挑戰(zhàn)性,又能通過努力解決,是學(xué)習(xí)效率最高的甜蜜點。
解題路徑的“自信度”:低熵軌跡
另一方面,同樣是做對一道題,解題過程(下文也稱為軌跡)的質(zhì)量也千差萬別。
有的解法思路清晰、一步到位;有的則繞來繞去、充滿了不確定性,甚至可能是蒙對的。如何量化這種解題思路的質(zhì)量呢?
外部的強模型也許是一個選擇,但是在訓(xùn)練中使用代價過高并且會拖慢速度。
為了找到可靠的在線代理指標(biāo),作者以較強能力的Qwen3-32B模型作為參考:評價推理過程的對錯,并看看有沒有內(nèi)源性的在線指標(biāo)能夠和外部Judge的判斷正相關(guān)。
在此,作者發(fā)現(xiàn)推理軌跡的Token平均熵是一個優(yōu)秀的指標(biāo),在所有做對的題目中,那些推理過程邏輯更正確的解法,其對應(yīng)的熵值顯著更低。
進一步地,高熵軌跡很多時候只是幸運的瞎猜,反復(fù)學(xué)習(xí)這些軌跡不僅沒有幫助,反而可能污染模型的邏輯能力。
圖2:模型經(jīng)驗=問題+對應(yīng)推理過程。什么才是“好問題”和“好推理過程”? (a) 使用中等難度問題訓(xùn)練的模型性能最佳。(b) 邏輯正確的推理過程通常表現(xiàn)出更低的熵值。 (c) 中等難度推理正確的熵值也更密集于低熵值區(qū)域。
這樣符合我們的認(rèn)知直覺:在人類學(xué)習(xí)中,難度適中的題目、邏輯清晰的解法,往往是最高效的學(xué)習(xí)材料。太簡單的題目讓人停滯不前,太難的題目則令人無從下手。
ExGRPO框架: 為模型打造的“高價值錯題本+溫習(xí)系統(tǒng)”
基于上述洞見,作者設(shè)計了ExGRPO框架,包含了兩個核心部件:經(jīng)驗管理和混合經(jīng)驗優(yōu)化。
△圖3:ExGRPO框架概覽:經(jīng)驗管理 + 策略優(yōu)化
經(jīng)驗管理:精挑細(xì)選,分類歸檔
作者將模型經(jīng)驗定義為問題+對應(yīng)推理過程,分兩個層級進行經(jīng)驗的管理和挑選,具體它分為三步:
1、經(jīng)驗收集:ExGRPO會建立一個“經(jīng)驗回放池”,像一個巨大的“錯題本”,專門收集模型在訓(xùn)練過程中所有成功的推理案例。這也是傳統(tǒng)強化學(xué)習(xí)和先前相關(guān)工作中均擁有的基礎(chǔ)機制。
2、經(jīng)驗劃分與存儲:根據(jù)每個問題最新的“在線正確率”,將經(jīng)驗池中的問題動態(tài)地劃分到不同的“難度分區(qū)”里。這就像給錯題本按章節(jié)和難度進行分類。這樣,所有經(jīng)驗都被貼上了“簡單”、“中等”、“困難”的標(biāo)簽,管理起來一目了然。
同時,為了防止模型在簡單問題上“刷分”而產(chǎn)生過擬合,ExGRPO還擁有一個“退休機制”(Retired Set),將模型已經(jīng)完全掌握(例如連續(xù)多次全部成功解答)的問題移出學(xué)習(xí)隊列,讓模型始終聚焦于更具挑戰(zhàn)性的任務(wù)。
3、經(jīng)驗篩選:按照之前分析實驗得到的啟示和洞見,ExGRPO從兩個層次挑選經(jīng)驗:
- 問題篩選:利用高斯分布概率模型,有偏地優(yōu)先從中等難度的分組中抽取問題。這樣能確保模型總是在學(xué)習(xí)效率最高的甜蜜點上。
- 軌跡篩選:對于選出的問題,如果它歷史上有多個成功解法,只挑選出當(dāng)前模型看來熵最低的那一個,也就是最篤定清晰的那個解法。
通過這套精細(xì)化管理,確保了每次復(fù)習(xí)的都是最高質(zhì)量的黃金經(jīng)驗。
混合策略優(yōu)化目標(biāo):溫故而知新
選好了復(fù)習(xí)材料,接下來就是如何復(fù)習(xí)經(jīng)驗了。
ExGRPO采用了一種混合策略的優(yōu)化目標(biāo),除了對重要性采樣進行修正外,在每一次訓(xùn)練迭代中,Mini-Batch中一部分計算資源用于讓模型探索全新的問題(On-policy),另一部分則用于學(xué)習(xí)從經(jīng)驗池中精心篩選出的經(jīng)驗(Off-policy)。
巧妙地平衡了探索新知(On-Policy Exploration)和復(fù)習(xí)舊識(Experience Exploitation)。
圖4:ExGRPO混合策略優(yōu)化目標(biāo)。ρ代表經(jīng)驗在Mini-Batch優(yōu)化中的混合比例。
這種“一半時間學(xué)新,一半時間復(fù)習(xí)”的模式,讓模型既能不斷拓展認(rèn)知邊界,又能持續(xù)鞏固和內(nèi)化已有的成功經(jīng)驗,從而在保證訓(xùn)練穩(wěn)定性的同時,極大地提升了學(xué)習(xí)效率。
此外,作者還引入了策略塑形(Policy Shaping)機制,確保模型在復(fù)習(xí)過往成功經(jīng)驗時,不會變得過于僵化,喪失探索創(chuàng)新的能力。
ExGRPO實驗結(jié)果和分析:更強、更穩(wěn)、更高效
作者在6個不同規(guī)模(1.5B到8B)和架構(gòu)(Qwen、Llama)的模型(Base、Instruct)上,對ExGRPO進行了全面的測試,涵蓋了從AIME、MATH等數(shù)學(xué)推理的 benchmark,到GPQA、MMLU-Pro等通用推理benchmark。
與傳統(tǒng)的在線策略RLVR方法相比,平均所有模型和測試集,ExGRPO相對于On-Policy方法(Dr. GRPO),分別帶來了+3.5和+7.6個點的分布內(nèi)、分布外性能提升。
尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。
△表1:ExGRPO在多個數(shù)學(xué)與通用推理基準(zhǔn)上的性能表現(xiàn)
△圖5:ExGRPO在不同模型架構(gòu)和尺寸上的泛化能力
- 賦能強模型
即使是在已經(jīng)很強的模型(如經(jīng)過外部R1軌跡數(shù)據(jù)作為RLVR引導(dǎo)的LUFFY)上進行持續(xù)學(xué)習(xí),ExGRPO依然能帶來穩(wěn)定的性能增益,而標(biāo)準(zhǔn)的在線RL方法反而會導(dǎo)致性能下降。
- “救活”弱模型
此外,作者發(fā)現(xiàn)對于像Llama-3.1 8B Base基模,由于其初始推理能力較弱,標(biāo)準(zhǔn)的On-Policy強化學(xué)習(xí)方法根本無法進行有效訓(xùn)練,很快就會訓(xùn)練崩潰。
而ExGRPO憑借其經(jīng)驗回放機制,能夠捕捉到早期偶然的lucky hits,并將其作為寶貴的學(xué)習(xí)信號反復(fù)利用,最終成功地將模型“救活”并穩(wěn)定地提升其性能。
圖6:在Llama-3.1 8B訓(xùn)練過程中On-Policy與ExGRPO的學(xué)習(xí)動態(tài)對比。ExGRPO能夠穩(wěn)定訓(xùn)練并獲得更高的獎勵,而On-Policy則容易出現(xiàn)訓(xùn)練崩潰。
此外,該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。高熵的經(jīng)驗中,經(jīng)常包含著一些看似正確但邏輯上有瑕疵的步驟(比如在數(shù)學(xué)題里濫用代碼塊來黑箱計算)。
如果讓模型反復(fù)學(xué)習(xí)這些經(jīng)驗,就會像滾雪球一樣,讓錯誤的推理習(xí)慣根深蒂固。ExGRPO的經(jīng)驗篩選機制,切斷了這種錯誤學(xué)習(xí)的路徑。
迎接“經(jīng)驗即媒介”的AI新時代
正如強化學(xué)習(xí)領(lǐng)域的先驅(qū)David Silver和Richard Sutton所言:
- 我們正處于一個新時期的風(fēng)口浪尖,在這個時期,經(jīng)驗將成為能力提升的主要媒介。
團隊表示,ExGRPO的核心貢獻,是為模型推理能力的提升,提供了一套系統(tǒng)性的、基于經(jīng)驗的學(xué)習(xí)框架。有理由相信, Principled Experience Management(有原則的經(jīng)驗管理)將成為未來構(gòu)建更強大、更高效的AI模型訓(xùn)練生態(tài)中的關(guān)鍵一環(huán)。
它不再讓寶貴的成功經(jīng)驗付諸東流,而是通過智能地識別、管理和重放高價值經(jīng)驗,像錯題本一般,讓模型真正擁有了“溫故而知新”的能力。
這不僅顯著提升了訓(xùn)練的效率和穩(wěn)定性,也為我們打開了通往更強大、更通用的人工智能的一扇新窗。
論文:https://arxiv.org/pdf/2510.02245
Code:https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO
模型:https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.