夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型推理學(xué)習(xí)新范式!ExGRPO框架:從盲目刷題到聰明復(fù)盤

0
分享至

大模型在強化學(xué)習(xí)過程中,終于知道什么經(jīng)驗更寶貴了!

來自上海人工智能實驗室、澳門大學(xué)、南京大學(xué)和香港中文大學(xué)的研究團隊,最近提出了一套經(jīng)驗管理和學(xué)習(xí)框架ExGRPO——

通過科學(xué)地識別、存儲、篩選和學(xué)習(xí)有價值的經(jīng)驗,讓大模型在優(yōu)化推理能力的道路上,走得更穩(wěn)、更快、更遠(yuǎn)。



實驗結(jié)果顯示,與傳統(tǒng)的在線策略RLVR(基于可驗證獎勵的強化學(xué)習(xí))方法相比,ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

而且該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。

不過在展開之前,我們先來回答一個核心問題——

大模型推理的下一步,為什么我們需要“經(jīng)驗驅(qū)動”的訓(xùn)練方法?

2025年初以來,賦能大模型推理能力的技術(shù)路線以基于可驗證獎勵的強化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards)為主導(dǎo)。

簡單來說,就是讓模型像個學(xué)生一樣,不斷地“刷題”(生成推理步驟),然后由“判卷老師”(獎勵模型)來打分,模型根據(jù)分?jǐn)?shù)高低調(diào)整自己的“解題思路”。

但RLVR存在一個天然缺陷:經(jīng)驗浪費。

在標(biāo)準(zhǔn)的RLVR訓(xùn)練中,模型生成的推理軌跡(Rollouts)只會被使用一次,之后就被丟棄。這意味著模型從來不會回頭復(fù)盤,甚至不記得自己是如何答對或答錯的。

以現(xiàn)實世界作比,它們像一個只做新題、從不復(fù)習(xí)的學(xué)生。每當(dāng)模型做完一道題,無論這道題的解法多么精妙、多么有啟發(fā)性,都可能都會在一次參數(shù)更新后,把這次寶貴的“解題經(jīng)驗”忘得一干二凈。

這種“學(xué)完就忘”的模式,由于Rollout代價昂貴不僅導(dǎo)致了計算資源浪費,也讓訓(xùn)練過程變得非常不穩(wěn)定。

因此,學(xué)會“溫故而知新”,讓模型根據(jù)“錯題本”,把每一次寶貴的成功經(jīng)驗都內(nèi)化為自己的能力對訓(xùn)練效率和能力提升都至關(guān)重要。

值得注意的是,強化學(xué)習(xí)著名學(xué)者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到:

  • 人類數(shù)據(jù)正在用盡,經(jīng)驗將是下一個超級數(shù)據(jù)源,是能夠為AI帶來能力提升的下一個突破口。

但是,一個看似簡單卻被忽視的問題是:

既然經(jīng)驗這么重要,那么什么樣的經(jīng)驗才值得反復(fù)學(xué)習(xí)?在大模型全面鋪開應(yīng)用的當(dāng)下,面對經(jīng)驗這個超級數(shù)據(jù)源的增長,其量級和高復(fù)雜性之高是我們不得不考慮的因素。

針對這一挑戰(zhàn),ExGRPO框架應(yīng)運而生。




圖1. 主流人工智能范式的簡要時間軸示意圖。縱軸表示該領(lǐng)域總投入和計算資源中專注于強化學(xué)習(xí)(RL)的比例。截取自David Silver, Richard S. Sutton. Welcome to the Era of Experience.

什么樣的“經(jīng)驗”才是好經(jīng)驗?

在設(shè)計一個“復(fù)習(xí)”系統(tǒng)前,我們首先要搞清楚一個根本問題:

對一個正在學(xué)習(xí)推理的模型來說,什么樣的“解題經(jīng)驗”才是最有價值的?是不是所有做對的題目都值得反復(fù)回味?

為了找到答案,該工作進行了一系列有趣的探索性實驗(見圖2),并發(fā)現(xiàn),一份“高質(zhì)量”的經(jīng)驗,其價值體現(xiàn)在兩個關(guān)鍵維度上:問題的難度解題路徑的質(zhì)量。

問題的甜蜜點:中等難度的問題

作者把模型在訓(xùn)練中遇到的問題,根據(jù)它當(dāng)下的“正確率”動態(tài)地分成了三類:簡單題(正確率>75%)、中等題(25%-75%)和難題(<25%)。

然后,分別只用這三類問題來進行On-Policy RLVR訓(xùn)練模型。

結(jié)果一目了然:只刷“中等難度”問題的模型,最終性能提升最大。

這也符合一般直覺,簡單題模型通常已經(jīng)掌握了,反復(fù)練習(xí)邊際效益遞減,容易“學(xué)廢”;對于難題,遠(yuǎn)超模型當(dāng)前能力,強行學(xué)習(xí)容易讓模型“受挫”,產(chǎn)生胡亂猜測的壞習(xí)慣。

而中等難度的題恰好處于模型的最近發(fā)展區(qū),既有挑戰(zhàn)性,又能通過努力解決,是學(xué)習(xí)效率最高的甜蜜點。

解題路徑的“自信度”:低熵軌跡

另一方面,同樣是做對一道題,解題過程(下文也稱為軌跡)的質(zhì)量也千差萬別。

有的解法思路清晰、一步到位;有的則繞來繞去、充滿了不確定性,甚至可能是蒙對的。如何量化這種解題思路的質(zhì)量呢?

外部的強模型也許是一個選擇,但是在訓(xùn)練中使用代價過高并且會拖慢速度。

為了找到可靠的在線代理指標(biāo),作者以較強能力的Qwen3-32B模型作為參考:評價推理過程的對錯,并看看有沒有內(nèi)源性的在線指標(biāo)能夠和外部Judge的判斷正相關(guān)。

在此,作者發(fā)現(xiàn)推理軌跡的Token平均熵是一個優(yōu)秀的指標(biāo),在所有做對的題目中,那些推理過程邏輯更正確的解法,其對應(yīng)的熵值顯著更低。

進一步地,高熵軌跡很多時候只是幸運的瞎猜,反復(fù)學(xué)習(xí)這些軌跡不僅沒有幫助,反而可能污染模型的邏輯能力。




圖2:模型經(jīng)驗=問題+對應(yīng)推理過程。什么才是“好問題”和“好推理過程”? (a) 使用中等難度問題訓(xùn)練的模型性能最佳。(b) 邏輯正確的推理過程通常表現(xiàn)出更低的熵值。 (c) 中等難度推理正確的熵值也更密集于低熵值區(qū)域。

這樣符合我們的認(rèn)知直覺:在人類學(xué)習(xí)中,難度適中的題目、邏輯清晰的解法,往往是最高效的學(xué)習(xí)材料。太簡單的題目讓人停滯不前,太難的題目則令人無從下手。

ExGRPO框架: 為模型打造的“高價值錯題本+溫習(xí)系統(tǒng)”

基于上述洞見,作者設(shè)計了ExGRPO框架,包含了兩個核心部件:經(jīng)驗管理和混合經(jīng)驗優(yōu)化。

△圖3:ExGRPO框架概覽:經(jīng)驗管理 + 策略優(yōu)化

經(jīng)驗管理:精挑細(xì)選,分類歸檔

作者將模型經(jīng)驗定義為問題+對應(yīng)推理過程,分兩個層級進行經(jīng)驗的管理和挑選,具體它分為三步:

1、經(jīng)驗收集:ExGRPO會建立一個“經(jīng)驗回放池”,像一個巨大的“錯題本”,專門收集模型在訓(xùn)練過程中所有成功的推理案例。這也是傳統(tǒng)強化學(xué)習(xí)和先前相關(guān)工作中均擁有的基礎(chǔ)機制。

2、經(jīng)驗劃分與存儲:根據(jù)每個問題最新的“在線正確率”,將經(jīng)驗池中的問題動態(tài)地劃分到不同的“難度分區(qū)”里。這就像給錯題本按章節(jié)和難度進行分類。這樣,所有經(jīng)驗都被貼上了“簡單”、“中等”、“困難”的標(biāo)簽,管理起來一目了然。

同時,為了防止模型在簡單問題上“刷分”而產(chǎn)生過擬合,ExGRPO還擁有一個“退休機制”(Retired Set),將模型已經(jīng)完全掌握(例如連續(xù)多次全部成功解答)的問題移出學(xué)習(xí)隊列,讓模型始終聚焦于更具挑戰(zhàn)性的任務(wù)。

3、經(jīng)驗篩選:按照之前分析實驗得到的啟示和洞見,ExGRPO從兩個層次挑選經(jīng)驗:

  • 問題篩選:利用高斯分布概率模型,有偏地優(yōu)先從中等難度的分組中抽取問題。這樣能確保模型總是在學(xué)習(xí)效率最高的甜蜜點上。
  • 軌跡篩選:對于選出的問題,如果它歷史上有多個成功解法,只挑選出當(dāng)前模型看來熵最低的那一個,也就是最篤定清晰的那個解法。

通過這套精細(xì)化管理,確保了每次復(fù)習(xí)的都是最高質(zhì)量的黃金經(jīng)驗。

混合策略優(yōu)化目標(biāo):溫故而知新

選好了復(fù)習(xí)材料,接下來就是如何復(fù)習(xí)經(jīng)驗了。

ExGRPO采用了一種混合策略的優(yōu)化目標(biāo),除了對重要性采樣進行修正外,在每一次訓(xùn)練迭代中,Mini-Batch中一部分計算資源用于讓模型探索全新的問題(On-policy),另一部分則用于學(xué)習(xí)從經(jīng)驗池中精心篩選出的經(jīng)驗(Off-policy)。

巧妙地平衡了探索新知(On-Policy Exploration)和復(fù)習(xí)舊識(Experience Exploitation)。




圖4:ExGRPO混合策略優(yōu)化目標(biāo)。ρ代表經(jīng)驗在Mini-Batch優(yōu)化中的混合比例。

這種“一半時間學(xué)新,一半時間復(fù)習(xí)”的模式,讓模型既能不斷拓展認(rèn)知邊界,又能持續(xù)鞏固和內(nèi)化已有的成功經(jīng)驗,從而在保證訓(xùn)練穩(wěn)定性的同時,極大地提升了學(xué)習(xí)效率。

此外,作者還引入了策略塑形(Policy Shaping)機制,確保模型在復(fù)習(xí)過往成功經(jīng)驗時,不會變得過于僵化,喪失探索創(chuàng)新的能力。

ExGRPO實驗結(jié)果和分析:更強、更穩(wěn)、更高效

作者在6個不同規(guī)模(1.5B到8B)和架構(gòu)(Qwen、Llama)的模型(Base、Instruct)上,對ExGRPO進行了全面的測試,涵蓋了從AIME、MATH等數(shù)學(xué)推理的 benchmark,到GPQA、MMLU-Pro等通用推理benchmark。

與傳統(tǒng)的在線策略RLVR方法相比,平均所有模型和測試集,ExGRPO相對于On-Policy方法(Dr. GRPO),分別帶來了+3.5和+7.6個點的分布內(nèi)、分布外性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)(如AIME數(shù)學(xué)競賽題)上,提升效果更為明顯,證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

△表1:ExGRPO在多個數(shù)學(xué)與通用推理基準(zhǔn)上的性能表現(xiàn)

△圖5:ExGRPO在不同模型架構(gòu)和尺寸上的泛化能力

  • 賦能強模型

即使是在已經(jīng)很強的模型(如經(jīng)過外部R1軌跡數(shù)據(jù)作為RLVR引導(dǎo)的LUFFY)上進行持續(xù)學(xué)習(xí),ExGRPO依然能帶來穩(wěn)定的性能增益,而標(biāo)準(zhǔn)的在線RL方法反而會導(dǎo)致性能下降。

  • “救活”弱模型

此外,作者發(fā)現(xiàn)對于像Llama-3.1 8B Base基模,由于其初始推理能力較弱,標(biāo)準(zhǔn)的On-Policy強化學(xué)習(xí)方法根本無法進行有效訓(xùn)練,很快就會訓(xùn)練崩潰。

而ExGRPO憑借其經(jīng)驗回放機制,能夠捕捉到早期偶然的lucky hits,并將其作為寶貴的學(xué)習(xí)信號反復(fù)利用,最終成功地將模型“救活”并穩(wěn)定地提升其性能。




圖6:在Llama-3.1 8B訓(xùn)練過程中On-Policy與ExGRPO的學(xué)習(xí)動態(tài)對比。ExGRPO能夠穩(wěn)定訓(xùn)練并獲得更高的獎勵,而On-Policy則容易出現(xiàn)訓(xùn)練崩潰。

此外,該研究也揭示了一些有趣的現(xiàn)象,比如滾雪球效應(yīng)。高熵的經(jīng)驗中,經(jīng)常包含著一些看似正確但邏輯上有瑕疵的步驟(比如在數(shù)學(xué)題里濫用代碼塊來黑箱計算)。

如果讓模型反復(fù)學(xué)習(xí)這些經(jīng)驗,就會像滾雪球一樣,讓錯誤的推理習(xí)慣根深蒂固。ExGRPO的經(jīng)驗篩選機制,切斷了這種錯誤學(xué)習(xí)的路徑。

迎接“經(jīng)驗即媒介”的AI新時代

正如強化學(xué)習(xí)領(lǐng)域的先驅(qū)David Silver和Richard Sutton所言:

  • 我們正處于一個新時期的風(fēng)口浪尖,在這個時期,經(jīng)驗將成為能力提升的主要媒介。

團隊表示,ExGRPO的核心貢獻,是為模型推理能力的提升,提供了一套系統(tǒng)性的、基于經(jīng)驗的學(xué)習(xí)框架。有理由相信, Principled Experience Management(有原則的經(jīng)驗管理)將成為未來構(gòu)建更強大、更高效的AI模型訓(xùn)練生態(tài)中的關(guān)鍵一環(huán)。

它不再讓寶貴的成功經(jīng)驗付諸東流,而是通過智能地識別、管理和重放高價值經(jīng)驗,像錯題本一般,讓模型真正擁有了“溫故而知新”的能力。

這不僅顯著提升了訓(xùn)練的效率和穩(wěn)定性,也為我們打開了通往更強大、更通用的人工智能的一扇新窗。

論文:https://arxiv.org/pdf/2510.02245
Code:https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO
模型:https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一年過去,測評小米SU7撞完打不開門的博主仍舊被羈押

一年過去,測評小米SU7撞完打不開門的博主仍舊被羈押

映射生活的身影
2025-10-21 09:07:01
貨車上的“換位人生”:司機丈夫腦出血半身癱瘓 妻子考駕照載著丈夫跑車丨看見正能量

貨車上的“換位人生”:司機丈夫腦出血半身癱瘓 妻子考駕照載著丈夫跑車丨看見正能量

封面新聞
2025-10-23 18:49:03
我給表哥5000萬工程,卻被他踢出局,當(dāng)晚通知朋友:尾款拖他1年

我給表哥5000萬工程,卻被他踢出局,當(dāng)晚通知朋友:尾款拖他1年

農(nóng)村情感故事
2025-10-19 07:25:44
死不悔改,中荷還是沒談攏,荷蘭拒絕歸還治理權(quán),輸家60天內(nèi)誕生

死不悔改,中荷還是沒談攏,荷蘭拒絕歸還治理權(quán),輸家60天內(nèi)誕生

天氣觀察站
2025-10-23 14:11:31
首都球隊竟打不過一個特區(qū)的郊區(qū)隊,國安真是太讓球迷失望了!

首都球隊竟打不過一個特區(qū)的郊區(qū)隊,國安真是太讓球迷失望了!

田先生籃球
2025-10-23 22:56:00
貪心砸了飯碗?巴西硬抬價,中國130萬噸大豆訂單瞬間流向阿根廷

貪心砸了飯碗?巴西硬抬價,中國130萬噸大豆訂單瞬間流向阿根廷

軍機Talk
2025-10-23 11:58:38
荷蘭闖的禍有人收拾了,26國一起請中方高抬貴手,中方答應(yīng)給機會

荷蘭闖的禍有人收拾了,26國一起請中方高抬貴手,中方答應(yīng)給機會

瀲滟晴方DAY
2025-10-23 09:47:32
深圳“卷尺哥”漲粉10萬,央視點贊采訪,拍攝原因曝光,身份特殊

深圳“卷尺哥”漲粉10萬,央視點贊采訪,拍攝原因曝光,身份特殊

攬星河的筆記
2025-10-22 20:13:33
別信演義!正史上九大猛將,沒有一個是虛構(gòu)人物,個個武功值十足

別信演義!正史上九大猛將,沒有一個是虛構(gòu)人物,個個武功值十足

長風(fēng)文史
2025-10-22 16:03:47
這下,法國驚呆了,德國震驚了,就連美國都傻眼了!

這下,法國驚呆了,德國震驚了,就連美國都傻眼了!

另子維愛讀史
2025-10-20 23:32:52
臺海之戰(zhàn),我軍可能面臨一個大麻煩:打不掉臺軍的指揮系統(tǒng)

臺海之戰(zhàn),我軍可能面臨一個大麻煩:打不掉臺軍的指揮系統(tǒng)

混沌錄
2025-07-12 18:40:07
復(fù)盤利物浦5-1法鷹:斯洛特靠442激活維爾茨,撤下薩拉赫果真正確

復(fù)盤利物浦5-1法鷹:斯洛特靠442激活維爾茨,撤下薩拉赫果真正確

里芃芃體育
2025-10-23 08:07:14
他72歲獨居,離婚未再婚,20年每月寄錢給前妻,無人知曉其心

他72歲獨居,離婚未再婚,20年每月寄錢給前妻,無人知曉其心

調(diào)侃國際觀點
2025-10-21 23:01:40
看老蔣處置四位上將的手段就知道:吳石不管怎么說,結(jié)局都不會變

看老蔣處置四位上將的手段就知道:吳石不管怎么說,結(jié)局都不會變

半壺老酒半支煙
2025-10-22 18:05:00
恭喜!郭富城再得一女,三胎女兒顏值很高!高鼻梁大眼睛像極方媛

恭喜!郭富城再得一女,三胎女兒顏值很高!高鼻梁大眼睛像極方媛

娛樂團長
2025-10-22 19:58:44
四中全會發(fā)出號召

四中全會發(fā)出號召

界面新聞
2025-10-23 17:23:47
掌權(quán)前夜,高市沒想到,先等來的不是北京賀電,而是中方雷霆一擊

掌權(quán)前夜,高市沒想到,先等來的不是北京賀電,而是中方雷霆一擊

余塩搞笑段子
2025-10-22 17:01:39
主持人羅剛突發(fā)心臟病去世,年僅53歲

主持人羅剛突發(fā)心臟病去世,年僅53歲

農(nóng)城浪子
2025-10-15 22:45:42
假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭議

假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭議

一盅情懷
2025-09-24 13:57:00
為什么地球上只有吸鐵石,卻沒有吸銅石和吸鋁石?

為什么地球上只有吸鐵石,卻沒有吸銅石和吸鋁石?

半解智士
2025-10-21 19:30:24
2025-10-23 23:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11555文章數(shù) 176310關(guān)注度
往期回顧 全部

科技要聞

價格戰(zhàn)開打 人形機器人比買iPhone還便宜了

頭條要聞

張升民任中央軍委副主席 曾是"打虎干將"劉源的繼任者

頭條要聞

張升民任中央軍委副主席 曾是"打虎干將"劉源的繼任者

體育要聞

只有1000多人的漁村,誕生了頂級聯(lián)賽冠軍

娛樂要聞

竇驍,損失的不止5000萬?

財經(jīng)要聞

田軒:"十五五"A股指數(shù)應(yīng)跑贏GDP增速

汽車要聞

硬核滿配+5座布局大空間 體驗福特探險者昆侖穿越版

態(tài)度原創(chuàng)

教育
藝術(shù)
本地
健康
公開課

教育要聞

家長的克制,勝過一切雞血

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

這個秋天,一起來粉上漓渚!所有風(fēng)景只為等你

內(nèi)分泌科專家破解身高八大謠言

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 日本夜爽爽一区二区三区| 狠狠色噜狠狠狠狠的米奇| 免费观看黄频视| 老外一个吃奶一个添下面| 国产国拍精品av在线观看按摩| 国产极品美女高潮无套0410| 免费日韩av网在线观看| 高潮毛片无遮挡高清免费| 亚欧av无码乱码在线观看性色| 亚洲蜜臀AV永久精品无码蜜臀| 野外丰满少妇呻吟娇喘视频| 99久久婷婷国产一区二区免费| 国内AV在线| 91九色最新地址| 精品国产99久久久久久| 国内精品久久久久影院免费| GOGO熟女人妇大尺度| 天堂在线最新版资源www中文| 婷婷五月天激情网| 99热99re6国产在线播放| 青青草无码免费一二三区| 国产又色又爽又黄的视频在线观看| 亚洲中文在线视频| 无码av秘 一区二区三区| 久久久国产精品亚洲一区| 国产精品久久久久久久免费看| 一区二区无码在线观看| 国产一区二区在线视频 | 欧美综合自拍亚洲综合区| 日韩AV成人片免费看| 国产人碰人摸人爱免费视频| 国产精品区网红主播在线观看| 午夜福利一二三区| 蜜桃视频一区二区三区四| 国产又黄又硬又湿又黄的| 国产一级二级日本在线| 久久国产加勒比精品无码| 国产无套粉嫩白浆| 国产一区二区在线有码| 亚洲日韩电影网| 一区二区三区无码高清视频|