夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大彭一杰教授課題組提出RiskPO,風(fēng)險(xiǎn)度量?jī)?yōu)化重塑大模型后訓(xùn)練

0
分享至



該項(xiàng)目由北京大學(xué)彭一杰教授課題組完成,第一作者為任韜,其他作者包括江金陽(yáng)、楊暉等。

研究背景與挑戰(zhàn):大模型后訓(xùn)練陷入「均值陷阱」,推理能力難破界

當(dāng)強(qiáng)化學(xué)習(xí)(RL)成為大模型后訓(xùn)練的核心工具,「帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)」憑借客觀的二元反饋(如解題對(duì)錯(cuò)),迅速成為提升推理能力的主流范式。從數(shù)學(xué)解題到代碼生成,RLVR 本應(yīng)推動(dòng)模型突破「已知答案采樣」的局限,真正掌握深度推理邏輯 —— 但現(xiàn)實(shí)是,以 GRPO 為代表的主流方法正陷入「均值優(yōu)化陷阱」。

這些基于均值的優(yōu)化策略,過度聚焦高概率輸出序列,卻忽略了「低概率但高信息密度」的推理路徑:模型訓(xùn)練早期就會(huì)出現(xiàn)熵坍縮,過早喪失探索能力;面對(duì)全錯(cuò)的難題時(shí),優(yōu)勢(shì)函數(shù)直接歸零,模型在薄弱環(huán)節(jié)完全無(wú)法學(xué)習(xí)。最終結(jié)果是,大模型看似在 Pass@1 等短視指標(biāo)上有提升,實(shí)則推理邊界從未拓寬,更無(wú)法應(yīng)對(duì) AIME 競(jìng)賽題、復(fù)雜代碼生成這類高難度任務(wù)。如何讓模型主動(dòng)「啃硬骨頭」,成為大模型后訓(xùn)練的關(guān)鍵瓶頸。



AIME2024 上的學(xué)習(xí)表現(xiàn)

技術(shù)方案概述:用「風(fēng)險(xiǎn)度量」破局,MVaR + 捆綁策略雙管齊下

為解決傳統(tǒng)均值優(yōu)化的缺陷,北大團(tuán)隊(duì)提出 RiskPO,核心突破在于將風(fēng)險(xiǎn)規(guī)避(risk-averse)理念融入優(yōu)化目標(biāo),用「關(guān)注獎(jiǎng)勵(lì)分布左尾(難任務(wù))」替代「追求整體均值」,從根本上引導(dǎo)模型突破推理短板。



  • 論文鏈接:https://arxiv.org/abs/2510.00911v1
  • 代碼鏈接:https://github.com/RTkenny/RiskPO









為配合 MVaR 目標(biāo),團(tuán)隊(duì)提出「多問題捆綁」策略,將多個(gè)問題打包成 bundle 計(jì)算獎(jiǎng)勵(lì),把稀疏的二進(jìn)制反饋轉(zhuǎn)化為更豐富的分布信號(hào),徹底解決「難題零梯度」問題—— 比如將 5 個(gè)數(shù)學(xué)題打包后,模型能從整體得分中捕捉到「部分正確」的學(xué)習(xí)信號(hào),而非單個(gè)題目非對(duì)即錯(cuò)的極端反饋。



算法架構(gòu)圖

實(shí)驗(yàn):三大任務(wù)全面碾壓,難問題上優(yōu)勢(shì)更顯著

好的技術(shù)方案,終要靠硬指標(biāo)說(shuō)話。北大團(tuán)隊(duì)在數(shù)學(xué)推理、代碼生成、多模態(tài)推理三大領(lǐng)域的 10 余個(gè)數(shù)據(jù)集上,用數(shù)據(jù)證明了 RiskPO 的突破性 —— 尤其在最能體現(xiàn)推理能力的「硬任務(wù)」上,優(yōu)勢(shì)遠(yuǎn)超 GRPO 及其變體。

在數(shù)學(xué)推理領(lǐng)域,RiskPO 在 AIME24(美國(guó)數(shù)學(xué)邀請(qǐng)賽)任務(wù)上表現(xiàn)驚艷:Pass@32 得分比 GRPO 高出近 7 個(gè)百分點(diǎn),比最強(qiáng)基線 DAPO 提升 6.7 個(gè)百分點(diǎn);即便是相對(duì)簡(jiǎn)單的 MATH500 數(shù)據(jù)集,其 Pass@1 也達(dá)到 81.8%,超出 GRPO 2.6 個(gè)百分點(diǎn)。

更關(guān)鍵的是,隨著評(píng)估指標(biāo)從 Pass@1 轉(zhuǎn)向 Pass@8、Pass@16,RiskPO 的優(yōu)勢(shì)持續(xù)擴(kuò)大 ——這意味著模型不僅能給出更優(yōu)的單條答案,還能探索更多有效推理路徑,真正突破了「采樣效率優(yōu)化」的局限。



數(shù)學(xué)推理任務(wù)



Pass@k 學(xué)習(xí)曲線

在跨領(lǐng)域任務(wù)中,RiskPO 同樣穩(wěn)定領(lǐng)先:代碼生成任務(wù) LiveCodeBench 上,Pass@1 比 GRPO 提升 1 個(gè)百分點(diǎn);多模態(tài)幾何推理任務(wù) Geo3K 上,準(zhǔn)確率達(dá)到 54.5%,優(yōu)于 DAPO 的 54.3%。這種「全場(chǎng)景增益」,證明了風(fēng)險(xiǎn)度量?jī)?yōu)化的泛化能力。



其他任務(wù)

理論 + 消融:熵坍縮緩解有依據(jù),參數(shù)設(shè)計(jì)有章法

RiskPO 的性能突破,并非依賴工程調(diào)參,而是有扎實(shí)的理論支撐和嚴(yán)謹(jǐn)?shù)南趯?shí)驗(yàn)驗(yàn)證。



高熵更新定理

從理論層面,團(tuán)隊(duì)證明了「風(fēng)險(xiǎn)規(guī)避更新」能有效緩解熵坍縮:通過分析策略熵的變化機(jī)制,發(fā)現(xiàn) RiskPO 的 MVaR 目標(biāo)函數(shù)能降低「優(yōu)勢(shì) - 對(duì)數(shù)概率」的相關(guān)性 —— 相比 GRPO,模型不會(huì)過度強(qiáng)化已掌握的易任務(wù),從而保持更高的熵值和探索能力。

實(shí)驗(yàn)中也能清晰看到:訓(xùn)練 500 步后,GRPO 的熵值已趨近于 0,而 RiskPO 仍能維持 0.2 以上的熵水平,確保對(duì)難任務(wù)的持續(xù)探索。



訓(xùn)練集 DAPOMATH-17k 上的各項(xiàng)指標(biāo)

值得注意的是,在訓(xùn)練過程中,若僅觀察以均值為核心的指標(biāo)曲線(如平均獎(jiǎng)勵(lì)),GRPO 與 RiskPO 的表現(xiàn)幾乎難分伯仲,甚至 RiskPO 因更高的探索性還伴隨輕微波動(dòng);但切換到風(fēng)險(xiǎn)敏感指標(biāo)(如下尾 RVaR、MVaR 獎(jiǎng)勵(lì))時(shí),兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領(lǐng)先,且隨訓(xùn)練推進(jìn)持續(xù)攀升。

這種「均值相近、風(fēng)險(xiǎn)指標(biāo)懸殊」的現(xiàn)象,再結(jié)合最終測(cè)試集上 RiskPO 在 Pass@k(尤其是高 k 值)、難任務(wù)(如 AIME 競(jìng)賽題)上的優(yōu)勢(shì),進(jìn)一步印證了:均值目標(biāo)只能讓模型在「已知能力范圍內(nèi)優(yōu)化采樣效率」,而風(fēng)險(xiǎn)度量目標(biāo)才是推動(dòng)模型突破推理邊界、真正提升核心能力的理想方向。



不同風(fēng)險(xiǎn)偏好對(duì)比實(shí)驗(yàn)



結(jié)果顯示,風(fēng)險(xiǎn)尋求模型的熵值在訓(xùn)練早期就劇烈坍縮—— 訓(xùn)練 150 步后熵值已降至 0.1 以下,遠(yuǎn)低于 RiskPO 的 0.2;性能上,風(fēng)險(xiǎn)尋求模型在訓(xùn)練 50 步后便進(jìn)入平臺(tái)期,MATH 數(shù)據(jù)集 Pass@1 僅從 52% 提升至 54%,而 RiskPO 則持續(xù)優(yōu)化至 56%,實(shí)現(xiàn) 1.5 倍的提升幅度。

這一對(duì)比清晰證明,聚焦易任務(wù)的風(fēng)險(xiǎn)尋求策略會(huì)加速模型「固步自封」,只有風(fēng)險(xiǎn)規(guī)避才能驅(qū)動(dòng)模型突破推理邊界

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本美女大秀“鴨子坐”?網(wǎng)友:這誰(shuí)吃得消?!

日本美女大秀“鴨子坐”?網(wǎng)友:這誰(shuí)吃得消?!

健身迷
2025-10-20 10:38:19
菲利克斯談C羅:他就是他,丟點(diǎn)后馬上就能用一記世界波回應(yīng)

菲利克斯談C羅:他就是他,丟點(diǎn)后馬上就能用一記世界波回應(yīng)

雷速體育
2025-10-20 23:02:24
回顧:河北一家慘遭滅門,4名女子體內(nèi)有同一人DNA,牽出兩代恩仇

回顧:河北一家慘遭滅門,4名女子體內(nèi)有同一人DNA,牽出兩代恩仇

歷來(lái)都很現(xiàn)實(shí)
2024-10-08 00:12:04
2020年航母功臣徐增平為何不顧非議,看望剛出獄的原副總理之子?

2020年航母功臣徐增平為何不顧非議,看望剛出獄的原副總理之子?

百年歷史老號(hào)
2023-12-30 14:29:51
震驚!嬰兒車面臨重大生存危機(jī),一女子花200元買購(gòu)物車解決了…

震驚!嬰兒車面臨重大生存危機(jī),一女子花200元買購(gòu)物車解決了…

火山詩(shī)話
2025-10-18 07:08:40
掛斷特朗普電話,普京公布驚人計(jì)劃:隧道連接美俄,邀馬斯克入伙

掛斷特朗普電話,普京公布驚人計(jì)劃:隧道連接美俄,邀馬斯克入伙

南宮一二
2025-10-20 07:19:16
張惠妹瘦到認(rèn)不出!4片牛肉食譜走紅,網(wǎng)友:這才是真正的狠人

張惠妹瘦到認(rèn)不出!4片牛肉食譜走紅,網(wǎng)友:這才是真正的狠人

張發(fā)林
2025-10-10 17:45:08
“希望將部分美元貸款轉(zhuǎn)換成人民幣,中國(guó)是重要合作伙伴”

“希望將部分美元貸款轉(zhuǎn)換成人民幣,中國(guó)是重要合作伙伴”

觀察者網(wǎng)
2025-10-20 23:11:04
現(xiàn)貨黃金突破前高

現(xiàn)貨黃金突破前高

財(cái)聯(lián)社
2025-10-21 04:22:11
朱民,任上海市政府副秘書長(zhǎng)

朱民,任上海市政府副秘書長(zhǎng)

城市局
2025-10-20 20:14:08
“老先生,您把項(xiàng)鏈取下來(lái)再做CT”“你看是不是彈片”

“老先生,您把項(xiàng)鏈取下來(lái)再做CT”“你看是不是彈片”

極目新聞
2025-10-19 07:45:22
利好消息,多家銀行宣布下調(diào)

利好消息,多家銀行宣布下調(diào)

恪守原則和底線
2025-10-20 05:30:03
淚目:中國(guó)女籃29歲關(guān)鍵女王決賽轟16+6:專打硬仗,宮帥該重用她

淚目:中國(guó)女籃29歲關(guān)鍵女王決賽轟16+6:專打硬仗,宮帥該重用她

李喜林籃球絕殺
2025-10-20 13:09:04
潘金蓮獨(dú)白:西門慶讓我找到了做女人的快樂,我不后悔我做的一切

潘金蓮獨(dú)白:西門慶讓我找到了做女人的快樂,我不后悔我做的一切

晚堤
2025-05-29 13:28:35
中美對(duì)決,首個(gè)冤大頭自投羅網(wǎng),中國(guó)殺雞儆猴,3個(gè)危險(xiǎn)信號(hào)曝光

中美對(duì)決,首個(gè)冤大頭自投羅網(wǎng),中國(guó)殺雞儆猴,3個(gè)危險(xiǎn)信號(hào)曝光

南宮一二
2025-10-21 08:42:33
不查不知道,一查嚇一跳!翁帆竟然有過婚史,楊瀾一個(gè)字都沒說(shuō)錯(cuò)

不查不知道,一查嚇一跳!翁帆竟然有過婚史,楊瀾一個(gè)字都沒說(shuō)錯(cuò)

仙味少女心
2025-10-20 17:31:51
宋佳綽號(hào)“宋一根”,據(jù)傳每天至少一包,網(wǎng)友呼吁:少抽點(diǎn)吧

宋佳綽號(hào)“宋一根”,據(jù)傳每天至少一包,網(wǎng)友呼吁:少抽點(diǎn)吧

洲洲影視娛評(píng)
2025-10-16 19:24:50
同年退休的3位同學(xué)4年走了兩個(gè),回顧他們經(jīng)歷,我決定躺平為妙

同年退休的3位同學(xué)4年走了兩個(gè),回顧他們經(jīng)歷,我決定躺平為妙

人間百態(tài)大全
2025-09-27 08:20:03
于和偉妻子宋林靜,氣質(zhì)溫婉 低調(diào)賢惠,對(duì)于和偉不離不棄 模范夫妻

于和偉妻子宋林靜,氣質(zhì)溫婉 低調(diào)賢惠,對(duì)于和偉不離不棄 模范夫妻

情感大頭說(shuō)說(shuō)
2025-10-21 06:21:04
毛某(女,38歲)被采取強(qiáng)制措施,當(dāng)?shù)丶o(jì)委監(jiān)委已進(jìn)行核查

毛某(女,38歲)被采取強(qiáng)制措施,當(dāng)?shù)丶o(jì)委監(jiān)委已進(jìn)行核查

魯中晨報(bào)
2025-10-20 10:28:03
2025-10-21 09:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11514文章數(shù) 142488關(guān)注度
往期回顧 全部

科技要聞

歷史新高!市值3.9萬(wàn)億美元,蘋果又行了?

頭條要聞

在中國(guó)收緊關(guān)鍵礦產(chǎn)出口之時(shí) 澳總理向美推銷自家礦產(chǎn)

頭條要聞

在中國(guó)收緊關(guān)鍵礦產(chǎn)出口之時(shí) 澳總理向美推銷自家礦產(chǎn)

體育要聞

年薪百萬(wàn)的球星,穿二手鞋騎自行車上下班

娛樂要聞

明星進(jìn)豪門并沒有想象中的光鮮?

財(cái)經(jīng)要聞

保險(xiǎn)騙傭黑幕:靠高額返傭+短期退保牟利

汽車要聞

被騙上騰勢(shì)N8L干到200公里魚鉤測(cè)試 下車吐了但值了

態(tài)度原創(chuàng)

旅游
數(shù)碼
本地
時(shí)尚
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

護(hù)眼純?nèi)す猓‘?dāng)貝D7X智能投影儀圖賞

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

今年秋天的上衣,太上頭了!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲JIZZJIZZ在线播放| 丰满人妻熟妇乱又精品视| 小婷又软又嫩又紧水又多的视频| 精品蜜臀av在线天堂| 欲色天天网综合久久| 长腿丝袜国产精品| 亚洲综合在线日韩av| 色欲悠久久久久综合区| 国产裸模视频免费区无码| 最新版天堂资源中文官网| 奶头挺立呻吟高潮动态图| 国产原创自拍av| 人妻丰满熟妇av无码区免| 国产视频一二三区在线播放| 五月六月综合激情基地| 三年中文在线观看免费大全| 中文乱字幕后在线视频一又粗又长一91| 亚洲av综合av成人小说| 久久―日本道色综合久久| 99色99色| 视频黄页无毛无码| 性色av闺蜜一区二区三区| 男人j桶进女人p无遮挡| 亚洲高清色图| 久久婷婷六月综合色液啪| 每天更新的免费av片在线观看| 国产又爽又黄又不遮挡视频| 中文字幕人妻丝袜乱一区三区| 午夜伊人影院| 鸭子tv国产在线永久播放| 少妇午夜福利一区二区| 久久久er热| 国产在线观看网站| 蜜乳AV一区二区三区在线播放| 波多野结衣在线一区二区| 久久成人av| 中国xxx农村性视频| 日韩做a爰片久久毛片a片| 精品国产一区二区在线车| 日本99久久久久久久久人妻斩 | 猫咪伊人久久久|