網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

北大彭一杰教授課題組提出RiskPO，風(fēng)險(xiǎn)度量?jī)?yōu)化重塑大模型后訓(xùn)練

2025-10-15 13:43:16　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

該項(xiàng)目由北京大學(xué)彭一杰教授課題組完成，第一作者為任韜，其他作者包括江金陽(yáng)、楊暉等。

研究背景與挑戰(zhàn)：大模型后訓(xùn)練陷入「均值陷阱」，推理能力難破界

當(dāng)強(qiáng)化學(xué)習(xí)（RL）成為大模型后訓(xùn)練的核心工具，「帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）」憑借客觀的二元反饋（如解題對(duì)錯(cuò)），迅速成為提升推理能力的主流范式。從數(shù)學(xué)解題到代碼生成，RLVR 本應(yīng)推動(dòng)模型突破「已知答案采樣」的局限，真正掌握深度推理邏輯 —— 但現(xiàn)實(shí)是，以 GRPO 為代表的主流方法正陷入「均值優(yōu)化陷阱」。

這些基于均值的優(yōu)化策略，過度聚焦高概率輸出序列，卻忽略了「低概率但高信息密度」的推理路徑：模型訓(xùn)練早期就會(huì)出現(xiàn)熵坍縮，過早喪失探索能力；面對(duì)全錯(cuò)的難題時(shí)，優(yōu)勢(shì)函數(shù)直接歸零，模型在薄弱環(huán)節(jié)完全無(wú)法學(xué)習(xí)。最終結(jié)果是，大模型看似在 Pass@1 等短視指標(biāo)上有提升，實(shí)則推理邊界從未拓寬，更無(wú)法應(yīng)對(duì) AIME 競(jìng)賽題、復(fù)雜代碼生成這類高難度任務(wù)。如何讓模型主動(dòng)「啃硬骨頭」，成為大模型后訓(xùn)練的關(guān)鍵瓶頸。

AIME2024 上的學(xué)習(xí)表現(xiàn)

技術(shù)方案概述：用「風(fēng)險(xiǎn)度量」破局，MVaR + 捆綁策略雙管齊下

為解決傳統(tǒng)均值優(yōu)化的缺陷，北大團(tuán)隊(duì)提出 RiskPO，核心突破在于將風(fēng)險(xiǎn)規(guī)避（risk-averse）理念融入優(yōu)化目標(biāo)，用「關(guān)注獎(jiǎng)勵(lì)分布左尾（難任務(wù)）」替代「追求整體均值」，從根本上引導(dǎo)模型突破推理短板。

論文鏈接：https://arxiv.org/abs/2510.00911v1
代碼鏈接：https://github.com/RTkenny/RiskPO

為配合 MVaR 目標(biāo)，團(tuán)隊(duì)提出「多問題捆綁」策略，將多個(gè)問題打包成 bundle 計(jì)算獎(jiǎng)勵(lì)，把稀疏的二進(jìn)制反饋轉(zhuǎn)化為更豐富的分布信號(hào)，徹底解決「難題零梯度」問題—— 比如將 5 個(gè)數(shù)學(xué)題打包后，模型能從整體得分中捕捉到「部分正確」的學(xué)習(xí)信號(hào)，而非單個(gè)題目非對(duì)即錯(cuò)的極端反饋。

算法架構(gòu)圖

實(shí)驗(yàn)：三大任務(wù)全面碾壓，難問題上優(yōu)勢(shì)更顯著

好的技術(shù)方案，終要靠硬指標(biāo)說(shuō)話。北大團(tuán)隊(duì)在數(shù)學(xué)推理、代碼生成、多模態(tài)推理三大領(lǐng)域的 10 余個(gè)數(shù)據(jù)集上，用數(shù)據(jù)證明了 RiskPO 的突破性 —— 尤其在最能體現(xiàn)推理能力的「硬任務(wù)」上，優(yōu)勢(shì)遠(yuǎn)超 GRPO 及其變體。

在數(shù)學(xué)推理領(lǐng)域，RiskPO 在 AIME24（美國(guó)數(shù)學(xué)邀請(qǐng)賽）任務(wù)上表現(xiàn)驚艷：Pass@32 得分比 GRPO 高出近 7 個(gè)百分點(diǎn)，比最強(qiáng)基線 DAPO 提升 6.7 個(gè)百分點(diǎn)；即便是相對(duì)簡(jiǎn)單的 MATH500 數(shù)據(jù)集，其 Pass@1 也達(dá)到 81.8%，超出 GRPO 2.6 個(gè)百分點(diǎn)。

更關(guān)鍵的是，隨著評(píng)估指標(biāo)從 Pass@1 轉(zhuǎn)向 Pass@8、Pass@16，RiskPO 的優(yōu)勢(shì)持續(xù)擴(kuò)大 ——這意味著模型不僅能給出更優(yōu)的單條答案，還能探索更多有效推理路徑，真正突破了「采樣效率優(yōu)化」的局限。

數(shù)學(xué)推理任務(wù)

Pass@k 學(xué)習(xí)曲線

在跨領(lǐng)域任務(wù)中，RiskPO 同樣穩(wěn)定領(lǐng)先：代碼生成任務(wù) LiveCodeBench 上，Pass@1 比 GRPO 提升 1 個(gè)百分點(diǎn)；多模態(tài)幾何推理任務(wù) Geo3K 上，準(zhǔn)確率達(dá)到 54.5%，優(yōu)于 DAPO 的 54.3%。這種「全場(chǎng)景增益」，證明了風(fēng)險(xiǎn)度量?jī)?yōu)化的泛化能力。

其他任務(wù)

理論 + 消融：熵坍縮緩解有依據(jù)，參數(shù)設(shè)計(jì)有章法

RiskPO 的性能突破，并非依賴工程調(diào)參，而是有扎實(shí)的理論支撐和嚴(yán)謹(jǐn)?shù)南趯?shí)驗(yàn)驗(yàn)證。

高熵更新定理

從理論層面，團(tuán)隊(duì)證明了「風(fēng)險(xiǎn)規(guī)避更新」能有效緩解熵坍縮：通過分析策略熵的變化機(jī)制，發(fā)現(xiàn) RiskPO 的 MVaR 目標(biāo)函數(shù)能降低「優(yōu)勢(shì) - 對(duì)數(shù)概率」的相關(guān)性 —— 相比 GRPO，模型不會(huì)過度強(qiáng)化已掌握的易任務(wù)，從而保持更高的熵值和探索能力。

實(shí)驗(yàn)中也能清晰看到：訓(xùn)練 500 步后，GRPO 的熵值已趨近于 0，而 RiskPO 仍能維持 0.2 以上的熵水平，確保對(duì)難任務(wù)的持續(xù)探索。

訓(xùn)練集 DAPOMATH-17k 上的各項(xiàng)指標(biāo)

值得注意的是，在訓(xùn)練過程中，若僅觀察以均值為核心的指標(biāo)曲線（如平均獎(jiǎng)勵(lì)），GRPO 與 RiskPO 的表現(xiàn)幾乎難分伯仲，甚至 RiskPO 因更高的探索性還伴隨輕微波動(dòng)；但切換到風(fēng)險(xiǎn)敏感指標(biāo)（如下尾 RVaR、MVaR 獎(jiǎng)勵(lì)）時(shí)，兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領(lǐng)先，且隨訓(xùn)練推進(jìn)持續(xù)攀升。

這種「均值相近、風(fēng)險(xiǎn)指標(biāo)懸殊」的現(xiàn)象，再結(jié)合最終測(cè)試集上 RiskPO 在 Pass@k（尤其是高 k 值）、難任務(wù)（如 AIME 競(jìng)賽題）上的優(yōu)勢(shì)，進(jìn)一步印證了：均值目標(biāo)只能讓模型在「已知能力范圍內(nèi)優(yōu)化采樣效率」，而風(fēng)險(xiǎn)度量目標(biāo)才是推動(dòng)模型突破推理邊界、真正提升核心能力的理想方向。

不同風(fēng)險(xiǎn)偏好對(duì)比實(shí)驗(yàn)

結(jié)果顯示，風(fēng)險(xiǎn)尋求模型的熵值在訓(xùn)練早期就劇烈坍縮—— 訓(xùn)練 150 步后熵值已降至 0.1 以下，遠(yuǎn)低于 RiskPO 的 0.2；性能上，風(fēng)險(xiǎn)尋求模型在訓(xùn)練 50 步后便進(jìn)入平臺(tái)期，MATH 數(shù)據(jù)集 Pass@1 僅從 52% 提升至 54%，而 RiskPO 則持續(xù)優(yōu)化至 56%，實(shí)現(xiàn) 1.5 倍的提升幅度。

這一對(duì)比清晰證明，聚焦易任務(wù)的風(fēng)險(xiǎn)尋求策略會(huì)加速模型「固步自封」，只有風(fēng)險(xiǎn)規(guī)避才能驅(qū)動(dòng)模型突破推理邊界

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.