RL微調(diào)，關(guān)鍵在前10%獎(jiǎng)勵(lì)！基于評分準(zhǔn)則，Scale AI等提出新方法

2025-10-16 17:39:05　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ

【新智元導(dǎo)讀】大模型強(qiáng)化學(xué)習(xí)總是「用力過猛」？Scale AI聯(lián)合UCLA、芝加哥大學(xué)的研究團(tuán)隊(duì)提出了一種基于評分準(zhǔn)則（rubric）的獎(jiǎng)勵(lì)建模新方法，從理論和實(shí)驗(yàn)兩個(gè)維度證明：要想讓大模型對齊效果好，關(guān)鍵在于準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」的回答。這項(xiàng)研究不僅揭示了獎(jiǎng)勵(lì)過度優(yōu)化的根源，還提供了實(shí)用的解決方案。

讓大模型按照人類意圖行事，一直是AI領(lǐng)域的核心挑戰(zhàn)。目前主流的強(qiáng)化學(xué)習(xí)微調(diào)（RFT）方法雖然有效，但存在一個(gè)致命弱點(diǎn)：獎(jiǎng)勵(lì)過度優(yōu)化（reward over-optimization）。

獎(jiǎng)勵(lì)過度優(yōu)化是大模型對齊的「阿喀琉斯之踵」。

簡單來說，就是模型學(xué)會(huì)了「鉆空子」——它們不是真正變得更好，而是學(xué)會(huì)了如何在獎(jiǎng)勵(lì)模型上刷高分，實(shí)際輸出質(zhì)量反而下降。這就像考試時(shí)學(xué)生死記硬背標(biāo)準(zhǔn)答案來應(yīng)付老師，而不是真正理解知識(shí)。

Scale AI的最新研究直擊這一痛點(diǎn)，從理論層面揭示了問題的根源，并提出了創(chuàng)新的解決方案。

論文鏈接：https://arxiv.org/abs/2509.21500

代碼開源：https://github.com/Jun-Kai-Zhang/rubrics

數(shù)據(jù)開源：https://huggingface.co/datasets/JunkaiZ/Rubrics

理論突破

高分區(qū)才是關(guān)鍵戰(zhàn)場

來自Scale AI、UCLA和芝加哥大學(xué)的研究團(tuán)隊(duì)，首次從理論上給出了明確答案：

獎(jiǎng)勵(lì)過度優(yōu)化的根源，在于獎(jiǎng)勵(lì)模型在高分區(qū)的不準(zhǔn)確性。

高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確性決定一切：當(dāng)代理獎(jiǎng)勵(lì)在高分區(qū)域出現(xiàn)偏差時(shí)，模型性能會(huì)隨著訓(xùn)練進(jìn)程急劇崩潰；而低分區(qū)域的誤差影響微乎其微。
只需要準(zhǔn)確識(shí)別Top 2響應(yīng)：即使只能正確排序前10%的優(yōu)質(zhì)回答，模型性能就能接近最優(yōu)，效果幾乎與完美獎(jiǎng)勵(lì)模型相當(dāng)。

這意味著：我們不需要在所有回復(fù)上都準(zhǔn)確，只需要準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」!

方法創(chuàng)新

用評分準(zhǔn)則捕捉「卓越」

理論清晰了,但新問題來了：如何獲得高質(zhì)量樣本來訓(xùn)練獎(jiǎng)勵(lì)模型？這里存在一個(gè)悖論：

從基礎(chǔ)模型采樣？太低效了——高分樣本本來就稀少。

用更強(qiáng)模型生成？又會(huì)引入分布偏移——獎(jiǎng)勵(lì)模型可能學(xué)到的是表面特征而非真實(shí)能力。

研究團(tuán)隊(duì)提出了基于評分準(zhǔn)則（rubric）的解決方案。評分準(zhǔn)則是一組衡量回答好壞的明確準(zhǔn)則，每個(gè)準(zhǔn)則都有相應(yīng)權(quán)重。比如對于醫(yī)療診斷問題，可能包括：

高權(quán)重準(zhǔn)則：「正確識(shí)別疾病」「標(biāo)明緊急程度」

低權(quán)重準(zhǔn)則：「提及治療方案」

Rubric的核心優(yōu)勢在于：

將評分分解為多個(gè)可驗(yàn)證的具體標(biāo)準(zhǔn)
每個(gè)標(biāo)準(zhǔn)都是二元判斷（滿足/不滿足）
最終得分是滿足標(biāo)準(zhǔn)的加權(quán)平均

更重要的是,Rubric天然具有分布不變性——它關(guān)注的是回復(fù)本身的質(zhì)量特征,而非生成來源。

兩大原則：如何構(gòu)建有效的Rubric

為了讓Rubric真正捕捉高分區(qū)的差異，研究團(tuán)隊(duì)提出兩大關(guān)鍵原則：

原則1：區(qū)分「優(yōu)秀」與「卓越」。通過對比兩個(gè)都很好的回答，識(shí)別它們的細(xì)微差異，將這些差異編碼為新的評分準(zhǔn)則。
原則2：在多樣化的優(yōu)質(zhì)回答中尋找差異。擴(kuò)大候選池，從16個(gè)頂尖模型中采樣，確保覆蓋不同的優(yōu)秀回答模式。

實(shí)驗(yàn)驗(yàn)證

全面碾壓基線方法

研究在通用和醫(yī)療兩個(gè)領(lǐng)域進(jìn)行了大規(guī)模實(shí)驗(yàn)：

性能提升明顯

使用優(yōu)質(zhì)樣本改進(jìn)的評分準(zhǔn)則，勝率從31.3%提升至39.7%
醫(yī)療領(lǐng)域的HealthBench得分從0.3004提升至0.3513

有效緩解獎(jiǎng)勵(lì)過度優(yōu)化

初始評分準(zhǔn)則訓(xùn)練的模型在60步后性能急劇下降
改進(jìn)后的評分準(zhǔn)則將崩潰點(diǎn)推遲到160步，延長了近3倍

高獎(jiǎng)勵(lì)區(qū)域準(zhǔn)確率大幅提升

評分準(zhǔn)則改進(jìn)后，在高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率提升顯著，而低獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率基本不變，完美驗(yàn)證了理論預(yù)測。

質(zhì)的飛躍：優(yōu)秀樣本帶來更深層的改進(jìn)

研究團(tuán)隊(duì)還分析了不同質(zhì)量樣本帶來的Rubric改進(jìn)類型：

優(yōu)秀樣本驅(qū)動(dòng)的改進(jìn)：

添加懲罰項(xiàng)，避免明顯錯(cuò)誤
放寬過于嚴(yán)格的標(biāo)準(zhǔn)
糾正錯(cuò)誤或?qū)R預(yù)期標(biāo)準(zhǔn)

卓越樣本驅(qū)動(dòng)的改進(jìn)：

將復(fù)雜標(biāo)準(zhǔn)分解為子標(biāo)準(zhǔn)
增強(qiáng)驗(yàn)證和證據(jù)標(biāo)準(zhǔn)
明確范圍、邊界和約束
納入風(fēng)險(xiǎn)分析和安全約束

以醫(yī)療案例為例：

初始Rubric只要求「提到正確診斷」和「說明緊急性」——兩個(gè)優(yōu)秀回復(fù)都滿足。

精煉后的Rubric新增標(biāo)準(zhǔn)：「明確指出需要緊急影像學(xué)檢查（如增強(qiáng)CT或MRI/MRV）來確認(rèn)診斷」，成功區(qū)分出了更好的那個(gè)。

這就是質(zhì)的飛躍：從表面判斷到深層驗(yàn)證標(biāo)準(zhǔn)。

產(chǎn)業(yè)意義與展望

這項(xiàng)研究為大模型對齊提供了全新視角：

理論指導(dǎo)實(shí)踐：明確了獎(jiǎng)勵(lì)建模的優(yōu)化方向——聚焦高獎(jiǎng)勵(lì)區(qū)域
方法可操作性強(qiáng)：基于評分準(zhǔn)則的方法易于實(shí)施和解釋
領(lǐng)域適應(yīng)性好：在醫(yī)療等專業(yè)領(lǐng)域表現(xiàn)尤其出色

當(dāng)然，研究也指出了當(dāng)前的局限：

簡單的加權(quán)平均可能不是最優(yōu)的分?jǐn)?shù)聚合方式

對于大模型從業(yè)者來說，這項(xiàng)工作提供了一個(gè)清晰的方向：

不要試圖在所有地方都完美，專注于準(zhǔn)確區(qū)分頂尖回復(fù)，這才是對齊的關(guān)鍵。

參考資料：

https://arxiv.org/abs/2509.21500

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.