新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】大模型強(qiáng)化學(xué)習(xí)總是「用力過猛」?Scale AI聯(lián)合UCLA、芝加哥大學(xué)的研究團(tuán)隊(duì)提出了一種基于評分準(zhǔn)則(rubric)的獎(jiǎng)勵(lì)建模新方法,從理論和實(shí)驗(yàn)兩個(gè)維度證明:要想讓大模型對齊效果好,關(guān)鍵在于準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」的回答。這項(xiàng)研究不僅揭示了獎(jiǎng)勵(lì)過度優(yōu)化的根源,還提供了實(shí)用的解決方案。
讓大模型按照人類意圖行事,一直是AI領(lǐng)域的核心挑戰(zhàn)。目前主流的強(qiáng)化學(xué)習(xí)微調(diào)(RFT)方法雖然有效,但存在一個(gè)致命弱點(diǎn):獎(jiǎng)勵(lì)過度優(yōu)化(reward over-optimization)。
獎(jiǎng)勵(lì)過度優(yōu)化是大模型對齊的「阿喀琉斯之踵」。
簡單來說,就是模型學(xué)會(huì)了「鉆空子」——它們不是真正變得更好,而是學(xué)會(huì)了如何在獎(jiǎng)勵(lì)模型上刷高分,實(shí)際輸出質(zhì)量反而下降。這就像考試時(shí)學(xué)生死記硬背標(biāo)準(zhǔn)答案來應(yīng)付老師,而不是真正理解知識(shí)。
Scale AI的最新研究直擊這一痛點(diǎn),從理論層面揭示了問題的根源,并提出了創(chuàng)新的解決方案。
論文鏈接:https://arxiv.org/abs/2509.21500
代碼開源:https://github.com/Jun-Kai-Zhang/rubrics
數(shù)據(jù)開源:https://huggingface.co/datasets/JunkaiZ/Rubrics
理論突破
高分區(qū)才是關(guān)鍵戰(zhàn)場
來自Scale AI、UCLA和芝加哥大學(xué)的研究團(tuán)隊(duì),首次從理論上給出了明確答案:
獎(jiǎng)勵(lì)過度優(yōu)化的根源,在于獎(jiǎng)勵(lì)模型在高分區(qū)的不準(zhǔn)確性。
高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確性決定一切:當(dāng)代理獎(jiǎng)勵(lì)在高分區(qū)域出現(xiàn)偏差時(shí),模型性能會(huì)隨著訓(xùn)練進(jìn)程急劇崩潰;而低分區(qū)域的誤差影響微乎其微。
只需要準(zhǔn)確識(shí)別Top 2響應(yīng):即使只能正確排序前10%的優(yōu)質(zhì)回答,模型性能就能接近最優(yōu),效果幾乎與完美獎(jiǎng)勵(lì)模型相當(dāng)。
這意味著:我們不需要在所有回復(fù)上都準(zhǔn)確,只需要準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」!
方法創(chuàng)新
用評分準(zhǔn)則捕捉「卓越」
理論清晰了,但新問題來了:如何獲得高質(zhì)量樣本來訓(xùn)練獎(jiǎng)勵(lì)模型?這里存在一個(gè)悖論:
從基礎(chǔ)模型采樣?太低效了——高分樣本本來就稀少。
用更強(qiáng)模型生成?又會(huì)引入分布偏移——獎(jiǎng)勵(lì)模型可能學(xué)到的是表面特征而非真實(shí)能力。
研究團(tuán)隊(duì)提出了基于評分準(zhǔn)則(rubric)的解決方案。評分準(zhǔn)則是一組衡量回答好壞的明確準(zhǔn)則,每個(gè)準(zhǔn)則都有相應(yīng)權(quán)重。比如對于醫(yī)療診斷問題,可能包括:
高權(quán)重準(zhǔn)則:「正確識(shí)別疾病」「標(biāo)明緊急程度」
低權(quán)重準(zhǔn)則:「提及治療方案」
Rubric的核心優(yōu)勢在于:
將評分分解為多個(gè)可驗(yàn)證的具體標(biāo)準(zhǔn)
每個(gè)標(biāo)準(zhǔn)都是二元判斷(滿足/不滿足)
最終得分是滿足標(biāo)準(zhǔn)的加權(quán)平均
更重要的是,Rubric天然具有分布不變性——它關(guān)注的是回復(fù)本身的質(zhì)量特征,而非生成來源。
兩大原則:如何構(gòu)建有效的Rubric
為了讓Rubric真正捕捉高分區(qū)的差異,研究團(tuán)隊(duì)提出兩大關(guān)鍵原則:
原則1:區(qū)分「優(yōu)秀」與「卓越」。通過對比兩個(gè)都很好的回答,識(shí)別它們的細(xì)微差異,將這些差異編碼為新的評分準(zhǔn)則。
原則2:在多樣化的優(yōu)質(zhì)回答中尋找差異。擴(kuò)大候選池,從16個(gè)頂尖模型中采樣,確保覆蓋不同的優(yōu)秀回答模式。
實(shí)驗(yàn)驗(yàn)證
全面碾壓基線方法
研究在通用和醫(yī)療兩個(gè)領(lǐng)域進(jìn)行了大規(guī)模實(shí)驗(yàn):
性能提升明顯
使用優(yōu)質(zhì)樣本改進(jìn)的評分準(zhǔn)則,勝率從31.3%提升至39.7%
醫(yī)療領(lǐng)域的HealthBench得分從0.3004提升至0.3513
初始評分準(zhǔn)則訓(xùn)練的模型在60步后性能急劇下降
改進(jìn)后的評分準(zhǔn)則將崩潰點(diǎn)推遲到160步,延長了近3倍
高獎(jiǎng)勵(lì)區(qū)域準(zhǔn)確率大幅提升
評分準(zhǔn)則改進(jìn)后,在高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率提升顯著,而低獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率基本不變,完美驗(yàn)證了理論預(yù)測。
質(zhì)的飛躍:優(yōu)秀樣本帶來更深層的改進(jìn)
研究團(tuán)隊(duì)還分析了不同質(zhì)量樣本帶來的Rubric改進(jìn)類型:
優(yōu)秀樣本驅(qū)動(dòng)的改進(jìn):
添加懲罰項(xiàng),避免明顯錯(cuò)誤
放寬過于嚴(yán)格的標(biāo)準(zhǔn)
糾正錯(cuò)誤或?qū)R預(yù)期標(biāo)準(zhǔn)
卓越樣本驅(qū)動(dòng)的改進(jìn):
將復(fù)雜標(biāo)準(zhǔn)分解為子標(biāo)準(zhǔn)
增強(qiáng)驗(yàn)證和證據(jù)標(biāo)準(zhǔn)
明確范圍、邊界和約束
納入風(fēng)險(xiǎn)分析和安全約束
以醫(yī)療案例為例:
初始Rubric只要求「提到正確診斷」和「說明緊急性」——兩個(gè)優(yōu)秀回復(fù)都滿足。
精煉后的Rubric新增標(biāo)準(zhǔn):「明確指出需要緊急影像學(xué)檢查(如增強(qiáng)CT或MRI/MRV)來確認(rèn)診斷」,成功區(qū)分出了更好的那個(gè)。
這就是質(zhì)的飛躍:從表面判斷到深層驗(yàn)證標(biāo)準(zhǔn)。
產(chǎn)業(yè)意義與展望
這項(xiàng)研究為大模型對齊提供了全新視角:
理論指導(dǎo)實(shí)踐:明確了獎(jiǎng)勵(lì)建模的優(yōu)化方向——聚焦高獎(jiǎng)勵(lì)區(qū)域
方法可操作性強(qiáng):基于評分準(zhǔn)則的方法易于實(shí)施和解釋
領(lǐng)域適應(yīng)性好:在醫(yī)療等專業(yè)領(lǐng)域表現(xiàn)尤其出色
當(dāng)然,研究也指出了當(dāng)前的局限:
簡單的加權(quán)平均可能不是最優(yōu)的分?jǐn)?shù)聚合方式
對于大模型從業(yè)者來說,這項(xiàng)工作提供了一個(gè)清晰的方向:
不要試圖在所有地方都完美,專注于準(zhǔn)確區(qū)分頂尖回復(fù),這才是對齊的關(guān)鍵。
參考資料:
https://arxiv.org/abs/2509.21500
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.