夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RL微調(diào),關(guān)鍵在前10%獎(jiǎng)勵(lì)!基于評分準(zhǔn)則,Scale AI等提出新方法

0
分享至


新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】大模型強(qiáng)化學(xué)習(xí)總是「用力過猛」?Scale AI聯(lián)合UCLA、芝加哥大學(xué)的研究團(tuán)隊(duì)提出了一種基于評分準(zhǔn)則(rubric)的獎(jiǎng)勵(lì)建模新方法,從理論和實(shí)驗(yàn)兩個(gè)維度證明:要想讓大模型對齊效果好,關(guān)鍵在于準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」的回答。這項(xiàng)研究不僅揭示了獎(jiǎng)勵(lì)過度優(yōu)化的根源,還提供了實(shí)用的解決方案。

讓大模型按照人類意圖行事,一直是AI領(lǐng)域的核心挑戰(zhàn)。目前主流的強(qiáng)化學(xué)習(xí)微調(diào)(RFT)方法雖然有效,但存在一個(gè)致命弱點(diǎn):獎(jiǎng)勵(lì)過度優(yōu)化(reward over-optimization)。

獎(jiǎng)勵(lì)過度優(yōu)化是大模型對齊的「阿喀琉斯之踵」。

簡單來說,就是模型學(xué)會(huì)了「鉆空子」——它們不是真正變得更好,而是學(xué)會(huì)了如何在獎(jiǎng)勵(lì)模型上刷高分,實(shí)際輸出質(zhì)量反而下降。這就像考試時(shí)學(xué)生死記硬背標(biāo)準(zhǔn)答案來應(yīng)付老師,而不是真正理解知識(shí)。

Scale AI的最新研究直擊這一痛點(diǎn),從理論層面揭示了問題的根源,并提出了創(chuàng)新的解決方案。


論文鏈接:https://arxiv.org/abs/2509.21500

代碼開源:https://github.com/Jun-Kai-Zhang/rubrics

數(shù)據(jù)開源:https://huggingface.co/datasets/JunkaiZ/Rubrics

理論突破

高分區(qū)才是關(guān)鍵戰(zhàn)場

來自Scale AI、UCLA和芝加哥大學(xué)的研究團(tuán)隊(duì),首次從理論上給出了明確答案:

獎(jiǎng)勵(lì)過度優(yōu)化的根源,在于獎(jiǎng)勵(lì)模型在高分區(qū)的不準(zhǔn)確性。

  • 高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確性決定一切:當(dāng)代理獎(jiǎng)勵(lì)在高分區(qū)域出現(xiàn)偏差時(shí),模型性能會(huì)隨著訓(xùn)練進(jìn)程急劇崩潰;而低分區(qū)域的誤差影響微乎其微。

  • 只需要準(zhǔn)確識(shí)別Top 2響應(yīng):即使只能正確排序前10%的優(yōu)質(zhì)回答,模型性能就能接近最優(yōu),效果幾乎與完美獎(jiǎng)勵(lì)模型相當(dāng)。

這意味著:我們不需要在所有回復(fù)上都準(zhǔn)確,需要準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」!


方法創(chuàng)新

用評分準(zhǔn)則捕捉「卓越」

理論清晰了,但新問題來了:如何獲得高質(zhì)量樣本來訓(xùn)練獎(jiǎng)勵(lì)模型?這里存在一個(gè)悖論:

從基礎(chǔ)模型采樣?太低效了——高分樣本本來就稀少。

用更強(qiáng)模型生成?又會(huì)引入分布偏移——獎(jiǎng)勵(lì)模型可能學(xué)到的是表面特征而非真實(shí)能力。

研究團(tuán)隊(duì)提出了基于評分準(zhǔn)則(rubric)的解決方案。評分準(zhǔn)則是一組衡量回答好壞的明確準(zhǔn)則,每個(gè)準(zhǔn)則都有相應(yīng)權(quán)重。比如對于醫(yī)療診斷問題,可能包括:

高權(quán)重準(zhǔn)則:「正確識(shí)別疾病」「標(biāo)明緊急程度」

低權(quán)重準(zhǔn)則:「提及治療方案」

Rubric的核心優(yōu)勢在于

  • 將評分分解為多個(gè)可驗(yàn)證的具體標(biāo)準(zhǔn)

  • 每個(gè)標(biāo)準(zhǔn)都是二元判斷(滿足/不滿足)

  • 最終得分是滿足標(biāo)準(zhǔn)的加權(quán)平均

更重要的是,Rubric天然具有分布不變性——它關(guān)注的是回復(fù)本身的質(zhì)量特征,而非生成來源。


兩大原則:如何構(gòu)建有效的Rubric

為了讓Rubric真正捕捉高分區(qū)的差異,研究團(tuán)隊(duì)提出兩大關(guān)鍵原則:

  • 原則1:區(qū)分「優(yōu)秀」與「卓越」通過對比兩個(gè)都很好的回答,識(shí)別它們的細(xì)微差異,將這些差異編碼為新的評分準(zhǔn)則。

  • 原則2:在多樣化的優(yōu)質(zhì)回答中尋找差異。擴(kuò)大候選池,從16個(gè)頂尖模型中采樣,確保覆蓋不同的優(yōu)秀回答模式。


實(shí)驗(yàn)驗(yàn)證

全面碾壓基線方法

研究在通用和醫(yī)療兩個(gè)領(lǐng)域進(jìn)行了大規(guī)模實(shí)驗(yàn):

性能提升明顯

  • 使用優(yōu)質(zhì)樣本改進(jìn)的評分準(zhǔn)則,勝率從31.3%提升至39.7%

  • 醫(yī)療領(lǐng)域的HealthBench得分從0.3004提升至0.3513

有效緩解獎(jiǎng)勵(lì)過度優(yōu)化
  • 初始評分準(zhǔn)則訓(xùn)練的模型在60步后性能急劇下降

  • 改進(jìn)后的評分準(zhǔn)則將崩潰點(diǎn)推遲到160步,延長了近3倍


高獎(jiǎng)勵(lì)區(qū)域準(zhǔn)確率大幅提升

評分準(zhǔn)則改進(jìn)后,在高獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率提升顯著,而低獎(jiǎng)勵(lì)區(qū)域的準(zhǔn)確率基本不變,完美驗(yàn)證了理論預(yù)測。

質(zhì)的飛躍:優(yōu)秀樣本帶來更深層的改進(jìn)

研究團(tuán)隊(duì)還分析了不同質(zhì)量樣本帶來的Rubric改進(jìn)類型:

優(yōu)秀樣本驅(qū)動(dòng)的改進(jìn)

  • 添加懲罰項(xiàng),避免明顯錯(cuò)誤

  • 放寬過于嚴(yán)格的標(biāo)準(zhǔn)

  • 糾正錯(cuò)誤或?qū)R預(yù)期標(biāo)準(zhǔn)

卓越樣本驅(qū)動(dòng)的改進(jìn)

  • 將復(fù)雜標(biāo)準(zhǔn)分解為子標(biāo)準(zhǔn)

  • 增強(qiáng)驗(yàn)證和證據(jù)標(biāo)準(zhǔn)

  • 明確范圍、邊界和約束

  • 納入風(fēng)險(xiǎn)分析和安全約束

以醫(yī)療案例為例:

初始Rubric只要求「提到正確診斷」和「說明緊急性」——兩個(gè)優(yōu)秀回復(fù)都滿足。

精煉后的Rubric新增標(biāo)準(zhǔn):「明確指出需要緊急影像學(xué)檢查(如增強(qiáng)CT或MRI/MRV)來確認(rèn)診斷」,成功區(qū)分出了更好的那個(gè)。

這就是質(zhì)的飛躍:從表面判斷到深層驗(yàn)證標(biāo)準(zhǔn)。

產(chǎn)業(yè)意義與展望

這項(xiàng)研究為大模型對齊提供了全新視角:

  1. 理論指導(dǎo)實(shí)踐:明確了獎(jiǎng)勵(lì)建模的優(yōu)化方向——聚焦高獎(jiǎng)勵(lì)區(qū)域

  2. 方法可操作性強(qiáng):基于評分準(zhǔn)則的方法易于實(shí)施和解釋

  3. 領(lǐng)域適應(yīng)性好:在醫(yī)療等專業(yè)領(lǐng)域表現(xiàn)尤其出色

當(dāng)然,研究也指出了當(dāng)前的局限:

  • 簡單的加權(quán)平均可能不是最優(yōu)的分?jǐn)?shù)聚合方式

對于大模型從業(yè)者來說,這項(xiàng)工作提供了一個(gè)清晰的方向:

不要試圖在所有地方都完美,專注于準(zhǔn)確區(qū)分頂尖回復(fù),這才是對齊的關(guān)鍵。

參考資料:

https://arxiv.org/abs/2509.21500

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
谷正文回憶錄:叛徒蔡孝乾落網(wǎng)后,患精神病住院7個(gè)月,良心不安

谷正文回憶錄:叛徒蔡孝乾落網(wǎng)后,患精神病住院7個(gè)月,良心不安

凡人侃史
2025-10-16 16:55:21
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2025-10-16 16:57:36
美國終于怕了,比稀土更致命的王牌,終于出手!萬斯:中國要冷靜

美國終于怕了,比稀土更致命的王牌,終于出手!萬斯:中國要冷靜

墨蘭史書
2025-10-15 04:05:03
臺(tái)北車站性侵案始末披露:嫌疑人與香港女游客認(rèn)識(shí),趁其醉酒犯案

臺(tái)北車站性侵案始末披露:嫌疑人與香港女游客認(rèn)識(shí),趁其醉酒犯案

揚(yáng)子晚報(bào)
2025-10-16 22:03:33
官方:2023年NBA最佳第六人布羅格登正式宣布退役

官方:2023年NBA最佳第六人布羅格登正式宣布退役

雷速體育
2025-10-16 04:46:06
滅蚊工作人員擅自闖入拿走綠植,不提供鑰匙就強(qiáng)行開鎖

滅蚊工作人員擅自闖入拿走綠植,不提供鑰匙就強(qiáng)行開鎖

映射生活的身影
2025-10-16 14:18:03
毛主席臨終前為何拿掉葉劍英軍權(quán)?令人不解,多年后才知主席苦心

毛主席臨終前為何拿掉葉劍英軍權(quán)?令人不解,多年后才知主席苦心

云端書館
2024-12-24 08:49:00
男子將8歲女兒鎖衣柜后移民,25年后回老宅卻聽見:輪到你藏了

男子將8歲女兒鎖衣柜后移民,25年后回老宅卻聽見:輪到你藏了

罪案洞察者
2025-10-15 10:44:14
辛苦了!中國男團(tuán)3-0奪冠,黃鎮(zhèn)廷:我不想和你打 王楚欽:我也是

辛苦了!中國男團(tuán)3-0奪冠,黃鎮(zhèn)廷:我不想和你打 王楚欽:我也是

林子說事
2025-10-16 09:45:03
王晶評林志玲:不美,演技很一般,做過醫(yī)美,是包裝出來的美麗

王晶評林志玲:不美,演技很一般,做過醫(yī)美,是包裝出來的美麗

杰絲聊古今
2025-10-15 08:02:54
收評:三大指數(shù)集體沖高回落 全市場近4200只個(gè)股下跌

收評:三大指數(shù)集體沖高回落 全市場近4200只個(gè)股下跌

財(cái)聯(lián)社
2025-10-16 15:02:15
170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

健身迷
2025-09-20 09:22:20
零時(shí)零分,中方反制準(zhǔn)時(shí)開始,美財(cái)長通知中國,100%關(guān)稅可以撤回

零時(shí)零分,中方反制準(zhǔn)時(shí)開始,美財(cái)長通知中國,100%關(guān)稅可以撤回

花小貓的美食日常
2025-10-16 12:01:44
002342,突然直線拉升!

002342,突然直線拉升!

數(shù)據(jù)寶
2025-10-16 14:34:32
丈夫在單位被邊緣化,經(jīng)理讓他主動(dòng)辭職,我打電話過去,經(jīng)理急了

丈夫在單位被邊緣化,經(jīng)理讓他主動(dòng)辭職,我打電話過去,經(jīng)理急了

磊子講史
2025-06-17 11:55:23
開拓者記者:可惜李凱爾明天不打,不然也是某種程度上的德比

開拓者記者:可惜李凱爾明天不打,不然也是某種程度上的德比

狼叔評論
2025-10-16 16:02:07
披著歷史的外衣,劇情假到離譜!《沉默的榮耀》被吐槽一點(diǎn)也不冤

披著歷史的外衣,劇情假到離譜!《沉默的榮耀》被吐槽一點(diǎn)也不冤

小椰的奶奶
2025-10-14 15:11:32
理想L8燒毀一年后離奇“復(fù)活”現(xiàn)身鄭州街頭!原車主可遠(yuǎn)程操控,事故停車場稱損毀車輛已處理,交警部門介入

理想L8燒毀一年后離奇“復(fù)活”現(xiàn)身鄭州街頭!原車主可遠(yuǎn)程操控,事故停車場稱損毀車輛已處理,交警部門介入

大風(fēng)新聞
2025-10-15 12:16:04
南海沖突,100多菲船沖向中國島嶼,砰的一聲響,雙方猛烈碰撞

南海沖突,100多菲船沖向中國島嶼,砰的一聲響,雙方猛烈碰撞

時(shí)時(shí)有聊
2025-10-16 21:52:17
20歲提幫功王子久違回家,越發(fā)像泰王,蘇提達(dá)穿金衣卻被大雨淋濕

20歲提幫功王子久違回家,越發(fā)像泰王,蘇提達(dá)穿金衣卻被大雨淋濕

包餃子ai剪輯
2025-10-16 21:52:39
2025-10-16 23:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13632文章數(shù) 66217關(guān)注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級” 團(tuán)隊(duì)

頭條要聞

到底支持誰當(dāng)國民黨主席 洪秀柱當(dāng)鄭麗文的面說出答案

頭條要聞

到底支持誰當(dāng)國民黨主席 洪秀柱當(dāng)鄭麗文的面說出答案

體育要聞

人口5.5萬,他們還在延續(xù)世界杯的夢想

娛樂要聞

還清債務(wù)的劉濤 已走上了另一條大道

財(cái)經(jīng)要聞

愛爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

提問蓮花馮擎峰:如何保證事故后車門正常開啟?

態(tài)度原創(chuàng)

本地
時(shí)尚
游戲
公開課
軍事航空

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

一下老了30歲?!她真讓人認(rèn)不出

索尼舉辦限時(shí)活動(dòng):買新款PS5送三檔會(huì)員

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

北約舉行一年一度“堅(jiān)定正午”核演習(xí)

無障礙瀏覽 進(jìn)入關(guān)懷版 精品国产乱码久久久久久公司| 丰满人妻一区二区三区视频53| 天堂v亚洲国产v第一次| 老师脱了内裤让我爽了一夜| 人妻互换免费中文字幕| 99热精品毛片全部国产无缓冲| 欧美交换配乱吟粗大视频| 爱爱高清无码| 欧美VA免费高清在线观看| 亚洲成av人片在线观看www| 精品无码人妻被多人侵犯av| 狂日丰满少妇| 日韩一区一区二区三区| 欧美性爱老BB白水| 亚洲AV无码精品色3D肉蒲团| 国产精品久久精品| 涩欲蜜臀小说| A艹日品在线| free性玩弄少妇hd| 国产成人综合久久免费导航| 国产白丝无码免费视频| 欧美性最猛性XXXXX黑白配| 久久久无码视频| 娇妻玩4p被三个男人伺候电影| 日韩精品123| 色吧网站在线播放| 日本人妻一区二区三区| 女人夜夜春高潮爽a∨片传媒| 俺去了俺去搞| gg14.com在线视频观看| 亚洲av少付| 免费天堂中文字幕| 国产精品中文字幕av| 国产成本人片免费av| 视频专区熟女人妻第二页| 午夜成人爽爽爽视频在线观看| 日韩40熟女| 日本18禁免费| 两个人视频全免费高清观看| avtt天堂资源HEYZO| 国产精品传媒二区|