夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

SFT遠(yuǎn)不如RL?永不過(guò)時(shí)的剃刀原則打開(kāi)終身學(xué)習(xí)大模型訓(xùn)練的大門(mén)

0
分享至



機(jī)器之心報(bào)道

編輯:冷貓

我們已經(jīng)進(jìn)入了大模型時(shí)代,越來(lái)越多的應(yīng)用依賴大模型的能力,可以說(shuō)大模型已經(jīng)成為智能化基礎(chǔ)設(shè)施的核心組成部分,支撐著語(yǔ)言,視覺(jué)分析,智能駕駛,機(jī)器人等各種下游應(yīng)用。

在大模型的實(shí)際使用中我們發(fā)現(xiàn),大部分的模型還只是某個(gè)細(xì)分領(lǐng)域任務(wù)的大牛,離我們理想中的 AGI 仍然遙遙無(wú)期。

準(zhǔn)確的說(shuō),這些投入部署的大模型大多是「靜態(tài)」模型,對(duì)于其預(yù)訓(xùn)練或微調(diào)時(shí)優(yōu)化的系列任務(wù)表現(xiàn)良好,但是在動(dòng)態(tài)學(xué)習(xí),自我提升這部分能力是缺位的。

如果我們希望實(shí)現(xiàn)更加通用的大模型,使其能像長(zhǎng)期的智能助手一樣,隨時(shí)間不斷適應(yīng)新的任務(wù)與需求,很多技術(shù)瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災(zāi)難性遺忘」。

相信大家對(duì)這個(gè)概念已經(jīng)非常熟悉了,災(zāi)難性遺忘指的是模型在學(xué)習(xí)新任務(wù)時(shí),會(huì)丟掉之前學(xué)到的技能。擴(kuò)大模型規(guī)模、增加預(yù)訓(xùn)練數(shù)據(jù)確實(shí)能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。



圖源:小紅書(shū) @機(jī)器壞人(AI 版)

針對(duì)災(zāi)難性遺忘的問(wèn)題,研究者們提出了各種各樣的改進(jìn)方法,包括正則化、經(jīng)驗(yàn)回放、參數(shù)微調(diào)等等。

但有沒(méi)有一種可能,我們對(duì)大模型遺忘的研究想的有些太復(fù)雜了,如無(wú)必要勿增實(shí)體的剃刀原則才是根治問(wèn)題的最佳手段。

幾天前,來(lái)自麻省理工學(xué)院(MIT)Improbable AI Lab 的研究者針對(duì)該問(wèn)題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓(xùn)練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓(xùn)練策略,目前已在 Alphaxiv 上熱度排名第一。



  • 論文標(biāo)題:RL's Razor: Why Online Reinforcement Learning Forgets Less
  • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

現(xiàn)代 AI 系統(tǒng)面臨一個(gè)根本性挑戰(zhàn):在學(xué)習(xí)新任務(wù)時(shí),它們常常災(zāi)難性地遺忘先前獲得的知識(shí)。這種現(xiàn)象嚴(yán)重限制了基礎(chǔ)模型作為長(zhǎng)期、持續(xù)學(xué)習(xí)代理的能力。

這項(xiàng)研究集中在一個(gè)驚人的實(shí)證觀察上:

研究者比較了兩種常見(jiàn)的后訓(xùn)練方式:監(jiān)督微調(diào)(SFT) 和 強(qiáng)化學(xué)習(xí)(RL)。結(jié)果很出乎意料:

  • 即便 SFT 和 RL 在新任務(wù)上表現(xiàn)一樣好,SFT 往往是通過(guò) 「犧牲舊知識(shí)」 來(lái)?yè)Q取新任務(wù)的提升;
  • RL 卻能在學(xué)習(xí)新技能的同時(shí),更多地保留原有能力。

那么問(wèn)題來(lái)了:為什么 RL 不容易遺忘?

遺忘定律

研究揭示了一個(gè)新的規(guī)律,稱為 「遺忘定律」:

當(dāng)模型 π 在新任務(wù) τ 上進(jìn)行微調(diào)時(shí),遺忘程度可以通過(guò) 精確預(yù)測(cè),即在新任務(wù)上評(píng)估的微調(diào)策略和基線策略之間的KL散度



這條定律在實(shí)踐中非常有用,因?yàn)樗梢栽谖⒄{(diào)過(guò)程中進(jìn)行測(cè)量甚至影響,而無(wú)需訪問(wèn)舊任務(wù)數(shù)據(jù)。盡管其機(jī)制仍有待充分理解,但這條定律在不同模型和領(lǐng)域之間的一致性表明它反映了遺忘的一個(gè)基本屬性。

也就是說(shuō),微調(diào)后模型與原始模型在新任務(wù)分布上的差異越大,遺忘就越嚴(yán)重。



偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務(wù)的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務(wù)性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗(yàn)任務(wù)的知識(shí)。

研究者進(jìn)行了廣泛的實(shí)驗(yàn),以確定什么因素預(yù)示著災(zāi)難性遺忘。他們測(cè)試了各種假設(shè),包括權(quán)重級(jí)變化、表示偏移和分布差異。通過(guò)對(duì)多個(gè)領(lǐng)域和模型架構(gòu)進(jìn)行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調(diào)策略和基礎(chǔ)策略之間的前向 KL 散度是遺忘的一個(gè)驚人一致的預(yù)測(cè)指標(biāo)

前向 KL 散度定義為:



其中代表微調(diào)策略,代表原始模型。





這種關(guān)系適用于不同的訓(xùn)練算法和超參數(shù),形成了作者所稱的「經(jīng)驗(yàn)性遺忘定律」。在使用簡(jiǎn)化 ParityMNIST 任務(wù)的對(duì)照實(shí)驗(yàn)中,這種關(guān)系實(shí)現(xiàn)了 0.96 的 R2,證明了其預(yù)測(cè)能力。



該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語(yǔ)言模型(數(shù)學(xué)、科學(xué)問(wèn)答、工具使用)和機(jī)器人任務(wù)中,RL 在新任務(wù)性能和先驗(yàn)知識(shí)保留之間實(shí)現(xiàn)了更好的權(quán)衡。

RL 的剃刀:KL 最小路徑原理

更有意思的是,RL 的優(yōu)勢(shì)正來(lái)自于它的 「KL 偏好」。

  • 在新任務(wù)上,存在許多能達(dá)到高表現(xiàn)的解。
  • RL 天然偏向選擇那些 離原始模型更近(KL 更?。?的解;
  • 而 SFT 則可能收斂到距離原始模型很遠(yuǎn)的解,從而帶來(lái)嚴(yán)重遺忘。

核心理論貢獻(xiàn)是「RL 的剃刀」—— 即在解決新任務(wù)的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

為了驗(yàn)證 KL 假設(shè),研究者構(gòu)造了一個(gè)理想的 「oracle SFT」 分布:它在保證新任務(wù)完美準(zhǔn)確的同時(shí),也做到 KL 最小化。結(jié)果顯示,在這個(gè)分布上訓(xùn)練,遺忘比 RL 還少。這說(shuō)明 RL 的優(yōu)勢(shì)并不是來(lái)自某種「本質(zhì)上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓(xùn)練過(guò)程偏向 KL 最小解,模型遺忘就會(huì)隨之減少。



左圖通過(guò)使用一個(gè)「Oracle SFT」分布來(lái)證明這一原理,該分布在實(shí)現(xiàn)完美新任務(wù)準(zhǔn)確性的同時(shí),解析地最小化了 KL 散度。使用這種 Oracle 分布進(jìn)行訓(xùn)練產(chǎn)生的遺忘比標(biāo)準(zhǔn) RL 更少,證實(shí)了 KL 最小化是關(guān)鍵機(jī)制。中圖展示了 KL 散度與遺忘之間的強(qiáng)關(guān)聯(lián)(R2 = 0.961),而右圖則說(shuō)明了與 SFT 相比,RL 如何通過(guò)較小的 KL 偏移實(shí)現(xiàn)高準(zhǔn)確性。

機(jī)制分析:在線策略學(xué)習(xí)與離線策略學(xué)習(xí)

為了理解 RL 何種機(jī)制驅(qū)動(dòng)了其 KL 保守行為,研究人員比較了四種不同的訓(xùn)練范式:

分析揭示,數(shù)據(jù)收集的在線策略性質(zhì)是關(guān)鍵因素,而不是負(fù)面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗(yàn)任務(wù)保留,而離線方法(SFT 和 SimPO)無(wú)論是否使用負(fù)面示例,其行為都相似。

理論基礎(chǔ)

作者通過(guò)信息幾何的視角,為強(qiáng)化學(xué)習(xí)的 KL - 最小收斂提供了理論基礎(chǔ)。他們表明,帶有二元獎(jiǎng)勵(lì)的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:



這種迭代過(guò)程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎(jiǎng)勵(lì)約束的同時(shí)最小化 KL 散度,而 M - 投影步驟則朝著更高獎(jiǎng)勵(lì)的動(dòng)作更新。

更多數(shù)據(jù)

這項(xiàng)研究表明,這一原理超越了簡(jiǎn)單的實(shí)驗(yàn)環(huán)境。使用中心核對(duì)齊(Centered Kernel Alignment)進(jìn)行的表示保留分析表明,與 SFT 相比,RL 保持與基礎(chǔ)模型更高的相似性:



此外,對(duì)更大模型(70 億和 140 億參數(shù))的實(shí)驗(yàn)證實(shí),僅僅擴(kuò)大規(guī)模并不能消除 SFT 中固有的遺忘權(quán)衡:



總結(jié)

本篇論文的核心貢獻(xiàn)有三點(diǎn):

1. 實(shí)驗(yàn)證明:在相同性能下,RL 比 SFT 更不容易遺忘

2. 提出遺忘定律:新任務(wù)上的KL 散度是預(yù)測(cè)遺忘的關(guān)鍵指標(biāo)。

3. 理論與實(shí)證結(jié)合,解釋了RL 的優(yōu)勢(shì)來(lái)自其 on-policy 特性

這項(xiàng)研究為后訓(xùn)練提供了新的視角:為了實(shí)現(xiàn)無(wú)遺忘的持續(xù)適應(yīng),算法應(yīng)該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學(xué)習(xí)系統(tǒng)的基本設(shè)計(jì)原則。

這一原則為設(shè)計(jì)未來(lái)的訓(xùn)練方法打開(kāi)了大門(mén),這些方法將 RL 保留先驗(yàn)知識(shí)的能力與 SFT 的效率相結(jié)合,使基礎(chǔ)模型能夠真正地「終身學(xué)習(xí)」。

對(duì)于使用基礎(chǔ)模型的實(shí)踐者來(lái)說(shuō),這項(xiàng)研究提供了明確的指導(dǎo):當(dāng)持續(xù)適應(yīng)很重要時(shí),在線策略 RL 方法比標(biāo)準(zhǔn)微調(diào)方法具有顯著優(yōu)勢(shì)。KL 散度指標(biāo)還為模型適應(yīng)期間的遺忘監(jiān)測(cè)和預(yù)測(cè)提供了一個(gè)實(shí)用工具。

這項(xiàng)工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見(jiàn)實(shí)踐是有效的,將經(jīng)驗(yàn)觀察提升到理論基礎(chǔ)。這種原則性理解為開(kāi)發(fā)真正長(zhǎng)壽、能夠持續(xù)學(xué)習(xí)而不會(huì)災(zāi)難性遺忘的 AI 代理開(kāi)辟了新方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
21999元!新機(jī)官宣:12月10日,正式開(kāi)售!

21999元!新機(jī)官宣:12月10日,正式開(kāi)售!

科技堡壘
2025-12-10 12:14:23
高詩(shī)巖一句話回應(yīng)進(jìn)國(guó)家隊(duì)質(zhì)疑!球迷:讓工兵打主力不是你的錯(cuò)

高詩(shī)巖一句話回應(yīng)進(jìn)國(guó)家隊(duì)質(zhì)疑!球迷:讓工兵打主力不是你的錯(cuò)

弄月公子
2025-12-11 22:25:55
她的“霸凌”,居然做得這么明顯?

她的“霸凌”,居然做得這么明顯?

宛沐
2025-12-10 16:00:05
取締、退錢(qián)!荊州多所培訓(xùn)機(jī)構(gòu)被查處!

取締、退錢(qián)!荊州多所培訓(xùn)機(jī)構(gòu)被查處!

更荊州
2025-12-12 09:14:35
繼女訂婚,我送一套婚房,婚宴前晚她來(lái)電:叔叔,明天你別坐主桌

繼女訂婚,我送一套婚房,婚宴前晚她來(lái)電:叔叔,明天你別坐主桌

堇色夜行
2025-12-06 14:47:59
江蘇女排新賽季新氣象:更國(guó)際化,四人接一傳!張常寧去哪當(dāng)教練

江蘇女排新賽季新氣象:更國(guó)際化,四人接一傳!張常寧去哪當(dāng)教練

金毛愛(ài)女排
2025-12-12 00:00:04
馬斯克語(yǔ)出驚人:“日本若繼續(xù)這樣下去,遲早會(huì)從世界上消失!”

馬斯克語(yǔ)出驚人:“日本若繼續(xù)這樣下去,遲早會(huì)從世界上消失!”

忠于法紀(jì)
2025-11-29 22:02:53
中國(guó)不丹爭(zhēng)議地區(qū)加速收回,4500 平方公里,中國(guó)建村固邊難擋

中國(guó)不丹爭(zhēng)議地區(qū)加速收回,4500 平方公里,中國(guó)建村固邊難擋

墨蘭史書(shū)
2025-12-12 02:05:03
無(wú)緣鎖定冬奧資格!中國(guó)男子冰壺隊(duì)不敵美國(guó),戰(zhàn)日本仍有最后機(jī)會(huì)

無(wú)緣鎖定冬奧資格!中國(guó)男子冰壺隊(duì)不敵美國(guó),戰(zhàn)日本仍有最后機(jī)會(huì)

全景體育V
2025-12-11 13:49:27
總決賽11日戰(zhàn)報(bào):雨果一輪游,張本智和過(guò)關(guān),八強(qiáng)對(duì)陣確定

總決賽11日戰(zhàn)報(bào):雨果一輪游,張本智和過(guò)關(guān),八強(qiáng)對(duì)陣確定

老贃是個(gè)手藝人
2025-12-12 08:27:58
笑噴了!陳小紜現(xiàn)場(chǎng)吃瓜,陳妍希離婚前后改變大,陳曉已換背景圖

笑噴了!陳小紜現(xiàn)場(chǎng)吃瓜,陳妍希離婚前后改變大,陳曉已換背景圖

心靜物娛
2025-12-11 09:38:37
一個(gè)壞消息:小米SU7銷量創(chuàng)18個(gè)月新低!好消息是,YU7創(chuàng)新高

一個(gè)壞消息:小米SU7銷量創(chuàng)18個(gè)月新低!好消息是,YU7創(chuàng)新高

互聯(lián)網(wǎng).亂侃秀
2025-12-10 10:03:38
演員舊情還在!柳俊烈「分手惠利」驚喜現(xiàn)身 《1988》合體到齊

演員舊情還在!柳俊烈「分手惠利」驚喜現(xiàn)身 《1988》合體到齊

ETtoday星光云
2025-12-11 17:34:07
4場(chǎng)0勝!英超只剩一個(gè)苦主,全面壓制西甲,超越德甲意甲

4場(chǎng)0勝!英超只剩一個(gè)苦主,全面壓制西甲,超越德甲意甲

嗨皮看球
2025-12-11 14:51:51
2026央視春晚最受觀眾期待名單出爐,網(wǎng)友:“春晚混子”咋又來(lái)了

2026央視春晚最受觀眾期待名單出爐,網(wǎng)友:“春晚混子”咋又來(lái)了

小椰的奶奶
2025-12-12 09:08:26
下午3點(diǎn),CBA傳來(lái)重磅消息,直播版權(quán)已搞定,球迷可以看直播了

下午3點(diǎn),CBA傳來(lái)重磅消息,直播版權(quán)已搞定,球迷可以看直播了

南海浪花
2025-12-11 16:37:46
特朗普對(duì)華冒險(xiǎn):押美國(guó)讓中國(guó)倒退值嗎?

特朗普對(duì)華冒險(xiǎn):押美國(guó)讓中國(guó)倒退值嗎?

倔強(qiáng)到自私
2025-12-11 21:46:16
宋徽宗用瘦金體寫(xiě)的圣旨,幾經(jīng)戰(zhàn)亂而流傳至今,乃真正的國(guó)寶

宋徽宗用瘦金體寫(xiě)的圣旨,幾經(jīng)戰(zhàn)亂而流傳至今,乃真正的國(guó)寶

幸福娃3790
2025-12-11 11:34:53
兩件事得罪中國(guó),英國(guó)首相訪華行程黃了,中方已確認(rèn)將其拒之門(mén)外

兩件事得罪中國(guó),英國(guó)首相訪華行程黃了,中方已確認(rèn)將其拒之門(mén)外

臨云史策
2025-12-10 23:07:06
學(xué)歷貶值太狠!月薪3000,珠海一工廠招現(xiàn)場(chǎng)作業(yè)崗要本科以上…

學(xué)歷貶值太狠!月薪3000,珠海一工廠招現(xiàn)場(chǎng)作業(yè)崗要本科以上…

火山詩(shī)話
2025-12-12 05:51:17
2025-12-12 09:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11898文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實(shí)測(cè)感受來(lái)了

頭條要聞

澤連斯基:已向美提交修訂后的和平計(jì)劃 更新五點(diǎn)信息

頭條要聞

澤連斯基:已向美提交修訂后的和平計(jì)劃 更新五點(diǎn)信息

體育要聞

你最看不上的人,關(guān)鍵時(shí)刻卻最想救你...

娛樂(lè)要聞

黃慧頤曝保劍鋒出軌細(xì)節(jié)!

財(cái)經(jīng)要聞

美國(guó)要組建C5,全世界大吃一驚

汽車(chē)要聞

長(zhǎng)途穿越更輕松 二代哈弗H9穿越版限時(shí)售23.29萬(wàn)

態(tài)度原創(chuàng)

家居
親子
數(shù)碼
旅游
公開(kāi)課

家居要聞

歐式風(fēng)格 純粹優(yōu)雅氣質(zhì)

親子要聞

“請(qǐng)向前一步!”當(dāng)孩子問(wèn)我們有多愛(ài)他時(shí),跟他玩這個(gè)游戲吧

數(shù)碼要聞

蘋(píng)果HomePad曝光:定位AI智能家居中樞,能“刷臉”識(shí)別你的家人

旅游要聞

粉石之城上演“尋夢(mèng)記”

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 奇米影视88888| 米奇影视久狠狠| 日本老女人一区二区| 欧美在线a| 亚洲av中文无码乱人伦app| 搡老女人老妇女老熟女自慰 | 欧美乱伦色就是色网| 国产视频综合在线| 狠狠综合久久综合88亚洲| 中文字幕乱码人妻无码久久久1| 成人久久超碰| 国产成人精品一区二三区| 秋霞电影费理论在线观看| 日本一区二区热| 久久久精品妓女影院妓女网| 一牛影视国产无码| 日本男人天堂| 国产欧美日韩专区发布| 波多野结衣在线播| 亚洲av综合久久久| 好吊妞视频这里有精品| 国产永久免费高清在线| 小受咬床单失禁的GV在线观看| 大桥未久亚洲一区二区| 日本一卡2卡3卡四卡精品网站| 无码国产精品一区二区免费i6| 最近最新中文字幕大全免费3| 毛片久久久久久久| 亚洲中文字幕五| 女人张开双腿男人猛进猛出| 亚洲国产精品无码一区绿茶Av| 国产高清乱码又大又圆| 一区二区无码在线| 裸体欧美BBBB极品BBBB| 久久久亚洲AⅤ无码精品爱豆传媒| 国产午夜AⅤ无码一区二区在线视频| 欧美精品国产精华液| 久久欧洲AV无码精品夜色| 中国少妇性爱| 国产区久久调教虐待| 午夜不卡无码中文字幕影院|