夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

SFT遠不如RL?永不過時的剃刀原則打開終身學(xué)習(xí)大模型訓(xùn)練的大門

0
分享至



機器之心報道

編輯:冷貓

我們已經(jīng)進入了大模型時代,越來越多的應(yīng)用依賴大模型的能力,可以說大模型已經(jīng)成為智能化基礎(chǔ)設(shè)施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機器人等各種下游應(yīng)用。

在大模型的實際使用中我們發(fā)現(xiàn),大部分的模型還只是某個細分領(lǐng)域任務(wù)的大牛,離我們理想中的 AGI 仍然遙遙無期。

準(zhǔn)確的說,這些投入部署的大模型大多是「靜態(tài)」模型,對于其預(yù)訓(xùn)練或微調(diào)時優(yōu)化的系列任務(wù)表現(xiàn)良好,但是在動態(tài)學(xué)習(xí),自我提升這部分能力是缺位的。

如果我們希望實現(xiàn)更加通用的大模型,使其能像長期的智能助手一樣,隨時間不斷適應(yīng)新的任務(wù)與需求,很多技術(shù)瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災(zāi)難性遺忘」。

相信大家對這個概念已經(jīng)非常熟悉了,災(zāi)難性遺忘指的是模型在學(xué)習(xí)新任務(wù)時,會丟掉之前學(xué)到的技能。擴大模型規(guī)模、增加預(yù)訓(xùn)練數(shù)據(jù)確實能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。



圖源:小紅書 @機器壞人(AI 版)

針對災(zāi)難性遺忘的問題,研究者們提出了各種各樣的改進方法,包括正則化、經(jīng)驗回放、參數(shù)微調(diào)等等。

但有沒有一種可能,我們對大模型遺忘的研究想的有些太復(fù)雜了,如無必要勿增實體的剃刀原則才是根治問題的最佳手段。

幾天前,來自麻省理工學(xué)院(MIT)Improbable AI Lab 的研究者針對該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓(xùn)練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓(xùn)練策略,目前已在 Alphaxiv 上熱度排名第一。



  • 論文標(biāo)題:RL's Razor: Why Online Reinforcement Learning Forgets Less
  • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

現(xiàn)代 AI 系統(tǒng)面臨一個根本性挑戰(zhàn):在學(xué)習(xí)新任務(wù)時,它們常常災(zāi)難性地遺忘先前獲得的知識。這種現(xiàn)象嚴(yán)重限制了基礎(chǔ)模型作為長期、持續(xù)學(xué)習(xí)代理的能力。

這項研究集中在一個驚人的實證觀察上:

研究者比較了兩種常見的后訓(xùn)練方式:監(jiān)督微調(diào)(SFT) 和 強化學(xué)習(xí)(RL)。結(jié)果很出乎意料:

  • 即便 SFT 和 RL 在新任務(wù)上表現(xiàn)一樣好,SFT 往往是通過 「犧牲舊知識」 來換取新任務(wù)的提升;
  • RL 卻能在學(xué)習(xí)新技能的同時,更多地保留原有能力。

那么問題來了:為什么 RL 不容易遺忘?

遺忘定律

研究揭示了一個新的規(guī)律,稱為 「遺忘定律」:

當(dāng)模型 π 在新任務(wù) τ 上進行微調(diào)時,遺忘程度可以通過 精確預(yù)測,即在新任務(wù)上評估的微調(diào)策略和基線策略之間的KL散度



這條定律在實踐中非常有用,因為它可以在微調(diào)過程中進行測量甚至影響,而無需訪問舊任務(wù)數(shù)據(jù)。盡管其機制仍有待充分理解,但這條定律在不同模型和領(lǐng)域之間的一致性表明它反映了遺忘的一個基本屬性。

也就是說,微調(diào)后模型與原始模型在新任務(wù)分布上的差異越大,遺忘就越嚴(yán)重。



偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務(wù)的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務(wù)性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗任務(wù)的知識。

研究者進行了廣泛的實驗,以確定什么因素預(yù)示著災(zāi)難性遺忘。他們測試了各種假設(shè),包括權(quán)重級變化、表示偏移和分布差異。通過對多個領(lǐng)域和模型架構(gòu)進行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調(diào)策略和基礎(chǔ)策略之間的前向 KL 散度是遺忘的一個驚人一致的預(yù)測指標(biāo)

前向 KL 散度定義為:



其中代表微調(diào)策略,代表原始模型。





這種關(guān)系適用于不同的訓(xùn)練算法和超參數(shù),形成了作者所稱的「經(jīng)驗性遺忘定律」。在使用簡化 ParityMNIST 任務(wù)的對照實驗中,這種關(guān)系實現(xiàn)了 0.96 的 R2,證明了其預(yù)測能力。



該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語言模型(數(shù)學(xué)、科學(xué)問答、工具使用)和機器人任務(wù)中,RL 在新任務(wù)性能和先驗知識保留之間實現(xiàn)了更好的權(quán)衡。

RL 的剃刀:KL 最小路徑原理

更有意思的是,RL 的優(yōu)勢正來自于它的 「KL 偏好」。

  • 在新任務(wù)上,存在許多能達到高表現(xiàn)的解。
  • RL 天然偏向選擇那些 離原始模型更近(KL 更?。?的解;
  • 而 SFT 則可能收斂到距離原始模型很遠的解,從而帶來嚴(yán)重遺忘。

核心理論貢獻是「RL 的剃刀」—— 即在解決新任務(wù)的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

為了驗證 KL 假設(shè),研究者構(gòu)造了一個理想的 「oracle SFT」 分布:它在保證新任務(wù)完美準(zhǔn)確的同時,也做到 KL 最小化。結(jié)果顯示,在這個分布上訓(xùn)練,遺忘比 RL 還少。這說明 RL 的優(yōu)勢并不是來自某種「本質(zhì)上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓(xùn)練過程偏向 KL 最小解,模型遺忘就會隨之減少。



左圖通過使用一個「Oracle SFT」分布來證明這一原理,該分布在實現(xiàn)完美新任務(wù)準(zhǔn)確性的同時,解析地最小化了 KL 散度。使用這種 Oracle 分布進行訓(xùn)練產(chǎn)生的遺忘比標(biāo)準(zhǔn) RL 更少,證實了 KL 最小化是關(guān)鍵機制。中圖展示了 KL 散度與遺忘之間的強關(guān)聯(lián)(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實現(xiàn)高準(zhǔn)確性。

機制分析:在線策略學(xué)習(xí)與離線策略學(xué)習(xí)

為了理解 RL 何種機制驅(qū)動了其 KL 保守行為,研究人員比較了四種不同的訓(xùn)練范式:

分析揭示,數(shù)據(jù)收集的在線策略性質(zhì)是關(guān)鍵因素,而不是負(fù)面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗任務(wù)保留,而離線方法(SFT 和 SimPO)無論是否使用負(fù)面示例,其行為都相似。

理論基礎(chǔ)

作者通過信息幾何的視角,為強化學(xué)習(xí)的 KL - 最小收斂提供了理論基礎(chǔ)。他們表明,帶有二元獎勵的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:



這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎勵約束的同時最小化 KL 散度,而 M - 投影步驟則朝著更高獎勵的動作更新。

更多數(shù)據(jù)

這項研究表明,這一原理超越了簡單的實驗環(huán)境。使用中心核對齊(Centered Kernel Alignment)進行的表示保留分析表明,與 SFT 相比,RL 保持與基礎(chǔ)模型更高的相似性:



此外,對更大模型(70 億和 140 億參數(shù))的實驗證實,僅僅擴大規(guī)模并不能消除 SFT 中固有的遺忘權(quán)衡:



總結(jié)

本篇論文的核心貢獻有三點:

1. 實驗證明:在相同性能下,RL 比 SFT 更不容易遺忘

2. 提出遺忘定律:新任務(wù)上的KL 散度是預(yù)測遺忘的關(guān)鍵指標(biāo)。

3. 理論與實證結(jié)合,解釋了RL 的優(yōu)勢來自其 on-policy 特性

這項研究為后訓(xùn)練提供了新的視角:為了實現(xiàn)無遺忘的持續(xù)適應(yīng),算法應(yīng)該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學(xué)習(xí)系統(tǒng)的基本設(shè)計原則。

這一原則為設(shè)計未來的訓(xùn)練方法打開了大門,這些方法將 RL 保留先驗知識的能力與 SFT 的效率相結(jié)合,使基礎(chǔ)模型能夠真正地「終身學(xué)習(xí)」。

對于使用基礎(chǔ)模型的實踐者來說,這項研究提供了明確的指導(dǎo):當(dāng)持續(xù)適應(yīng)很重要時,在線策略 RL 方法比標(biāo)準(zhǔn)微調(diào)方法具有顯著優(yōu)勢。KL 散度指標(biāo)還為模型適應(yīng)期間的遺忘監(jiān)測和預(yù)測提供了一個實用工具。

這項工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實踐是有效的,將經(jīng)驗觀察提升到理論基礎(chǔ)。這種原則性理解為開發(fā)真正長壽、能夠持續(xù)學(xué)習(xí)而不會災(zāi)難性遺忘的 AI 代理開辟了新方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
小米的麻煩還沒停,質(zhì)監(jiān)局介入了

小米的麻煩還沒停,質(zhì)監(jiān)局介入了

ZAKER新聞
2025-10-24 17:31:08
張韶涵演唱會“孔雀開屏”被搞砸!頭飾被卡表情無奈,伴舞闖大禍

張韶涵演唱會“孔雀開屏”被搞砸!頭飾被卡表情無奈,伴舞闖大禍

小海娛計
2025-10-26 16:19:40
戲子誤國,被央視點名批評的3位明星,沒一個值得大眾同情!

戲子誤國,被央視點名批評的3位明星,沒一個值得大眾同情!

手工制作阿殲
2025-10-24 11:44:10
“兩證”或?qū)⑷∠?,過路費也迎來了新政策調(diào)整,車主卻直呼:這太不公平

“兩證”或?qū)⑷∠?,過路費也迎來了新政策調(diào)整,車主卻直呼:這太不公平

音樂時光的娛樂
2025-10-25 08:41:16
你有去高檔會所消費的經(jīng)歷嗎?網(wǎng)友:女客戶都是穿著浴袍簽合同

你有去高檔會所消費的經(jīng)歷嗎?網(wǎng)友:女客戶都是穿著浴袍簽合同

瓜哥的動物日記
2025-10-26 04:47:36
哪個細節(jié)讓你覺得一個人情商高的可怕?網(wǎng)友:女經(jīng)理晚上送粥給我

哪個細節(jié)讓你覺得一個人情商高的可怕?網(wǎng)友:女經(jīng)理晚上送粥給我

朗威談星座
2025-10-27 06:28:12
上海申花2-2大連英博,賽后評分:上海申花15號排第一

上海申花2-2大連英博,賽后評分:上海申花15號排第一

凌空倒鉤
2025-10-26 21:46:47
籃板狂魔!莊神15分鐘搶下13籃板,隊記盛贊扭轉(zhuǎn)比賽局勢

籃板狂魔!莊神15分鐘搶下13籃板,隊記盛贊扭轉(zhuǎn)比賽局勢

雷速體育
2025-10-26 10:38:07
100克豆芽竟能甩掉半腸廢料?浙江大學(xué)研究證實:36小時噗噗通暢

100克豆芽竟能甩掉半腸廢料?浙江大學(xué)研究證實:36小時噗噗通暢

思思夜話
2025-10-25 13:22:41
人老了,再憋的慌也不要去這幾個地方:1、原來的單位;2、不遠不近的親戚;3、可有可無的聚會...

人老了,再憋的慌也不要去這幾個地方:1、原來的單位;2、不遠不近的親戚;3、可有可無的聚會...

老板手記
2025-10-24 16:11:55
東北雨姐近況曝光,穿8999元褲子買手機,坐臺階上抽煙姿勢豪邁

東北雨姐近況曝光,穿8999元褲子買手機,坐臺階上抽煙姿勢豪邁

小海娛計
2025-10-25 16:13:32
被特朗普赦免的趙長鵬,個人財富6000億,背后的農(nóng)村情人更是傳奇

被特朗普赦免的趙長鵬,個人財富6000億,背后的農(nóng)村情人更是傳奇

攬星河的筆記
2025-10-25 20:04:35
1億訂單的笑柄,沒有最離譜,只有更離譜,車企吹水游戲結(jié)束了

1億訂單的笑柄,沒有最離譜,只有更離譜,車企吹水游戲結(jié)束了

柏銘銳談
2025-10-26 21:27:54
創(chuàng)NCAA生涯新高!男籃雙星王俊杰23分12罰11中 趙維倫0+0+0+0+0

創(chuàng)NCAA生涯新高!男籃雙星王俊杰23分12罰11中 趙維倫0+0+0+0+0

醉臥浮生
2025-10-26 13:01:42
馬斯克的讀書方法真好用,建議模仿,通過讀書,你可以學(xué)會任何事

馬斯克的讀書方法真好用,建議模仿,通過讀書,你可以學(xué)會任何事

阿胖讀書
2025-10-26 22:36:11
“水果第一股”被取消上市地位,一場從600億歸零的資本迷局

“水果第一股”被取消上市地位,一場從600億歸零的資本迷局

鈦媒體APP
2025-10-26 21:34:11
這兩條流氓新聞,用“惡”來形容都顯得太文明了

這兩條流氓新聞,用“惡”來形容都顯得太文明了

清書先生
2025-10-10 16:39:59
未來十年6行業(yè)預(yù)警:裁員降薪要來了,從業(yè)者早準(zhǔn)備!

未來十年6行業(yè)預(yù)警:裁員降薪要來了,從業(yè)者早準(zhǔn)備!

音樂時光的娛樂
2025-10-26 10:15:31
自作孽不可活!40年不向中國低頭,如今停產(chǎn)、裁員,落得一地雞毛

自作孽不可活!40年不向中國低頭,如今停產(chǎn)、裁員,落得一地雞毛

奉壹數(shù)碼
2025-10-23 19:37:21
獨生女家庭醒醒吧,大部分的女婿成不了岳父母的半個兒子,主要有2個原因

獨生女家庭醒醒吧,大部分的女婿成不了岳父母的半個兒子,主要有2個原因

有故事的人
2025-10-27 06:35:23
2025-10-27 07:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11554文章數(shù) 142495關(guān)注度
往期回顧 全部

科技要聞

誰“殺死”了新能源汽車周榜?

頭條要聞

原研藥賽能缺貨致價格翻倍已有藥店限購 相關(guān)企業(yè)回應(yīng)

頭條要聞

原研藥賽能缺貨致價格翻倍已有藥店限購 相關(guān)企業(yè)回應(yīng)

體育要聞

中超形勢:海港1分領(lǐng)跑 爭冠3隊僅差2分

娛樂要聞

邁克爾·杰克遜女兒拿到4.6億仍要索賠

財經(jīng)要聞

李成鋼:中美就有關(guān)議題形成了初步共識

汽車要聞

兩條腿走得更遠 哈弗H6L為燃油SUV上分

態(tài)度原創(chuàng)

房產(chǎn)
手機
游戲
親子
數(shù)碼

房產(chǎn)要聞

十年冠領(lǐng)三亞,三亞灣心百億大盤煥新再領(lǐng)航!

手機要聞

曝小米17系列實時激活銷量開始沖200萬臺:背屏設(shè)計+檔期優(yōu)勢

魔壇節(jié)奏丨Blade辱罵老板遭禁賽,KK玩家隊奪得GG全能王賽冠軍

親子要聞

這媽媽什么意思?

數(shù)碼要聞

蘋果藏了一手!M5 MacBook Pro隱形升級:SSD速度提升211%

無障礙瀏覽 進入關(guān)懷版 日韩欧美性愛免费网| 亚洲 自拍 另类 欧美 综合| 国产视频xxx| 男女超爽视频免费播放| 久久嫩草一级337p无码专区| 狂躁美女大BBBBBB2020| 在线观看免费a∨网站| 三上悠亚精品一区二区久久| 中文字幕h.xxxxx | 国产特级毛片aaaaaa视频| 香蕉久久网站| 99热只有精| 精品国产乱码久久久久久1区二区| 欧美舔阴高清视频| 亚洲人成色7777777亚洲色| 精品国产情侣高潮露脸在线| 青青操视频免费观看| 国产成人A区在线观看| 亚洲av无码乱码国产精品fc2| 久久99热只有频精品6国语| 少妇无码一区二区二三区| 欧美上床网站| 精品国产成人高清在线| 亚洲无码精品免费视频| 奇米影视7777| 亚洲熟女自拍视频一区| 狠狠热在线视频免费| 另类内射国产在线| 国产乱码精品在线17C| 熟女视频一区二区在线观看| 丰满少妇2中文在线观看| 97中文视频| 7777精品久久久大香线蕉| 国产视频艹在线观看| 亚洲熟女乱色一区二区三区久久久| 少妇扒开小泬让我添视频| 亚洲一区在线观看尤物| 久久久这里只有精品9| 亚洲熟女国产一区二区三区| 亚洲国产码专区| 日韩精品人妻一区二区三区四区|