夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

田淵棟離職Meta,最后一篇論文?

0
分享至


新智元報(bào)道

編輯:桃子

【新智元導(dǎo)讀】離職Meta后,田淵棟團(tuán)隊(duì)最新論文放出了。他們提出的「三門理論」發(fā)現(xiàn),RLVR微調(diào)只在小權(quán)重里發(fā)力,性能提升的同時(shí)又不破壞模型結(jié)構(gòu)。

田淵棟離職Meta之后,最后一篇親筆?

上月末,Meta血裁600人團(tuán)隊(duì),AI大佬田淵棟官宣自己也被裁員。

最近,他在Meta期間一篇論文正式發(fā)布,已被頂會(huì)NeurIPS 2025錄用。


最新研究中,他們發(fā)現(xiàn)一個(gè)反常卻穩(wěn)定的規(guī)律——

強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)雖能提升模型性能,但幾乎不碰主方向上的權(quán)重。

這是一種受模型結(jié)構(gòu)自身約束的優(yōu)化偏置。

這背后的原因究竟是什么,不如打開(kāi)「黑箱」看一看。


論文地址:https://arxiv.org/pdf/2511.08567

論文中,團(tuán)隊(duì)提出了「三門理論」,即KL錨點(diǎn) → 幾何結(jié)構(gòu) → 精度。

它能解釋并刻畫AI獨(dú)特的優(yōu)化行為,也為近期一系列來(lái)自參數(shù)空間的觀察現(xiàn)象,提供了可解釋性:

其中就包括,RL更新稀疏、RL遺忘較少,在線量化秩序一次校準(zhǔn)。

更重要的是,RLVR的優(yōu)化方式與監(jiān)督微調(diào)(SFT)完全不同,而且,人們常在SFT中用到的方法,不一定在RL中好使。



總言之,新論文最大的貢獻(xiàn)在于,首次繪制出RLVR訓(xùn)練動(dòng)態(tài)的「參數(shù)層面全景圖」。

RL學(xué)習(xí),優(yōu)化偏差從哪來(lái)?

在研究之前,Meta團(tuán)隊(duì)提出了一個(gè)關(guān)于RL學(xué)習(xí)動(dòng)態(tài)的核心問(wèn)題:

優(yōu)化偏差是從哪里產(chǎn)生的?它在訓(xùn)練過(guò)程中如何影響參數(shù)的變化?


為此,他們專門探索了RLVR方法。

它是通過(guò)使用確定性的、可驗(yàn)證的獎(jiǎng)勵(lì)函數(shù),去提高LLM在精確任務(wù)中的性能。

RLVR會(huì)在同一個(gè)預(yù)訓(xùn)練模型的前提下,把更新引導(dǎo)到跨不同運(yùn)行、數(shù)據(jù)集和訓(xùn)練方案中的同一類偏好區(qū)域。這是一種受模型本身影響的優(yōu)化偏向。

如下所示,在訓(xùn)練過(guò)程中,RL會(huì)把更新集中在同一模型的相同區(qū)域。


每個(gè)面板展示的是一個(gè)0-1更新掩碼(1=已更改,0= 更改)。盡管使用的數(shù)據(jù)和算法不同,這種條紋狀模式仍在不同運(yùn)行中反復(fù)出現(xiàn)

1 RL會(huì)將更新定位到同一模型的相同區(qū)域

這里,作者分析了DeepSeek-R1-Distill-Qwen-1.5B的5次微調(diào)運(yùn)行。

這些運(yùn)行分別使用了,包括數(shù)學(xué)、代碼等多樣化數(shù)據(jù),以及不同的RL變體,如GRPO、DAPO、Reinforcement++。

首先計(jì)算更新掩碼 M_i,通過(guò)比較基礎(chǔ)模型和微調(diào)模型來(lái)追蹤更新集中在哪些位置。

隨后,更新一致性比率:


如下所示,在五次RLVR運(yùn)行中,團(tuán)隊(duì)繪制了第13層的投影(Q/K/V/O)以及MLP的下投影。

較亮的條帶標(biāo)記了在大多數(shù)運(yùn)行中被更新的坐標(biāo),呈現(xiàn)出一種穩(wěn)定的、類似條紋的路由模式,而不是隨機(jī)散布。


權(quán)重更新的一致性比例

2 優(yōu)化偏向在整個(gè)訓(xùn)練過(guò)程中持續(xù)存在

為了研究單次運(yùn)行內(nèi)部的動(dòng)態(tài)變化,作者又在DeepSeek-R1-Distill-Qwen-1.5上,跟蹤了訓(xùn)練步驟中的按行和按列的更新比率:


下圖中,路由偏向在訓(xùn)練初期便開(kāi)始出現(xiàn),并在訓(xùn)練推進(jìn)中不斷增強(qiáng)。

這表明這是一種隨時(shí)間保持穩(wěn)定的現(xiàn)象,而不是短暫的偶發(fā)現(xiàn)象。 其峰值與圖2中的偏置結(jié)構(gòu)一致。


3 這種偏向可在不同模型族之間泛化

不僅如此,作者又在Llama和Mistral上,同樣觀察到了類似的條紋結(jié)構(gòu)特征。

這表明,這種路由偏向是RLVR的普遍現(xiàn)象。


「三門」理論,破解黑盒

那么,究竟是什么驅(qū)動(dòng)了RLVR獨(dú)特的訓(xùn)練動(dòng)態(tài)?

論文中,研究人員提出了一個(gè)「三門理論」。具體來(lái)說(shuō),每一步RL更新都會(huì)經(jīng)過(guò)三個(gè)「門」——

它們共同將更新從主方向偏離,并引導(dǎo)進(jìn)入低曲率、保持譜結(jié)構(gòu)的區(qū)域。

門一: KL錨點(diǎn)對(duì)更新的約束

實(shí)驗(yàn)顯示,同策略(on-policy) 的RL更新,會(huì)施加一種隱式的KL「牽引繩」,即錨點(diǎn)效應(yīng)。

這使得每一步策略的偏移都保持很小。

巧的是,這一觀察與近期MIT、斯坦福等機(jī)構(gòu)研究的觀點(diǎn)一致。此前研究表明,最終策略也與初始策略保持KL上的接近。



接下來(lái)的重點(diǎn)在于,這條「牽引繩」是如何影響權(quán)重更新的動(dòng)態(tài)過(guò)程?

門二:模型幾何結(jié)構(gòu)決定KL約束下更新的落點(diǎn)

上面的門一,提供了限制單步偏移的KL「牽引繩」,但并不規(guī)定更新會(huì)落在哪里。

在一個(gè)預(yù)訓(xùn)練良好、具有結(jié)構(gòu)化幾何特性的模型中,小幅更新會(huì)局限在其既有幾何結(jié)構(gòu)內(nèi)。

根據(jù)矩陣擾動(dòng)理論,如Wedin的sin-Θ定理),小范數(shù)擾動(dòng)只會(huì)導(dǎo)致極小的子空間旋轉(zhuǎn),并保持近乎穩(wěn)定的譜結(jié)構(gòu)。

在KL約束下,RL更新往往會(huì)保持模型的原始權(quán)重結(jié)構(gòu),而不是將其破壞。

因此,更新會(huì)自然偏向優(yōu)化地形的低曲率方向,從而避免模型行為出現(xiàn)劇烈變化。

鑒于直接在長(zhǎng)CoT的LRM中量化曲率成本極高,團(tuán)隊(duì)又采用一種高效的替代指標(biāo)——主權(quán)重(principal weight)。

門三:精度限制

正如作者所言,存不下的東西看起來(lái)就像「稀疏」的。

bf16的有限精度(僅有7位尾數(shù))像一塊「透鏡」:它會(huì)掩蓋那些RL想持續(xù)施加但幅度過(guò)小、無(wú)法被有效存儲(chǔ)的微更新。

基于理論的驗(yàn)證:RLVR優(yōu)化動(dòng)態(tài)

在參數(shù)層面,作者驗(yàn)證了RLVR的學(xué)習(xí)動(dòng)態(tài),其與理論框架高度一致。

尤其是,門二所描述的「更新偏向非主權(quán)重」。RLVR在提升推理能力的同時(shí)避開(kāi)主方向:

它保持譜幾何結(jié)構(gòu)、避開(kāi)主權(quán)重;而一旦預(yù)訓(xùn)練的幾何結(jié)構(gòu)被破壞,這種優(yōu)化偏向也會(huì)隨之消失。


RLVR保持譜幾何結(jié)構(gòu),而SFT會(huì)破壞它

如下所示,是SFT與RLVR在Qwen3-8B-Base上的譜幾何對(duì)比。

與SFT相比,RLVR能保持穩(wěn)定的前k階譜,并顯著減少子空間旋轉(zhuǎn)。


左圖:示例層的前k個(gè)主角度和奇異值曲線;右圖:跨所有層的最大主角度與歸一化譜漂移

RLVR會(huì)避開(kāi)主權(quán)重,而SFT則會(huì)直接更新主權(quán)重

下圖中,RL會(huì)避免更新主權(quán)重。

研究人員將RL的更新掩碼與主權(quán)重掩碼M_princ、低幅值掩碼M_low,以及二者的組合M_princ ∩ M_low^c進(jìn)行對(duì)比。

RL更新與主權(quán)重之間的逐層重疊比例始終低于隨機(jī)水平;

而當(dāng)去除其與M_low的重疊權(quán)重(即M_princ ∩ M_low^c)后,這種效應(yīng)表現(xiàn)得更為明顯。


RL算法重新思考

作者觀察到的訓(xùn)練動(dòng)態(tài)揭示了一個(gè)超越機(jī)制本身的重要洞見(jiàn):

RL在參數(shù)空間中的優(yōu)化機(jī)制,與SFT完全不同。

那些誕生于SFT時(shí)代的舊PEFT方法,尤其是依賴稀疏或低秩先驗(yàn)、并因此與SFT訓(xùn)練動(dòng)態(tài)高度對(duì)齊的方法,在RLVR中的遷移表現(xiàn)并不好。

下圖中的曲線直接驗(yàn)證了:SFT中偏好的主方向更新,對(duì)于RL并不有效。


下圖中,是LoRA與PiSSA在DS-Qwen-1.5B(DeepMath-103K)上的表現(xiàn)對(duì)比。

整體來(lái)看,PiSSA(以主方向?yàn)槟繕?biāo))相較LoRA并未帶來(lái)額外收益;

并且在較高學(xué)習(xí)率、被強(qiáng)制推動(dòng)主方向更新時(shí),它往往會(huì)在早期崩潰,而LoRA依然更為穩(wěn)定。

這一結(jié)果支持了研究中的幾何分析:強(qiáng)行將更新推入SFT所偏好的主方向與RL的優(yōu)化特性并不匹配,不但無(wú)法帶來(lái)明顯收益,還會(huì)在放大學(xué)習(xí)率時(shí)導(dǎo)致訓(xùn)練崩潰。


智能體與RLHF任務(wù)

此外,作者還分析了額外的智能體與RLHF(基于人類反饋的 RL)檢查點(diǎn),并確認(rèn)它們?cè)跈?quán)重空間上的診斷結(jié)果與前文一致:

(i) 主子空間旋轉(zhuǎn)幅度極小,

(ii) 譜漂移輕微,

(iii) 更新與主方向存在顯著錯(cuò)位。

如下是更多關(guān)于關(guān)于智能體和RLHF的實(shí)驗(yàn)結(jié)果。



參考資料:

https://x.com/tydsh/status/1989049095575728156?s=20

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡(jiǎn)歷

中國(guó)共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡(jiǎn)歷

上觀新聞
2025-10-23 18:17:07
女生因王者充值到“貴7”,貧困生資格被取消!窮人不配娛樂(lè)嗎?

女生因王者充值到“貴7”,貧困生資格被取消!窮人不配娛樂(lè)嗎?

易會(huì)科普
2025-11-14 13:08:22
地球是圓的,但這張非常著名的照片,根本證明不了!

地球是圓的,但這張非常著名的照片,根本證明不了!

宇宙的秘密
2025-11-17 00:38:33
異性之間,發(fā)現(xiàn)一個(gè)規(guī)律,男人長(zhǎng)期對(duì)一個(gè)女人有感覺(jué),無(wú)條件寵你,無(wú)非三種可能

異性之間,發(fā)現(xiàn)一個(gè)規(guī)律,男人長(zhǎng)期對(duì)一個(gè)女人有感覺(jué),無(wú)條件寵你,無(wú)非三種可能

LULU生活家
2025-11-15 17:52:52
佘智江:出身湖南黑道,創(chuàng)建KK園區(qū),他表哥成大佬司機(jī)娶小燕子

佘智江:出身湖南黑道,創(chuàng)建KK園區(qū),他表哥成大佬司機(jī)娶小燕子

阿胡
2025-11-13 10:17:34
汪士欽遭遇大規(guī)模網(wǎng)暴,被罵“娘娘腔”,對(duì)年輕球員何必如此?

汪士欽遭遇大規(guī)模網(wǎng)暴,被罵“娘娘腔”,對(duì)年輕球員何必如此?

國(guó)足風(fēng)云
2025-11-18 22:24:08
寧波5月齡女嬰手術(shù)離世后續(xù)!淚照看哭人,手術(shù)黑幕曝光引眾怒

寧波5月齡女嬰手術(shù)離世后續(xù)!淚照看哭人,手術(shù)黑幕曝光引眾怒

鋭娛之樂(lè)
2025-11-18 14:45:57
3客1主!火箭隊(duì)迎艱難賽程!7天對(duì)陣4勁旅,若表現(xiàn)不佳或迎4連敗

3客1主!火箭隊(duì)迎艱難賽程!7天對(duì)陣4勁旅,若表現(xiàn)不佳或迎4連敗

熊哥愛(ài)籃球
2025-11-18 12:33:55
Shams:字母哥左側(cè)腹股溝輕微拉傷,將缺席1至2周

Shams:字母哥左側(cè)腹股溝輕微拉傷,將缺席1至2周

懂球帝
2025-11-19 07:48:13
反華勢(shì)力出現(xiàn)?上海人無(wú)視警告赴日旅游,日漫在華首映,倒賺4億

反華勢(shì)力出現(xiàn)?上海人無(wú)視警告赴日旅游,日漫在華首映,倒賺4億

寒士之言本尊
2025-11-18 21:51:22
日元突然“一邊倒”,日本財(cái)相擔(dān)憂

日元突然“一邊倒”,日本財(cái)相擔(dān)憂

參考消息
2025-11-18 14:05:06
這下沒(méi)爭(zhēng)議了!金球獎(jiǎng)歷年排名榜來(lái)了:你真確定梅西壓住C羅?

這下沒(méi)爭(zhēng)議了!金球獎(jiǎng)歷年排名榜來(lái)了:你真確定梅西壓住C羅?

體壇八點(diǎn)半的那些事兒
2025-11-18 15:22:05
大疆之后,深圳五個(gè)年輕人,又殺出一個(gè)“全球第一”!

大疆之后,深圳五個(gè)年輕人,又殺出一個(gè)“全球第一”!

史紀(jì)文譚
2025-11-12 11:24:53
上世紀(jì)50年代,到底殺了多少地主惡霸?公布的數(shù)據(jù),讓人不敢相信

上世紀(jì)50年代,到底殺了多少地主惡霸?公布的數(shù)據(jù),讓人不敢相信

文史道
2025-11-15 06:45:03
新型“殺豬盤”來(lái)襲!72歲老太被騙30萬(wàn)美元后離婚,美掀“網(wǎng)戀+加密貨幣”騙局

新型“殺豬盤”來(lái)襲!72歲老太被騙30萬(wàn)美元后離婚,美掀“網(wǎng)戀+加密貨幣”騙局

紅星新聞
2025-11-18 13:14:19
17歲嫁54歲將軍,婚后32年懷孕16次,死后葬在八寶山!

17歲嫁54歲將軍,婚后32年懷孕16次,死后葬在八寶山!

紀(jì)實(shí)文錄
2025-05-14 15:12:57
一旦開(kāi)打,要讓解放軍“找不著北”,繼王世堅(jiān)之后,于北辰也火了

一旦開(kāi)打,要讓解放軍“找不著北”,繼王世堅(jiān)之后,于北辰也火了

滄海旅行家
2025-11-18 12:52:41
當(dāng)看到63歲的岳紅和張凱麗同框,才明白穿著得體的含金量有多高

當(dāng)看到63歲的岳紅和張凱麗同框,才明白穿著得體的含金量有多高

花心電影
2025-11-12 22:36:34
烏克蘭一夜重?fù)舳砹_斯三大電網(wǎng)!清理紅軍村26平方公里

烏克蘭一夜重?fù)舳砹_斯三大電網(wǎng)!清理紅軍村26平方公里

項(xiàng)鵬飛
2025-11-17 20:54:09
一場(chǎng)0:0揪出最大災(zāi)星,3場(chǎng)比賽兩次坑苦國(guó)足,邵佳一還敢用他嗎

一場(chǎng)0:0揪出最大災(zāi)星,3場(chǎng)比賽兩次坑苦國(guó)足,邵佳一還敢用他嗎

零度眼看球
2025-11-19 06:53:33
2025-11-19 08:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13901文章數(shù) 66269關(guān)注度
往期回顧 全部

科技要聞

一夜封神,Gemini 3讓谷歌找回“碾壓感”

頭條要聞

女生借款13萬(wàn)被惡意壘高至1260萬(wàn) 抵押950萬(wàn)房產(chǎn)還債

頭條要聞

女生借款13萬(wàn)被惡意壘高至1260萬(wàn) 抵押950萬(wàn)房產(chǎn)還債

體育要聞

結(jié)束最后一次對(duì)決,陳夢(mèng)和朱雨玲笑著相擁

娛樂(lè)要聞

宋佳奪影后動(dòng)了誰(shuí)的奶酪

財(cái)經(jīng)要聞

中美機(jī)器人爆發(fā)了一場(chǎng)論戰(zhàn)

汽車要聞

硬核配置旗艦氣場(chǎng) 嵐圖泰山售37.99萬(wàn)起

態(tài)度原創(chuàng)

數(shù)碼
教育
旅游
游戲
公開(kāi)課

數(shù)碼要聞

蘋果用3D打印造Apple Watch表殼,節(jié)省400噸鈦原料

教育要聞

5個(gè)細(xì)節(jié),看穿校長(zhǎng)的真實(shí)水平

旅游要聞

打造“不打烊”的博物館

魔獸世界:時(shí)光服正式開(kāi)服,排隊(duì)時(shí)間增加,聯(lián)盟成香餑餑!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 世界性猛交ⅩXXX乱大交AV| 亚洲国产丝袜在线| 久久小说亚州| 热99成人精品免费视频| 亚洲乱一区二区| 麻豆果冻传媒精品国产av| 精品国产乱码久久久免费看| 国产jiZZHD精品巨大粗暴长| 在线亚洲精品国产二区图片欧美| 男女性爽大片在线观看| 麻豆午夜福利| 国产精品白浆一区二小说| 人妻解禁av网| 一区二区四区国产| 嫩bbb搡bbbb榛bbbb| 色窝窝m3u8| 人妻少妇精品无码专区| 99久久99久久精品国产片果冰| 亚洲精品成人片在线观看精品字幕 | 亚洲日韩欧美在线观看| 欧美人与动牲交片免费| 亚洲69视频| 婷婷五月天激情小说| 免费永久AV| 久久精品女人天堂av麻| 亚洲熟妇无码久久精品爱| 狠狠操人人操| 欧美xxxx做受欧美| 色,成人,亚洲| 亚洲中文字幕伊人久久无码| a级免费视频| 小小拗女性BBW| 国产爆乳美女娇喘呻吟| av午夜福利亚洲精品福利| 特级做AA爰片毛片免费看| 午夜精品久久久久久毛厂了| 福利无码在线视频| 亚洲午夜爱爱香蕉片| 自拍偷自拍亚洲精品被多人伦好爽| 真实国产精品vr专区| 亚洲日韩欧美一区二区三区|