夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

小米AI新論文!雷軍千萬年薪要挖的DeepSeek天才少女署名

0
分享至


智東西
編譯 程茜
編輯 李水青

智東西10月15日消息,10月14日,小米和北京大學(xué)聯(lián)合署名的論文發(fā)表于arXiv,曾被曝獲小米集團(tuán)創(chuàng)始人兼CEO雷軍以千萬年薪招募的DeepSeek“天才少女”羅福莉,出現(xiàn)在了這篇論文的通訊作者之列,但值得注意的是,論文作者中并沒有標(biāo)注羅福莉?qū)儆谛∶状竽P蛨F(tuán)隊(duì)。


通訊作者中的羅福莉是95后,她本科就讀于北京師范大學(xué)計(jì)算機(jī)專業(yè),碩士畢業(yè)于北京大學(xué)計(jì)算語言學(xué)研究所計(jì)算語言學(xué)專業(yè)。隨后羅福莉曾在阿里巴巴達(dá)摩院主導(dǎo)開發(fā)了多語言預(yù)訓(xùn)練模型VECO,并推動(dòng)了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發(fā)。去年年底,小米被曝以千萬年薪挖角DeepSeek-V2核心開發(fā)者之一羅福莉,使其沖上熱搜,但雙方至今都未公開聲明是否正式入職小米。


▲DeepSeek“天才少女”羅福莉(圖源:羅福莉個(gè)人公眾號(hào))

這篇論文提出了提升MoE模型強(qiáng)化學(xué)習(xí)訓(xùn)練的新方法Rollout Routing Replay(R3)。實(shí)驗(yàn)結(jié)果證明,R3的整體性能優(yōu)于GRPO、TIS這類強(qiáng)化學(xué)習(xí)領(lǐng)域提升模型性能的優(yōu)化算法,且引入R3的所有組合方法全過程無崩盤,訓(xùn)練過程中訓(xùn)練-推理KL散度等始終較低,在不影響訓(xùn)練速度的情況下,使得極端token比例減少一個(gè)量級(jí)。

當(dāng)下,強(qiáng)化學(xué)習(xí)(RL)已成為提升大語言模型能力的關(guān)鍵方法。然而,在MoE模型中,路由機(jī)制往往會(huì)引入不穩(wěn)定性,甚至導(dǎo)致強(qiáng)化學(xué)習(xí)訓(xùn)練崩潰,但現(xiàn)有的引入重要性采樣機(jī)制等并不能提升訓(xùn)練穩(wěn)定性。不同于此前采取諸如丟棄差異較大的數(shù)據(jù)之類的變通方法,這篇論文的研究人員希望通過解決路由分布也就是R3來根本性解決這個(gè)問題。

論文地址:https://arxiv.org/pdf/2510.11370

一、破解強(qiáng)化學(xué)習(xí)崩潰的關(guān)鍵方法,小米團(tuán)隊(duì)提出R3

強(qiáng)化學(xué)習(xí)已成為大語言模型后期訓(xùn)練的基石,利用大規(guī)模強(qiáng)化學(xué)習(xí),大模型更深入、更廣泛推理,獲得解決復(fù)雜問題所需的高級(jí)能力,但其面臨的關(guān)鍵挑戰(zhàn)是如何平衡效率和穩(wěn)定性。

現(xiàn)代強(qiáng)化學(xué)習(xí)框架通常使用不同的引擎進(jìn)行推理和訓(xùn)練用于部署,但這種架構(gòu)上的分離可能導(dǎo)致token概率出現(xiàn)分歧,甚至可能導(dǎo)致災(zāi)難性的強(qiáng)化學(xué)習(xí)崩潰。然而,現(xiàn)有的改進(jìn)方法并不能完全解決MoE模型上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)出現(xiàn)的強(qiáng)化學(xué)習(xí)離線策略問題。

研究人員提出的R3,其工作原理是在序列生成期間從推理引擎捕獲路由分布,并將其直接重放到訓(xùn)練引擎中。這一過程可以縮小訓(xùn)練和推理之間的差距,其顯著特征是不同引擎生成的邏輯向量的KL散度(量化兩個(gè)概率分布之間的差異程度,值越小說明兩個(gè)分布越接近)顯著降低,兩個(gè)階段之間概率差異顯著的token數(shù)量減少了大約一個(gè)數(shù)量級(jí)。

此外,該方法同時(shí)適用于在線策略(on-policy)和小批量(mini-batch)式離線策略強(qiáng)化學(xué)習(xí)(off-policy)場景。

論文提到了研究團(tuán)隊(duì)的三大主要貢獻(xiàn):

1、系統(tǒng)識(shí)別和分析了MoE模型中訓(xùn)練和推理之間的路由分布差異,強(qiáng)調(diào)了它們在訓(xùn)練不穩(wěn)定性中的作用;

2、提出Rollout Routing Replay,它重用訓(xùn)練引擎內(nèi)部的推理時(shí)間路由分布,以協(xié)調(diào)訓(xùn)練和推理之間的路由行為;

3、將R3應(yīng)用于多種RL設(shè)置進(jìn)行MoE強(qiáng)化學(xué)習(xí),并表明R3在穩(wěn)定性和整體性能方面優(yōu)于GSPO和TIS。

二、可顯著縮小訓(xùn)練-推理差異,對Agent任務(wù)大有裨益

R3的主要思路是在訓(xùn)練前向傳播過程中重用推理路由掩碼I,同時(shí)仍將softmax應(yīng)用于訓(xùn)練邏輯以保持梯度流。

這種設(shè)計(jì)主要有兩個(gè)目的:一是對齊訓(xùn)練和推理,確保訓(xùn)練重放期間使用的專家與推理期間選擇的專家相匹配,從而消除專家選擇中的不匹配;二是保留梯度數(shù)據(jù)流,通過僅重放掩碼,梯度仍然可以流回logits而不會(huì)干擾計(jì)算圖,這有助于有效地優(yōu)化路由器。


▲重放門控權(quán)重、重放輸出y的計(jì)算方式

具體來看,R3在效率優(yōu)化上,通過路由掩碼緩存(Router Mask Caching)適配多輪對話場景,降低計(jì)算開銷。

其論文提到,緩存的路由掩碼具有相似的屬性,對于相同的前綴token,MoE路由器應(yīng)該產(chǎn)生相同的結(jié)果,因此來自推理引擎的路由掩碼可以與前綴KVCache一起緩存。

對于每個(gè)層和token前綴,相應(yīng)的路由掩碼都存儲(chǔ)在KVCache中。當(dāng)相同的前綴出現(xiàn)并命中緩存時(shí),這些掩碼可以被重用,從而無需重新計(jì)算,這使得R3能夠與前綴緩存機(jī)制無縫集成。

研究人員稱,緩存路由掩碼在Agent場景中有較大應(yīng)用空間。例如軟件工程和網(wǎng)頁瀏覽等Agent任務(wù),都涉及自回歸生成和工具調(diào)用之間的多輪交互,為了提高效率,這些過程直接重用了前幾輪的KVCache,因此無需重新生成已計(jì)算的數(shù)據(jù)。路由掩碼緩存使R3能夠在強(qiáng)化學(xué)習(xí)代理任務(wù)中保持高效,而無需重新預(yù)填充以生成路由掩碼。

為了證明R3在縮小訓(xùn)練-推理差異上的有效性,研究人員使用Qwen3-30B-A3B模型進(jìn)行了驗(yàn)證,其將推理過程中獲得的路由分布緩存在SGLang上,并在Megatron框架內(nèi)重放它們。


▲使用Megatron進(jìn)行兩次前向傳播獲得的概率

結(jié)果表明,應(yīng)用R3后,訓(xùn)練和推理之間的KL散度從1.5×10?3減小到7.5×10??,接近于稠密模型的6.4×10??水平,這表明其訓(xùn)練-推理差異減少。

研究人員還繪制了使用R3的訓(xùn)練-推理差異比率的累積分布圖,對于MoE模型,應(yīng)用R3可將具有較大訓(xùn)練推理差異的token的頻率降低一個(gè)數(shù)量級(jí)。


▲a、MoE模型中訓(xùn)練-推理差異的說明,b、MoE+R3模型中訓(xùn)練-推理差異的說明,c、稠密模型中訓(xùn)練-推理差異的說明,d、極端token分布函數(shù)

三、實(shí)測三大能力提升:整體性能、訓(xùn)練穩(wěn)定、優(yōu)化生成行為

為了評估R3對強(qiáng)化學(xué)習(xí)的性能改進(jìn),研究人員從BigMath、ORZ等開源數(shù)據(jù)集篩選約10萬道可驗(yàn)證數(shù)學(xué)題,采用AIME24、AIME25、AMC23和MATH500作為基準(zhǔn)數(shù)據(jù)集進(jìn)行評估,并在單次訓(xùn)練過程中每5個(gè)全局步驟測量一次模型性能。

其選擇的模型是Qwen3-30B-A3B-Base及其微調(diào)模型Qwen3-30B-A3B-SFT。

評估方式是每5個(gè)全局步驟記錄模型性能,最終報(bào)告最佳性能及對應(yīng)訓(xùn)練步驟,若模型后期性能驟降,同時(shí)追蹤訓(xùn)練崩盤步驟”。

實(shí)驗(yàn)結(jié)果表明,整體性能上,R3在多步更新場景,GRPO+R3平均得分68.05分,比GSPO高出1.29分;GSPO+R3進(jìn)一步提升至69.00,比單獨(dú)GSPO高2.24分。

單步更新場景,SFT模型上,GRPO+R3平均得分71.83分,比GRPO(62.23)高9.6分,比GRPO+TIS(66.24)高5.59分;Base模型上,GRPO+R3平均得分70.73,比GRPO(61.69)高9.04分。


▲主要評估結(jié)果

研究人員還發(fā)現(xiàn),將R3與TIS結(jié)合使用并不能帶來明顯的性能提升,甚至可能降低性能,例如在SFT模型的單小步設(shè)置下,TIS+R3的得分比單獨(dú)使用R3低1.69分。由于R3已經(jīng)顯著降低了訓(xùn)練和推理之間的策略差異,因此TIS的額外校正效果微乎其微。

訓(xùn)練穩(wěn)定性方面:如GRPO、GRPO+TIS等無R3的方法在單步更新場景中均出現(xiàn)崩盤,GRPO在60步崩盤、GRPO+TIS在105步崩盤。

引入R3后,所有組合方法均無崩盤,且訓(xùn)練過程中訓(xùn)練-推理KL散度等始終較低。


▲多步更新訓(xùn)練-推理崩潰分析

優(yōu)化與生成行為方面,在訓(xùn)練過程中,R3還能增強(qiáng)優(yōu)化穩(wěn)定性、探索行為和生成動(dòng)態(tài)。下圖是研究人員繪制的單步+基礎(chǔ)模型組訓(xùn)練過程中的序列長度、梯度范數(shù)、生成熵和評估分?jǐn)?shù)。


▲wen3-30B-A3B-Base訓(xùn)練動(dòng)態(tài)

結(jié)果顯示,R3具有更小的梯度范數(shù)、更平滑的序列增長模式和更穩(wěn)定的熵。實(shí)驗(yàn)中使用R3時(shí),生成的序列長度在訓(xùn)練開始時(shí)迅速上升,表明R3能夠快速捕捉到正確的優(yōu)化方向,相比之下其他兩個(gè)訓(xùn)練過程在第80步之后才緩慢上升,并且波動(dòng)更為明顯;R3始終保持較低的梯度范數(shù),表明優(yōu)化過程更加穩(wěn)定;實(shí)驗(yàn)使用R3時(shí),熵在大約第25步后開始穩(wěn)步上升,表明模型更早地開始探索更優(yōu)策略,不使用R3時(shí),熵上升得更晚,并且波動(dòng)較大。

結(jié)語:聚焦MoE模型訓(xùn)練難題,小米提出新思路

MoE架構(gòu)如今已成為擴(kuò)展現(xiàn)代語言模型的基石,其采用門控網(wǎng)絡(luò),對每個(gè)token稀疏地僅激活一部分專家參數(shù),從而將模型的總參數(shù)數(shù)量與其推理成本分離開來,從而大幅提升了模型容量。然而,由于門控網(wǎng)絡(luò)的敏感性,MoE模型容易受到訓(xùn)練不穩(wěn)定性的影響,這使得路由穩(wěn)健性成為有效模型收斂的核心挑戰(zhàn)。

在這篇論文中,研究人員在訓(xùn)練過程中重用推理時(shí)的路由分布,以在保留梯度流的同時(shí)對齊專家選擇。這種思路或?yàn)樾袠I(yè)提供了新的研究思路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國“預(yù)言家”對神秘天體作出驚人預(yù)測:母艦中飛出許多球形飛船

美國“預(yù)言家”對神秘天體作出驚人預(yù)測:母艦中飛出許多球形飛船

三農(nóng)老歷
2025-10-20 11:22:23
6歲男童被拐17年后,在粥店喝小米粥,突然紅眼道:這是奶奶的手藝

6歲男童被拐17年后,在粥店喝小米粥,突然紅眼道:這是奶奶的手藝

今天說故事
2025-08-04 18:39:27
今年有多少人失業(yè)在家了,看網(wǎng)友評論:我還可以再撐半年了

今年有多少人失業(yè)在家了,看網(wǎng)友評論:我還可以再撐半年了

笑熬漿糊111
2025-10-21 10:48:54
假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭議

假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭議

一盅情懷
2025-09-24 13:57:00
德國媒體一語驚人:因?yàn)橹袊?,特朗普已?jīng)不敢給烏克蘭戰(zhàn)斧導(dǎo)彈了

德國媒體一語驚人:因?yàn)橹袊?,特朗普已?jīng)不敢給烏克蘭戰(zhàn)斧導(dǎo)彈了

溫辭韞
2025-10-21 14:16:00
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
英媒發(fā)現(xiàn):中國,7年來首次

英媒發(fā)現(xiàn):中國,7年來首次

環(huán)球時(shí)報(bào)國際
2025-10-20 23:06:18
馬斯克:中國制止了世界戰(zhàn)爭,如果不是中國,世界大戰(zhàn)早就爆發(fā)了

馬斯克:中國制止了世界戰(zhàn)爭,如果不是中國,世界大戰(zhàn)早就爆發(fā)了

賤議你讀史
2025-10-11 14:57:48
真相大白?不是何琳也不是周迅!陳坤兒子生母,在14年前就公開了

真相大白?不是何琳也不是周迅!陳坤兒子生母,在14年前就公開了

冷紫葉
2025-09-11 16:12:54
新加坡總統(tǒng)喊話中國:不要搞自力更生,乖乖給美國造襯衫換飛機(jī)

新加坡總統(tǒng)喊話中國:不要搞自力更生,乖乖給美國造襯衫換飛機(jī)

頭條爆料007
2025-10-21 13:38:06
老一輩的人思想有多開放?網(wǎng)友:認(rèn)為自己還純潔的朋友慎看哦

老一輩的人思想有多開放?網(wǎng)友:認(rèn)為自己還純潔的朋友慎看哦

解讀熱點(diǎn)事件
2025-10-20 02:27:12
日本首相高市早苗內(nèi)閣名單公布

日本首相高市早苗內(nèi)閣名單公布

新京報(bào)
2025-10-21 15:55:03
活久見!一科技公司把全深圳的臉面都丟光了,吃過外賣還集體逃單

活久見!一科技公司把全深圳的臉面都丟光了,吃過外賣還集體逃單

火山詩話
2025-10-20 10:25:10
被判無期后,四川小伙當(dāng)庭與法官對賭:用我買的槍打死我,就認(rèn)罪

被判無期后,四川小伙當(dāng)庭與法官對賭:用我買的槍打死我,就認(rèn)罪

藝述史
2024-07-27 17:45:21
一夜大漲36元,金飾克價(jià)逼近1300元?

一夜大漲36元,金飾克價(jià)逼近1300元?

界面新聞
2025-10-21 10:54:37
楊振寧去世剛過48小時(shí),更多生活隱秘曝光,被翁帆管得很嚴(yán)

楊振寧去世剛過48小時(shí),更多生活隱秘曝光,被翁帆管得很嚴(yán)

書雁飛史oh
2025-10-20 20:21:39
“咬死”ASML,禁止維修光刻機(jī)只是開始,輪到中國工程師頭疼了!

“咬死”ASML,禁止維修光刻機(jī)只是開始,輪到中國工程師頭疼了!

顧史
2025-10-20 19:44:45
“浩浩媽”黑絲新圖來了!全新影游Demo已上線

“浩浩媽”黑絲新圖來了!全新影游Demo已上線

游民星空
2025-10-21 11:42:20
海外傳來利好消息,聞泰科技股價(jià)漲停

海外傳來利好消息,聞泰科技股價(jià)漲停

泡財(cái)經(jīng)
2025-10-21 13:57:03
楊振寧父親有多牛!民國數(shù)學(xué)天才,教育觀奇特,到死都沒原諒兒子

楊振寧父親有多牛!民國數(shù)學(xué)天才,教育觀奇特,到死都沒原諒兒子

一只番茄魚
2025-10-20 15:48:14
2025-10-21 16:28:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10604文章數(shù) 116878關(guān)注度
往期回顧 全部

科技要聞

歷史新高!市值3.9萬億美元,蘋果又行了?

頭條要聞

特朗普稱將于明年初訪問中國 外交部回應(yīng)

頭條要聞

特朗普稱將于明年初訪問中國 外交部回應(yīng)

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

婚姻中竇驍更強(qiáng)勢,還幾乎零緋聞?

財(cái)經(jīng)要聞

保險(xiǎn)騙傭黑幕:靠高額返傭+短期退保牟利

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

本地
房產(chǎn)
教育
數(shù)碼
軍事航空

本地新聞

云游中國|一腳踏入萬州,才懂煙火江城的真意

房產(chǎn)要聞

太強(qiáng)了!海南4天猛簽1000億,寧德時(shí)代、螞蟻瘋狂增資!

教育要聞

以新課標(biāo)為舵,重構(gòu)整本書閱讀新生態(tài)!這場公益活動(dòng),值得關(guān)注!

數(shù)碼要聞

2K珠峰屏+頂級(jí)性能!iQOO 15發(fā)布,還有Pad和TWS耳機(jī)

軍事要聞

哈馬斯:解除武裝被提上議程

無障礙瀏覽 進(jìn)入關(guān)懷版 动漫av网站免费观看| 国产成人精品综合久久久久| 成码无人av片在线电影网站| 久久久国产成人一区二区| 天堂在线观看免费视频| 性无码区一区二区| 久热这里只有精品在线观看| 日本欧美大码a在线观看| 美女搞黄色视频| 一区av二区| 无码综合天天久久综合网色吧影院| 一区 二区 三区中字| 乱码卡1卡2卡3含羞草| 亚洲色婷婷综合久久久久中文| 成人在线免费观看视频一二三区| 中文字幕无码不卡免费视频| 午夜福利视频合集1000| 国产精品视频a| 在线青涩少妇| 久久精品国产亚洲av麻豆小说 | 成人国产精品一区二区网站| 日本一区二区三区专线| 亚洲国产美女精品久久久 | 日美一区二区| 人人澡人人曰人人摸看| 亚洲91人人草人人| 亚洲AⅤ无码片一区二区三区| 午夜性色一区二区三区不卡视频 | 玩弄欧美肥胖丰满老妇大BBB| 毛茸茸成熟亚洲人| www.depuri.cn| 免费的毛片免费的毛片| 伊人大香线蕉精品在线播放| 暴力强奷在线播放无码| 亚洲va中文慕无码久久av| 精品一区二区不卡| 国产成人年无码av片在线观看| 日本韩国男男作爱gaywww| 亚洲欧洲图片小说99| 成人无码视频在线观看网站| 嫩草在线观看视频99|