夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Thinking Machine新研究刷屏!結(jié)合RL微調(diào),小模型訓(xùn)練更具性價比

0
分享至

Thinking Machine最新研究正在被熱議!

創(chuàng)始人、OpenAI前CTO Mira Murati親自轉(zhuǎn)發(fā)后,一眾圍觀大佬開始驚嘆其研究價值(截不完、根本截不完):



根據(jù)Mira Murati的提煉,原來他們提出了一種讓小模型更懂專業(yè)領(lǐng)域的LLM(大語言模型)后訓(xùn)練方法——On-Policy Distillation (在線策略蒸餾)。



這個方法的精髓,可以打個比方。想象一下,以前訓(xùn)練AI有兩種主流方式:

  • 實戰(zhàn)演戲(如強化學(xué)習(xí)等在線策略方法):讓它自己摸索、從錯誤中成長,學(xué)得靈活,但非常耗時耗力。
  • 請家教(如監(jiān)督微調(diào)等離線策略方法):直接把正確答案喂給它,效率高,但學(xué)得死板。

而On-Policy Distillation相當(dāng)于請了一位天才教練。這位教練一邊讓AI自己動手解題(實戰(zhàn)),一邊在它卡殼或犯錯時,立刻給出關(guān)鍵提示和正確答案(家教)。

這樣做最大的好處就是“性價比”超高。實驗結(jié)果證明,用這種方法來教小模型數(shù)學(xué)——達到同樣水平,所需的訓(xùn)練步驟少了7-10倍;整體算下來,效率提升了50-100倍。

這意味著,一些資源受限的個人或小公司,也能高效地訓(xùn)練出在特定領(lǐng)域很能打的“小模型”了。

包括翁荔在內(nèi),難怪大家看完都直呼:優(yōu)雅、實在是優(yōu)雅!



而且啊,當(dāng)我們扒完相關(guān)博客后才發(fā)現(xiàn),On-Policy Distillation的價值還不止于此——

在線策略蒸餾:結(jié)合兩種范式的最佳實踐

論文指出,要讓模型具備強大的專業(yè)領(lǐng)域能力,通常會經(jīng)歷以下三個過程:

  • 預(yù)訓(xùn)練 (Pre-training): 教會模型通用能力,比如語言使用、廣義推理、世界知識。
  • 中訓(xùn)練 (Mid-training): 傳授領(lǐng)域知識,比如代碼、醫(yī)學(xué)數(shù)據(jù)庫、公司內(nèi)部文檔。
  • 后訓(xùn)練 (Post-training): 這是最后也是至關(guān)重要的一步,需要引導(dǎo)模型產(chǎn)生目標(biāo)行為,比如按指令操作、解決數(shù)學(xué)題、聊天等。

而他們這次就把目光放在了后訓(xùn)練上。

截至目前,后訓(xùn)練階段誕生了兩大主流范式,即開頭提到的在線策略 (On-policy) 和離線策略 (Off-policy) 訓(xùn)練。

考慮到兩種方式各有其優(yōu)缺點,所有這次他們選擇“取其精華去其糟粕”,來一個巧妙的融合——

將在線策略的自主探索與離線策略的密集監(jiān)督結(jié)合起來,以創(chuàng)造一個“兩全其美”的訓(xùn)練框架。



具體來說,他們核心想讓學(xué)生模型在自己生成的軌跡上學(xué)習(xí),但每一步(注意是每一步)都由一個更強大的教師模型進行細致的評分和指導(dǎo)。(就像解題一樣,學(xué)生給出每一步解題過程,教師給每一步打分)

相關(guān)流程大致如下:

  • 初始化教師模型:找一個實力強大的模型當(dāng)老師(通用模型或經(jīng)過專門訓(xùn)練的專家模型均可),它只負責(zé)計算概率,而不需要進行反向傳播更新梯度。
  • 學(xué)生采樣軌跡:讓學(xué)生模型自主解題,過程中需記錄下它在每一步選擇每個token的對數(shù)概率。
  • 教師逐步評分:將學(xué)生模型生成的軌跡,原封不動地交給教師模型。教師模型會對這個軌跡的每一個token進行評估,計算出在相同的上下文下,它自己生成這個token的對數(shù)概率。然后,通過學(xué)生和教師的對數(shù)概率之差,可以計算出兩者在每一步的分歧 (Divergence)。
  • 使用分歧作為獎勵進行訓(xùn)練:最后使用上述分歧作為獎勵信號,來更新學(xué)生模型。

這里重點介紹一下“KL散度 (Negative reverse KL divergence) ”這一評估分歧的指標(biāo)。



簡單來說,當(dāng)學(xué)生模型與教師模型的行為一致時,KL散度為零;當(dāng)學(xué)生模型的選擇與教師模型的期望相差甚遠時,KL散度會變得很大,從而產(chǎn)生一個強烈的負面獎勵(懲罰)。

學(xué)生模型的目標(biāo)就是通過訓(xùn)練,最小化這個KL散度——換言之,越像老師獎勵越高,越不像懲罰越狠。

這種逆向KL散度具備兩個非常優(yōu)秀的特性:

一是能防作弊。傳統(tǒng)強化學(xué)習(xí)中,模型可能學(xué)會鉆空子,用一些看似正確實則取巧的方式獲得高分。而現(xiàn)在,評判標(biāo)準(zhǔn)直接錨定教師模型的“真知灼見”,學(xué)生只有真正學(xué)到精髓才能獲得高分,堵死了作弊空間。

二是讓學(xué)習(xí)過程更加穩(wěn)定和聚焦。它能讓學(xué)生模型精準(zhǔn)鎖定教師模型展現(xiàn)的“最優(yōu)解法”,避免在多個普通答案間搖擺不定,從而確保學(xué)習(xí)過程更穩(wěn)定、結(jié)果更出色。

基于上述方法和特性,他們進行了兩個實驗來驗證其效果。

實驗一:將32B大模型的數(shù)學(xué)能力快速教給8B小模型

教師模型:Qwen3-32B
學(xué)生模型:Qwen3-8B-Base

所有實驗從一個共同起點開始:學(xué)生模型通過傳統(tǒng)訓(xùn)練(監(jiān)督微調(diào)),在數(shù)學(xué)基準(zhǔn)AIME’24上已達到60分。研究目標(biāo)是將性能從60分提升至70分。

為達成目標(biāo),研究人員對比了三種方法的計算成本:

  • 繼續(xù)傳統(tǒng)訓(xùn)練:大約需要額外訓(xùn)練200萬個樣本,計算開銷非常巨大;
  • 強化學(xué)習(xí):根據(jù)Qwen3團隊的技術(shù)報告,在一個相似的SFT初始化模型之上,通過強化學(xué)習(xí)將性能提升到 67.6%,花費了17920個GPU小時。這個成本與訓(xùn)練200萬個SFT樣本的成本大致相當(dāng);
  • 在線策略蒸餾:僅用了大約150個訓(xùn)練步驟就達到了70%的目標(biāo)分?jǐn)?shù),與外推到200萬樣本的SFT相比,在線策略蒸餾的計算成本砍掉了9~30倍。

而且如果從GPU小時的角度看,由于教師模型計算對數(shù)概率 (log-probs) 的過程可以高效并行化,實際節(jié)省的時間成本可能更接近18倍。



這個實驗有力證明了在線策略蒸餾在計算效率上的巨大優(yōu)勢。它用遠低于傳統(tǒng)SFT或RL的成本,實現(xiàn)了同等甚至更好的性能提升。

實驗二:打造兼具知識性與通用性的企業(yè)AI助理

目前存在的問題是:給AI學(xué)習(xí)新知識(公司內(nèi)部文檔)時,它會忘記舊技能(對話交流)。

假如使用傳統(tǒng)微調(diào)方法向模型注入內(nèi)部知識,往往會出現(xiàn)嚴(yán)重的“災(zāi)難性遺忘”——內(nèi)部知識得分顯著提升(從18%升至43%),但通用能力大幅下降(從85%暴跌至45%)。

而且無論怎樣調(diào)整數(shù)據(jù)配比,都無法同時保住兩項能力。

于是他們想到了,當(dāng)模型因?qū)W習(xí)新知識而“遺忘”部分通用能力后,可以使用在線策略蒸餾進行修復(fù)——讓“失憶”的模型向它自己最初的、能力完整的版本學(xué)習(xí)。

結(jié)果意外發(fā)現(xiàn),模型的通用能力幾乎完全恢復(fù)(從79%回升至83%),同時新知識未被破壞(反而從36%提升至41%)。



這說明,在線策略蒸餾是解決AI“災(zāi)難性遺忘”的有效工具。它能夠在不損害新學(xué)技能的前提下,精準(zhǔn)地恢復(fù)模型遺忘的核心能力,為實現(xiàn)AI的“終身學(xué)習(xí)”提供了關(guān)鍵技術(shù)支持。

論文核心作者Kevin Lu

最后看一下這項研究的核心作者——Kevin Lu(論文唯一單獨提到的)。



今年8月,Kevin Lu離開OpenAI轉(zhuǎn)身投入Thinking Machine的懷抱。

在OpenAI工作期間,他領(lǐng)導(dǎo)了4o-mini發(fā)布,并參與o1-mini、o3發(fā)布,主要研究強化學(xué)習(xí)、小模型和合成數(shù)據(jù)。

很明顯,這一次的研究也和其之前的工作息息相關(guān)。



論文:
https://thinkingmachines.ai/blog/on-policy-distillation/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
談判成果恐再遭撕毀?中美外長通話,王毅提四點要求,美財長報料

談判成果恐再遭撕毀?中美外長通話,王毅提四點要求,美財長報料

時時有聊
2025-10-28 07:41:53
四川一少婦偷情:9分鐘私密視頻流出,擦拭紙巾扔一桶,畫面曝光

四川一少婦偷情:9分鐘私密視頻流出,擦拭紙巾扔一桶,畫面曝光

博士觀察
2025-10-28 09:57:52
春秋航空開招已婚已育“空嫂”:年齡放寬至40歲,不限專業(yè)、工作經(jīng)驗;負責(zé)人:該群體在處理突發(fā)情況等方面有優(yōu)勢

春秋航空開招已婚已育“空嫂”:年齡放寬至40歲,不限專業(yè)、工作經(jīng)驗;負責(zé)人:該群體在處理突發(fā)情況等方面有優(yōu)勢

極目新聞
2025-10-27 16:46:24
盛閱春:完全擁護、堅決服從省軍區(qū)黨委任職決定

盛閱春:完全擁護、堅決服從省軍區(qū)黨委任職決定

新京報政事兒
2025-10-28 11:01:08
中緬邊境查獲1.15萬張移動卡!實名認證只是為了約束老實人?

中緬邊境查獲1.15萬張移動卡!實名認證只是為了約束老實人?

垛垛糖
2025-10-27 15:31:45
難以置信!一女子脊椎斷了,下半身無知覺,發(fā)視頻稱“我能生孩”

難以置信!一女子脊椎斷了,下半身無知覺,發(fā)視頻稱“我能生孩”

火山詩話
2025-10-28 06:39:47
網(wǎng)友們說出中芯是如何搞砸光刻機這事的內(nèi)幕了

網(wǎng)友們說出中芯是如何搞砸光刻機這事的內(nèi)幕了

清暉有墨
2025-10-28 09:02:01
上海搶金店的,果然是可憐人!37歲無業(yè),砸柜臺玻璃后全程無反抗

上海搶金店的,果然是可憐人!37歲無業(yè),砸柜臺玻璃后全程無反抗

火山詩話
2025-10-28 05:27:15
5億巨制《澎湖海戰(zhàn)》遭抵制,預(yù)計虧損超3億,易烊千璽恐受影響

5億巨制《澎湖海戰(zhàn)》遭抵制,預(yù)計虧損超3億,易烊千璽恐受影響

影視高原說
2025-10-27 18:45:11
3人超神!掘金127-114森林狼,誰是球隊贏球功臣?數(shù)據(jù)不會說謊!

3人超神!掘金127-114森林狼,誰是球隊贏球功臣?數(shù)據(jù)不會說謊!

毒舌NBA
2025-10-28 12:20:03
紐森要奪美國總統(tǒng)大位,哈里斯也來了,就問特朗普怎么想?

紐森要奪美國總統(tǒng)大位,哈里斯也來了,就問特朗普怎么想?

新民晚報
2025-10-28 09:55:02
80天3人遇難!深圳大鵬半島公園豎“死亡警示牌” 園方:三年參與救援行動229起

80天3人遇難!深圳大鵬半島公園豎“死亡警示牌” 園方:三年參與救援行動229起

紅星新聞
2025-10-28 11:42:19
一場性蕭條,正在國內(nèi)蔓延

一場性蕭條,正在國內(nèi)蔓延

楓冷慕詩
2025-10-27 17:44:09
演員許紹雄因癌癥去世,還有7天將過77歲生日,此前從未透露自己患癌

演員許紹雄因癌癥去世,還有7天將過77歲生日,此前從未透露自己患癌

極目新聞
2025-10-28 11:42:13
“紅汞騙局”手法曝光:偽造國安部紅頭文件,假冒境外公司員工

“紅汞騙局”手法曝光:偽造國安部紅頭文件,假冒境外公司員工

澎湃新聞
2025-10-28 07:34:16
蔣欣被經(jīng)紀(jì)人管控了,一日三餐不能吃肉只吃綠菜,表情痛苦太好笑

蔣欣被經(jīng)紀(jì)人管控了,一日三餐不能吃肉只吃綠菜,表情痛苦太好笑

動物奇奇怪怪
2025-10-28 09:59:53
徹底決裂!曝18歲亞馬爾取關(guān)33歲皇馬隊長 巴薩多人私下批評了他

徹底決裂!曝18歲亞馬爾取關(guān)33歲皇馬隊長 巴薩多人私下批評了他

風(fēng)過鄉(xiāng)
2025-10-28 06:22:24
統(tǒng)一真的要來了?中央發(fā)了新消息,沒提和平統(tǒng)一,也沒一國兩制…

統(tǒng)一真的要來了?中央發(fā)了新消息,沒提和平統(tǒng)一,也沒一國兩制…

福建平子
2025-10-28 09:25:19
不回避問題,官媒報道登陸演習(xí),機器狼表現(xiàn)欠佳,易遭輕武器損毀

不回避問題,官媒報道登陸演習(xí),機器狼表現(xiàn)欠佳,易遭輕武器損毀

滄海旅行家
2025-10-27 18:51:04
太低調(diào)了!莫言小說又獲國際大獎,成了獲此獎的第二個中國人…

太低調(diào)了!莫言小說又獲國際大獎,成了獲此獎的第二個中國人…

火山詩話
2025-10-27 07:08:44
2025-10-28 12:39:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11584文章數(shù) 176316關(guān)注度
往期回顧 全部

科技要聞

30000人,一夜失業(yè)!亞馬遜AI“砍刀”落下

頭條要聞

80天內(nèi)3人遇難 深圳大鵬半島公園掛出"死亡警示牌"

頭條要聞

80天內(nèi)3人遇難 深圳大鵬半島公園掛出"死亡警示牌"

體育要聞

巴西主帥一上任,先給楊瀚森打了個叉?

娛樂要聞

演員許紹雄去世,享年76歲

財經(jīng)要聞

滬指站上4000點 創(chuàng)十年多新高

汽車要聞

5.2米大車轉(zhuǎn)彎比小車還靈活?騰勢N8L性能猛獸+家庭暖男

態(tài)度原創(chuàng)

旅游
本地
時尚
親子
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

云游中國|東營,一座聽得見生長的城市

推廣|| 你們都在催的鞋子,終于來了!

親子要聞

明天的好吃的沒有了…

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 无卡无码无免费毛片| gg14.com在线视频观看| 国产95在线 | 亚洲| 在线欧美精品一区二区三区| 婷婷色中文字幕| 国产精品乱码一区二三区唱戏| 亚洲色在线网址| 在线无码不卡| 成年免费毛毛| 国产精品中文字幕日韩| 成人在线激情AV| 欧美成人性爱视频一区| 囯产精品一区二区色欲AV老头| 中文字幕乱码人妻综合二区三区| 日韩精品一区二区亚洲A| 国产AV午夜精品一区二区入口| 永久黄网站色视频免费直播| 亚洲一区二区精品久久AV乱码| 亚洲人成网站免费播放| A黄色亚洲成人內褲被發 現上門來懲亚洲 无码 | 国产美女被遭强高潮免费一视频| 97在线观看在线观看| 人妻丝袜av中文系列先锋影音| 日产2021免费一二三四区在线| 亚洲AV无码专区国产不乱码| 一本一道av中文字幕无码| 久久久久高潮| 五码在线视频| 亚洲一区二区三区在线| 国产在线乱子伦一区二区| 欧美巨大xxxxx一区二区| 亚洲av男人电影天堂| 熟睡人妻被讨厌的公侵犯深田咏美| 宅宅午夜无码一区二区三区| 99在线精品国自产拍中文字幕 | 亚洲欧美成人久久综合成人网| 免费在线观看毛片网站| 又湿又紧又大又爽a视频| 国产精品国产高清国产一区 | 老王福利导航| 欧美熟妇人妻|