夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華最新研究!如何從理論上統(tǒng)一SFT與RL,以及高效的自適應(yīng)算法HybridPost-Training

0
分享至

大模型智能|分享

來源 | 知乎

作者 | Thomas

大型語言模型的Post-Training,長期以來被一道清晰的界線劃分為兩大范式:以模仿為核心的監(jiān)督微調(diào)(SFT)與以探索為驅(qū)動的強(qiáng)化學(xué)習(xí)(RL)。

然而,清華團(tuán)隊(duì)一項(xiàng)開創(chuàng)性的研究表明,這道界線或許并非不可逾越。本文旨在對該研究的核心技術(shù)進(jìn)行拆解,闡述其如何從理論上統(tǒng)一SFT與RL,并最終催生出一種高效的自適應(yīng)算法——Hybrid Post-Training(HPT)。

該理論的基石在于提出了一個(gè)共同目標(biāo)函數(shù) (Common Objective Function) 作為統(tǒng)一的優(yōu)化目標(biāo),將SFT與RL的訴求囊括其中。

此函數(shù)旨在最大化模型參數(shù) θ 的效用。其第一項(xiàng) 是RL的期望獎(jiǎng)勵(lì)目標(biāo),驅(qū)動模型探索以獲得更高回報(bào)。第二項(xiàng) 是SFT的隱含目標(biāo),通過最小化模型策略 與專家策略 之間的KL散度,來約束模型模仿專家行為。 則負(fù)責(zé)平衡這兩個(gè)目標(biāo)。該公式表明,所有后訓(xùn)練本質(zhì)上都是在最大化獎(jiǎng)勵(lì)與最小化策略偏離之間進(jìn)行權(quán)衡。

基于統(tǒng)一的優(yōu)化目標(biāo),其梯度更新規(guī)則也應(yīng)能被統(tǒng)一表達(dá)。論文的核心理論貢獻(xiàn)在于推導(dǎo)出了統(tǒng)一策略梯度估計(jì)器 (Unified Policy Gradient Estimator, UPGE) 這一核心框架。

此公式將梯度計(jì)算分解為四個(gè)可互換的模塊化組件,不同的后訓(xùn)練算法可視為該框架在組件選擇上的不同實(shí)例化。

  • ? 優(yōu)勢估計(jì) (Advantage Estimate) , : 這是驅(qū)動策略更新的核心信號。在SFT中,專家數(shù)據(jù)被視為最優(yōu),其優(yōu)勢可被定為 。而在RL算法(如GRPO)中,則通常使用歸一化獎(jiǎng)勵(lì) 來計(jì)算優(yōu)勢,以降低方差。

  • ? 參考策略 (Reference Policy) , : 此項(xiàng)作為重要性采樣的分母,對梯度進(jìn)行重加權(quán)。在SFT的理論推導(dǎo)中,它對應(yīng)于專家策略 。在RL的PPO算法中,為了保證更新的穩(wěn)定性,它通常是在線采樣時(shí)所使用的舊策略 。

  • ? 穩(wěn)定掩碼 (Stabilization Mask) , : 這是一個(gè)二進(jìn)制掩碼,充當(dāng)安全機(jī)制。在策略更新可能導(dǎo)致不穩(wěn)定時(shí)(如PPO的裁剪),它會禁用特定樣本的梯度。

  • ? 似然梯度 (Likelihood Gradient) , : 這是策略 對模型參數(shù) θ 的梯度,是所有基于策略梯度的算法所共享的組件,負(fù)責(zé)將優(yōu)勢信號反向傳播至模型。

基于UPGE的理論洞見,研究者設(shè)計(jì)了混合后訓(xùn)練 (Hybrid Post-Training, HPT) 算法,其核心是一種基于模型實(shí)時(shí)性能的動態(tài)訓(xùn)練策略。

HPT通過在線采樣評估模型在當(dāng)前任務(wù)上的性能 P,并根據(jù)預(yù)設(shè)閾值 動態(tài)調(diào)整SFT與RL損失的權(quán)重 和 。性能反饋與系數(shù)切換

是模型在 次 on-policy rollouts 上的平均成功率。此機(jī)制實(shí)現(xiàn)了在模型能力不足時(shí),強(qiáng)制其從專家數(shù)據(jù)中學(xué)習(xí)(Exploitation);在模型具備一定能力后,鼓勵(lì)其進(jìn)行探索(Exploration)。

HPT的最終優(yōu)化目標(biāo)是一個(gè)由 和 控制的加權(quán)混合損失?;旌蠐p失函數(shù):

是標(biāo)準(zhǔn)的負(fù)對數(shù)似然損失,而 通常是PPO或其變體的裁剪代理目標(biāo)。由于 的二進(jìn)制特性,在每個(gè)訓(xùn)練步驟中,模型僅優(yōu)化兩種損失之一,從而實(shí)現(xiàn)了一種清晰、高效的“硬切換”訓(xùn)練范式。

這項(xiàng)研究重塑了后訓(xùn)練的認(rèn)知框架,消除了模仿(SFT)與探索(RL)之間的絕對壁壘,代之以一個(gè)統(tǒng)一且自適應(yīng)的理論。HPT算法正是這一理論 unification 的直接產(chǎn)物。最優(yōu)的訓(xùn)練策略并非靜態(tài)的選擇,而是對模型能力演進(jìn)的動態(tài)響應(yīng)。

參考論文 https://doi.org/10.48550/arXiv.2509.04419
Github https://github.com/TsinghuaC3I/Unify-Post-Training

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
在日本長大的女孩,被送回一個(gè)她聽不懂語言的“祖國”

在日本長大的女孩,被送回一個(gè)她聽不懂語言的“祖國”

日本物語
2025-10-17 13:22:39
張本智和回國總結(jié)得失,日本媒體評價(jià)國乒,國乒十天后又要出發(fā)

張本智和回國總結(jié)得失,日本媒體評價(jià)國乒,國乒十天后又要出發(fā)

墨史軒
2025-10-17 15:23:33
外媒:馮德萊恩可能首次對特朗普說“不”

外媒:馮德萊恩可能首次對特朗普說“不”

參考消息
2025-10-16 21:02:06
冷空氣殺瘋了!山東大范圍較強(qiáng)降雨、持續(xù)大風(fēng)降溫,最低3℃左右,有輕霜凍,濟(jì)南最低溫或降至1℃

冷空氣殺瘋了!山東大范圍較強(qiáng)降雨、持續(xù)大風(fēng)降溫,最低3℃左右,有輕霜凍,濟(jì)南最低溫或降至1℃

魯中晨報(bào)
2025-10-17 12:32:09
汪峰飛新疆與森林北約會,兩人共吃一碗米飯,友人害羞低頭不敢看

汪峰飛新疆與森林北約會,兩人共吃一碗米飯,友人害羞低頭不敢看

悠悠說世界
2025-10-17 15:41:25
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
高中生的開竅順序,沒想到挺準(zhǔn)的!

高中生的開竅順序,沒想到挺準(zhǔn)的!

好爸育兒
2025-10-14 09:18:48
國內(nèi)將逐漸停止“腰突微創(chuàng)”手術(shù)?做完人就癱了?醫(yī)生講出實(shí)情

國內(nèi)將逐漸停止“腰突微創(chuàng)”手術(shù)?做完人就癱了?醫(yī)生講出實(shí)情

阿纂看事
2025-10-15 09:38:40
江門滅蚊行動過于瘋狂,市民呼吁科學(xué)防蚊

江門滅蚊行動過于瘋狂,市民呼吁科學(xué)防蚊

映射生活的身影
2025-10-16 16:21:15
副部長級!劉波任華中科技大學(xué)黨委書記,曾任中國礦業(yè)大學(xué)黨委書記

副部長級!劉波任華中科技大學(xué)黨委書記,曾任中國礦業(yè)大學(xué)黨委書記

TOP大學(xué)來了
2025-10-17 16:03:32
中紀(jì)委發(fā)布8人被查,有“內(nèi)鬼”主動投案

中紀(jì)委發(fā)布8人被查,有“內(nèi)鬼”主動投案

魯中晨報(bào)
2025-10-17 15:12:06
笑死了!李亞鵬宣布離婚,沒想到評論區(qū)句句都是梗

笑死了!李亞鵬宣布離婚,沒想到評論區(qū)句句都是梗

八卦南風(fēng)
2025-10-14 16:55:29
黃子韜婚禮晚宴更難評,審美太土像QQ炫舞結(jié)婚,劉宇寧丁真做主桌

黃子韜婚禮晚宴更難評,審美太土像QQ炫舞結(jié)婚,劉宇寧丁真做主桌

古希臘掌管月桂的神
2025-10-16 21:05:08
臺北車站一香港女子遭性侵無人阻止,被批治安堪憂!臺鐵致歉

臺北車站一香港女子遭性侵無人阻止,被批治安堪憂!臺鐵致歉

南方都市報(bào)
2025-10-17 14:29:22
【汽車人】“豐田現(xiàn)象”值得重視

【汽車人】“豐田現(xiàn)象”值得重視

汽車人傳媒
2025-10-16 10:25:10
被姚明抱著上奧運(yùn)的抗震小英雄,曾發(fā)誓考上清華,16年后成了這樣

被姚明抱著上奧運(yùn)的抗震小英雄,曾發(fā)誓考上清華,16年后成了這樣

法老不說教
2025-10-14 18:52:26
公共自行車謝幕,共享單車漲價(jià)6倍!暴漲的出行市場,誰在割韭菜

公共自行車謝幕,共享單車漲價(jià)6倍!暴漲的出行市場,誰在割韭菜

毒sir財(cái)經(jīng)
2025-10-16 22:00:27
美國財(cái)長破防了:中國再不賣稀土,我就把幾十萬留學(xué)生全趕回去!

美國財(cái)長破防了:中國再不賣稀土,我就把幾十萬留學(xué)生全趕回去!

南宮一二
2025-10-15 07:13:29
58歲上海大媽搭伙63歲大爺半年就鬧分手,大媽:沒睡過一天好覺

58歲上海大媽搭伙63歲大爺半年就鬧分手,大媽:沒睡過一天好覺

小小包工頭阿汾
2025-10-17 13:27:39
江蘇職工養(yǎng)老支出超過廣東約875億元,但平均養(yǎng)老金支出要低219元

江蘇職工養(yǎng)老支出超過廣東約875億元,但平均養(yǎng)老金支出要低219元

雙色球的方向舵
2025-10-17 15:11:35
2025-10-17 17:39:04
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5171文章數(shù) 64593關(guān)注度
往期回顧 全部

科技要聞

對話投資人李強(qiáng):硅谷AI創(chuàng)業(yè)者走“窄門”

頭條要聞

特朗普:普京不喜歡美向?yàn)跆峁?戰(zhàn)斧"這個(gè)主意

頭條要聞

特朗普:普京不喜歡美向?yàn)跆峁?戰(zhàn)斧"這個(gè)主意

體育要聞

楊瀚森回應(yīng)賽后哭泣:打得不好情緒比較激動

娛樂要聞

這5位明星,他們還能靠演技翻紅嗎?

財(cái)經(jīng)要聞

黃金瘋狂上漲 預(yù)示"更大事情"正在發(fā)生

汽車要聞

2026款海豹07 DM-i 功能全面升級/還有激光雷達(dá)

態(tài)度原創(chuàng)

家居
藝術(shù)
教育
游戲
公開課

家居要聞

因異而生 古今文脈交融

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

北京育才學(xué)校:課間15分鐘 玩出大成長

一封郵件與十年堅(jiān)守 SIGONO如何用游戲傳遞治愈力量

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久精品亚洲中文字幕无码麻豆| 草草浮力影院| 久久经典精彩久久久| 免费三级网站| 日本强好片久久久久久aaa| 免费的毛片免费的毛片| 亚洲第一区欧美国产综合| 7777精品久久久大香线蕉| 欧美一级AⅤ一区二区三区成人片| 久九九精品免费视频| 国内外成人综合免费视频| 手机看片国产AV一区| 日本中文一二区有码在线| 日韩a级毛片| 日韩情s一区二区| 成年在线观看免费人视频| 国产导航在线| 成 人 1 8 黄 色 视 频| 国产无套粉嫩白浆内精高潮| 蜜桃网站入口可看18禁| 色综合久久一区二区三区| 男人天堂一区AV| 免费看黄毛片| 欧美亚洲高清日韩成人| 最近免费中文字幕mv在线视频3| 婷婷性爱无码| av午夜福利一片看久久| 婷婷综合在线| 无码人妻久久久一区二区三区| 成AV人片一区二区三区久久| 欧美熟妇毛茸茸| 97超碰大香蕉| 欧美激情视频,小说| 亚洲人成色99999在线观看| 人妻久久一区二区三区| 人人狠狠综合久久88成人| 久久综合亚洲色1080p| Av好色Av熟妇Av| 国内揄拍高清国内精品对白| 免费看男人捅女人不遮挡视频| 少妇性生活网站|