大模型智能|分享
來源 | 知乎
作者 | Thomas
大型語言模型的Post-Training,長期以來被一道清晰的界線劃分為兩大范式:以模仿為核心的監(jiān)督微調(diào)(SFT)與以探索為驅(qū)動的強(qiáng)化學(xué)習(xí)(RL)。
然而,清華團(tuán)隊(duì)一項(xiàng)開創(chuàng)性的研究表明,這道界線或許并非不可逾越。本文旨在對該研究的核心技術(shù)進(jìn)行拆解,闡述其如何從理論上統(tǒng)一SFT與RL,并最終催生出一種高效的自適應(yīng)算法——Hybrid Post-Training(HPT)。
該理論的基石在于提出了一個(gè)共同目標(biāo)函數(shù) (Common Objective Function) 作為統(tǒng)一的優(yōu)化目標(biāo),將SFT與RL的訴求囊括其中。
此函數(shù)旨在最大化模型參數(shù) θ 的效用。其第一項(xiàng) 是RL的期望獎(jiǎng)勵(lì)目標(biāo),驅(qū)動模型探索以獲得更高回報(bào)。第二項(xiàng) 是SFT的隱含目標(biāo),通過最小化模型策略 與專家策略 之間的KL散度,來約束模型模仿專家行為。 則負(fù)責(zé)平衡這兩個(gè)目標(biāo)。該公式表明,所有后訓(xùn)練本質(zhì)上都是在最大化獎(jiǎng)勵(lì)與最小化策略偏離之間進(jìn)行權(quán)衡。
基于統(tǒng)一的優(yōu)化目標(biāo),其梯度更新規(guī)則也應(yīng)能被統(tǒng)一表達(dá)。論文的核心理論貢獻(xiàn)在于推導(dǎo)出了統(tǒng)一策略梯度估計(jì)器 (Unified Policy Gradient Estimator, UPGE) 這一核心框架。
此公式將梯度計(jì)算分解為四個(gè)可互換的模塊化組件,不同的后訓(xùn)練算法可視為該框架在組件選擇上的不同實(shí)例化。
? 優(yōu)勢估計(jì) (Advantage Estimate) , : 這是驅(qū)動策略更新的核心信號。在SFT中,專家數(shù)據(jù)被視為最優(yōu),其優(yōu)勢可被定為 。而在RL算法(如GRPO)中,則通常使用歸一化獎(jiǎng)勵(lì) 來計(jì)算優(yōu)勢,以降低方差。
? 參考策略 (Reference Policy) , : 此項(xiàng)作為重要性采樣的分母,對梯度進(jìn)行重加權(quán)。在SFT的理論推導(dǎo)中,它對應(yīng)于專家策略 。在RL的PPO算法中,為了保證更新的穩(wěn)定性,它通常是在線采樣時(shí)所使用的舊策略 。
? 穩(wěn)定掩碼 (Stabilization Mask) , : 這是一個(gè)二進(jìn)制掩碼,充當(dāng)安全機(jī)制。在策略更新可能導(dǎo)致不穩(wěn)定時(shí)(如PPO的裁剪),它會禁用特定樣本的梯度。
? 似然梯度 (Likelihood Gradient) , : 這是策略 對模型參數(shù) θ 的梯度,是所有基于策略梯度的算法所共享的組件,負(fù)責(zé)將優(yōu)勢信號反向傳播至模型。
基于UPGE的理論洞見,研究者設(shè)計(jì)了混合后訓(xùn)練 (Hybrid Post-Training, HPT) 算法,其核心是一種基于模型實(shí)時(shí)性能的動態(tài)訓(xùn)練策略。
HPT通過在線采樣評估模型在當(dāng)前任務(wù)上的性能 P,并根據(jù)預(yù)設(shè)閾值 動態(tài)調(diào)整SFT與RL損失的權(quán)重 和 。性能反饋與系數(shù)切換
是模型在 次 on-policy rollouts 上的平均成功率。此機(jī)制實(shí)現(xiàn)了在模型能力不足時(shí),強(qiáng)制其從專家數(shù)據(jù)中學(xué)習(xí)(Exploitation);在模型具備一定能力后,鼓勵(lì)其進(jìn)行探索(Exploration)。
HPT的最終優(yōu)化目標(biāo)是一個(gè)由 和 控制的加權(quán)混合損失?;旌蠐p失函數(shù):
是標(biāo)準(zhǔn)的負(fù)對數(shù)似然損失,而 通常是PPO或其變體的裁剪代理目標(biāo)。由于 的二進(jìn)制特性,在每個(gè)訓(xùn)練步驟中,模型僅優(yōu)化兩種損失之一,從而實(shí)現(xiàn)了一種清晰、高效的“硬切換”訓(xùn)練范式。
這項(xiàng)研究重塑了后訓(xùn)練的認(rèn)知框架,消除了模仿(SFT)與探索(RL)之間的絕對壁壘,代之以一個(gè)統(tǒng)一且自適應(yīng)的理論。HPT算法正是這一理論 unification 的直接產(chǎn)物。最優(yōu)的訓(xùn)練策略并非靜態(tài)的選擇,而是對模型能力演進(jìn)的動態(tài)響應(yīng)。
參考論文 https://doi.org/10.48550/arXiv.2509.04419
Github https://github.com/TsinghuaC3I/Unify-Post-Training
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.