網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

清華最新研究！如何從理論上統(tǒng)一SFT與RL，以及高效的自適應(yīng)算法HybridPost-Training

2025-09-20 20:26:42　來源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

大模型智能｜分享

來源 | 知乎

作者 | Thomas

大型語言模型的Post-Training，長期以來被一道清晰的界線劃分為兩大范式：以模仿為核心的監(jiān)督微調(diào)（SFT）與以探索為驅(qū)動的強(qiáng)化學(xué)習(xí)（RL）。

然而，清華團(tuán)隊(duì)一項(xiàng)開創(chuàng)性的研究表明，這道界線或許并非不可逾越。本文旨在對該研究的核心技術(shù)進(jìn)行拆解，闡述其如何從理論上統(tǒng)一SFT與RL，并最終催生出一種高效的自適應(yīng)算法——Hybrid Post-Training(HPT)。

該理論的基石在于提出了一個(gè)共同目標(biāo)函數(shù) (Common Objective Function) 作為統(tǒng)一的優(yōu)化目標(biāo)，將SFT與RL的訴求囊括其中。

此函數(shù)旨在最大化模型參數(shù) θ 的效用。其第一項(xiàng) 是RL的期望獎(jiǎng)勵(lì)目標(biāo)，驅(qū)動模型探索以獲得更高回報(bào)。第二項(xiàng) 是SFT的隱含目標(biāo)，通過最小化模型策略與專家策略之間的KL散度，來約束模型模仿專家行為。則負(fù)責(zé)平衡這兩個(gè)目標(biāo)。該公式表明，所有后訓(xùn)練本質(zhì)上都是在最大化獎(jiǎng)勵(lì)與最小化策略偏離之間進(jìn)行權(quán)衡。

基于統(tǒng)一的優(yōu)化目標(biāo)，其梯度更新規(guī)則也應(yīng)能被統(tǒng)一表達(dá)。論文的核心理論貢獻(xiàn)在于推導(dǎo)出了統(tǒng)一策略梯度估計(jì)器 (Unified Policy Gradient Estimator, UPGE) 這一核心框架。

此公式將梯度計(jì)算分解為四個(gè)可互換的模塊化組件，不同的后訓(xùn)練算法可視為該框架在組件選擇上的不同實(shí)例化。

? 優(yōu)勢估計(jì) (Advantage Estimate) , : 這是驅(qū)動策略更新的核心信號。在SFT中，專家數(shù)據(jù)被視為最優(yōu)，其優(yōu)勢可被定為。而在RL算法（如GRPO）中，則通常使用歸一化獎(jiǎng)勵(lì) 來計(jì)算優(yōu)勢，以降低方差。
? 參考策略 (Reference Policy) , : 此項(xiàng)作為重要性采樣的分母，對梯度進(jìn)行重加權(quán)。在SFT的理論推導(dǎo)中，它對應(yīng)于專家策略。在RL的PPO算法中，為了保證更新的穩(wěn)定性，它通常是在線采樣時(shí)所使用的舊策略。
? 穩(wěn)定掩碼 (Stabilization Mask) , : 這是一個(gè)二進(jìn)制掩碼，充當(dāng)安全機(jī)制。在策略更新可能導(dǎo)致不穩(wěn)定時(shí)（如PPO的裁剪），它會禁用特定樣本的梯度。
? 似然梯度 (Likelihood Gradient) , : 這是策略對模型參數(shù) θ 的梯度，是所有基于策略梯度的算法所共享的組件，負(fù)責(zé)將優(yōu)勢信號反向傳播至模型。

基于UPGE的理論洞見，研究者設(shè)計(jì)了混合后訓(xùn)練 (Hybrid Post-Training, HPT) 算法，其核心是一種基于模型實(shí)時(shí)性能的動態(tài)訓(xùn)練策略。

HPT通過在線采樣評估模型在當(dāng)前任務(wù)上的性能 P，并根據(jù)預(yù)設(shè)閾值動態(tài)調(diào)整SFT與RL損失的權(quán)重和。性能反饋與系數(shù)切換

是模型在次 on-policy rollouts 上的平均成功率。此機(jī)制實(shí)現(xiàn)了在模型能力不足時(shí)，強(qiáng)制其從專家數(shù)據(jù)中學(xué)習(xí)（Exploitation）；在模型具備一定能力后，鼓勵(lì)其進(jìn)行探索（Exploration）。

HPT的最終優(yōu)化目標(biāo)是一個(gè)由和控制的加權(quán)混合損失?；旌蠐p失函數(shù)：

是標(biāo)準(zhǔn)的負(fù)對數(shù)似然損失，而通常是PPO或其變體的裁剪代理目標(biāo)。由于的二進(jìn)制特性，在每個(gè)訓(xùn)練步驟中，模型僅優(yōu)化兩種損失之一，從而實(shí)現(xiàn)了一種清晰、高效的“硬切換”訓(xùn)練范式。

這項(xiàng)研究重塑了后訓(xùn)練的認(rèn)知框架，消除了模仿（SFT）與探索（RL）之間的絕對壁壘，代之以一個(gè)統(tǒng)一且自適應(yīng)的理論。HPT算法正是這一理論 unification 的直接產(chǎn)物。最優(yōu)的訓(xùn)練策略并非靜態(tài)的選擇，而是對模型能力演進(jìn)的動態(tài)響應(yīng)。

參考論文 https://doi.org/10.48550/arXiv.2509.04419Github https://github.com/TsinghuaC3I/Unify-Post-Training

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.