大模型后訓(xùn)練(post-training)正在成為 AI 進(jìn)化的關(guān)鍵一環(huán)。從最早的 SFT(監(jiān)督微調(diào)),再到近來(lái)大火的 GRPO,一條核心主線貫穿始終:如何讓大模型具有更強(qiáng)的推理能力、更好地對(duì)齊人類偏好,同時(shí)保持穩(wěn)定和高效。
然而,GRPO 雖然在 DeepSeek-R1 等項(xiàng)目中大放異彩,但其訓(xùn)練不穩(wěn)定、超參數(shù)敏感的問(wèn)題一直限制其大規(guī)模落地。
現(xiàn)在,作業(yè)幫團(tuán)隊(duì)聯(lián)合香港科技大學(xué)(廣州)在 NeurIPS 2025 上提出了全新方法:GVPO(Group Variance Policy Optimization)。GVPO 通過(guò)避免重要性采樣解決了 GRPO 的穩(wěn)定性難題,并能在理論上提供了唯一最優(yōu)解保證,并且在實(shí)驗(yàn)中表現(xiàn)全面超越現(xiàn)有方法。
- 論文標(biāo)題: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
- 論文鏈接:https://arxiv.org/abs/2504.19599
- 作者:張愷晨、洪煜中、鮑軍威、蔣宏飛、宋旸、洪定乾、熊輝
- 單位:作業(yè)幫教育科技有限公司、香港科技大學(xué)(廣州)
GVPO 設(shè)計(jì)動(dòng)機(jī)
但這里存在一個(gè)實(shí)際困難:公式中涉及的 Z (x),它需要對(duì)所有可能的采樣 y 進(jìn)行期望計(jì)算,在實(shí)踐中幾乎不可行。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)發(fā)現(xiàn):只要保證同一個(gè) prompt 下所有采樣對(duì)應(yīng)的梯度權(quán)重之和為 0,Z (x) 就會(huì)自然消掉,從而規(guī)避了這一計(jì)算難題。
GVPO 是什么?
基于這一思路,研究團(tuán)隊(duì)首先提出了以梯度形式表示的 GVPO Loss:
研究團(tuán)隊(duì)進(jìn)一步分析后發(fā)現(xiàn),GVPO 擁有非常直觀的物理意義。其 Loss 等價(jià)于一個(gè)均方誤差損失(MSE Loss):
換句話說(shuō),GVPO 在本質(zhì)上是用 MSE Loss 讓「隱式獎(jiǎng)勵(lì)」去逼近「真實(shí)獎(jiǎng)勵(lì)」。
兩大關(guān)鍵優(yōu)勢(shì)
1. 唯一最優(yōu)解保證
2. 無(wú)須重要性采樣
這意味著 GVPO 能夠天然支持無(wú)需重要性采樣的 off-policy 訓(xùn)練,在充分利用人類專家數(shù)據(jù)、蒸餾數(shù)據(jù)和歷史數(shù)據(jù)的同時(shí),避免了重要性采樣常見(jiàn)的訓(xùn)練不穩(wěn)定問(wèn)題,從而更契合大規(guī)模工業(yè)級(jí)應(yīng)用場(chǎng)景。
三種分析視角:從不同角度理解 GVPO
研究團(tuán)隊(duì)發(fā)現(xiàn) GVPO 的核心思想可以從三個(gè)互補(bǔ)的分析視角來(lái)理解,每一種都對(duì)應(yīng)著圖中展示的等價(jià)損失函數(shù):
1. 負(fù)對(duì)數(shù)似然視角(NLL)
在這個(gè)視角下,GVPO 的損失函數(shù)可以表示為帶權(quán)重的負(fù)對(duì)數(shù)似然。一個(gè)關(guān)鍵點(diǎn)是:帶 KL 約束的 Policy Gradient 實(shí)際上可以看作 GVPO 在 on-policy 采樣下的特例。換句話說(shuō),GVPO 不僅涵蓋了傳統(tǒng)策略梯度方法的更新方式,還進(jìn)一步解耦了采樣分布與學(xué)習(xí)策略,從而允許靈活地整合歷史數(shù)據(jù)和異構(gòu)數(shù)據(jù)源,為大模型后訓(xùn)練打開(kāi)了更高效的訓(xùn)練方式。
2. 均方誤差視角(MSE)
從 MSE 角度看,GVPO 的優(yōu)化目標(biāo)等價(jià)于最小化「隱式獎(jiǎng)勵(lì)中心距離」與「實(shí)際獎(jiǎng)勵(lì)中心距離」的偏差。這一解釋帶來(lái)直觀的物理含義:當(dāng)隱式獎(jiǎng)勵(lì)完全對(duì)齊實(shí)際獎(jiǎng)勵(lì)時(shí),損失達(dá)到最小。更重要的是,這種設(shè)計(jì)保證了 GVPO 收斂到唯一的、KL 約束下的全局最優(yōu)解,為穩(wěn)定訓(xùn)練提供了理論保證。
3. 強(qiáng)化學(xué)習(xí)視角(RL)
RL 視角揭示了 GVPO 損失函數(shù)的三大組成部分:
- 組相對(duì)獎(jiǎng)勵(lì)項(xiàng):推動(dòng)高回報(bào)響應(yīng)占據(jù)更大概率;
- 方差正則項(xiàng):自然引入適度探索,避免熵塌縮;
- 協(xié)方差正則項(xiàng):作為正則化,抑制策略過(guò)度偏離參考策略,保障訓(xùn)練穩(wěn)定性。
這三種視角共同說(shuō)明:GVPO 既有理論保證,又兼具靈活性和穩(wěn)定性,將復(fù)雜的優(yōu)化過(guò)程轉(zhuǎn)化為可解釋的數(shù)學(xué)框架。
實(shí)驗(yàn)結(jié)果:全面勝出
研究團(tuán)隊(duì)在數(shù)學(xué)推理任務(wù)上進(jìn)行了系統(tǒng)對(duì)比?;P蜑?Qwen2.5-Math-7B,在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五個(gè)基準(zhǔn)測(cè)試中:
GVPO 全面領(lǐng)先,不僅大幅提升基座模型表現(xiàn),還超過(guò) GRPO 和改進(jìn)版 Dr.GRPO。在復(fù)雜推理任務(wù)中優(yōu)勢(shì)尤為明顯。
此外,消融實(shí)驗(yàn)顯示:
- GVPO 對(duì)超參數(shù) β 不敏感,幾乎無(wú)需繁瑣調(diào)參。(Figure 2)
- GVPO 在采樣數(shù)量 k 增加時(shí)擴(kuò)展性優(yōu)異,并且小模型甚至能靠增加采樣追平大模型表現(xiàn)。(Figure 3)
- GVPO 支持混合采樣策略(歷史數(shù)據(jù) + 新數(shù)據(jù)),進(jìn)一步降低成本,并且連接了現(xiàn)代大模型研究和傳統(tǒng)強(qiáng)化學(xué)習(xí)探索策略研究。(Figure 4)
意義與前景
一句話總結(jié):GVPO 讓后訓(xùn)練從「經(jīng)驗(yàn)驅(qū)動(dòng)」走向「理論保證」,既「穩(wěn)」又「強(qiáng)」。
在大模型邁向通用智能的道路上,后訓(xùn)練已經(jīng)成為競(jìng)爭(zhēng)焦點(diǎn)。GVPO 的提出,可能預(yù)示著下一代后訓(xùn)練的范式轉(zhuǎn)變:
- 更穩(wěn)定 → 降低大規(guī)模訓(xùn)練的工程風(fēng)險(xiǎn)
- 更靈活 → 支撐更復(fù)雜的數(shù)據(jù)利用場(chǎng)景
- 更高效 → 在推理和對(duì)齊中獲得更佳的性價(jià)比
研究團(tuán)隊(duì)認(rèn)為,GVPO 為可靠、通用的大模型后訓(xùn)練提供了全新范式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.