網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

快手Klear團(tuán)隊(duì)：梯度保留協(xié)調(diào)熵，解決強(qiáng)化學(xué)習(xí)中的熵不穩(wěn)定問(wèn)題

2025-10-27 17:11:50　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

本研究由快手科技 Klear 語(yǔ)言大模型團(tuán)隊(duì)完成，核心作者蘇振鵬，潘雷宇，呂民軒，胡文憑，張富崢，周國(guó)睿等?？焓?Klear 語(yǔ)言大模型團(tuán)隊(duì)聚焦在基礎(chǔ)語(yǔ)言大模型研發(fā)、Agent RL 等前沿技術(shù)創(chuàng)新等方向，積累務(wù)實(shí)的探索 AGI 的能力邊界，并不斷推進(jìn) AI 領(lǐng)域新技術(shù)和新產(chǎn)品的發(fā)展。此前，該團(tuán)隊(duì)已開(kāi)源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型，其中 Klear-Reasoner-8B 在數(shù)學(xué)和代碼的基準(zhǔn)測(cè)試上達(dá)到了同參數(shù)級(jí)別模型的 SOTA 效果。

近年來(lái)，隨著 OpenAI O1、Deepseek R1、KIMI K2 等大模型不斷展示出復(fù)雜推理與思維鏈能力，強(qiáng)化學(xué)習(xí)已成為推動(dòng)語(yǔ)言模型智能躍升的關(guān)鍵技術(shù)環(huán)節(jié)。相比傳統(tǒng)的監(jiān)督微調(diào)，RL 通過(guò)獎(jiǎng)勵(lì)信號(hào)直接優(yōu)化模型行為，使模型能夠在訓(xùn)練中自我探索、自我修正。

然而，這一階段的訓(xùn)練并非穩(wěn)態(tài)過(guò)程。業(yè)界在大規(guī)模 RLVR 實(shí)踐中普遍發(fā)現(xiàn)，模型熵的失衡，即探索與利用的不協(xié)調(diào)，是導(dǎo)致模型訓(xùn)練不穩(wěn)定、性能難以提升的核心原因。針對(duì)這一長(zhǎng)期瓶頸，快手 Klear 團(tuán)隊(duì)提出了一種新的強(qiáng)化學(xué)習(xí)算法 CE-GPPO（Coordinating Entropy via Gradient-Preserving Policy Optimization），該方法以「熵」為核心視角，重新審視 RL 中梯度裁剪機(jī)制的本質(zhì)影響，并對(duì)應(yīng)地提出了梯度保留策略，在保證訓(xùn)練穩(wěn)定的前提下，納入裁剪區(qū)間外的梯度使模型能夠在訓(xùn)練過(guò)程中達(dá)到探索與收斂的平衡。

論文標(biāo)題：CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
論文地址：https://www.arxiv.org/pdf/2509.20712
項(xiàng)目地址：https://github.com/Kwai-Klear/CE-GPPO

研究動(dòng)機(jī)

在使用強(qiáng)化學(xué)習(xí)方法優(yōu)化大模型以處理復(fù)雜推理任務(wù)的過(guò)程中，策略熵的平衡是核心挑戰(zhàn)，原因在于它衡量了動(dòng)作選擇的不確定性，能夠代表模型探索與利用的權(quán)衡。然而，現(xiàn)有的方法通常面臨熵不穩(wěn)定的問(wèn)題，具體來(lái)說(shuō)包含兩方面，一方面是熵坍縮，這會(huì)造成模型的輸出趨于單一，喪失探索能力，另一方面是熵爆炸，這會(huì)造成模型過(guò)度探索，進(jìn)而導(dǎo)致訓(xùn)練不穩(wěn)定、難以收斂。

CE-GPPO 通過(guò)研究將所有 token 分為四類，分別對(duì)熵有不同的作用：

導(dǎo)致熵坍縮的 token 類型：正優(yōu)勢(shì)高概率 token（PA&HP）、負(fù)優(yōu)勢(shì)低概率 token（NA&LP），優(yōu)化這部分 token 會(huì)強(qiáng)化高概率選擇或弱化低概率選擇，加速策略的收斂。

導(dǎo)致熵爆炸的 token 類型：正優(yōu)勢(shì)低概率 token（PA&LP）、負(fù)優(yōu)勢(shì)高概率 token（NA&HP），優(yōu)化這部分 token 會(huì)強(qiáng)化低概率選擇或弱化高概率選擇，維持輸出多樣性。

然而，由于 PPO 等方法廣泛采用的 clip 機(jī)制，有些低概率的 token（包括 PA&LP token 和 NA&LP token）的梯度被直接截?cái)?，這意味著，PPO 在保證穩(wěn)定性的同時(shí)，失去了平衡探索與利用的「安全閥」，從而導(dǎo)致了熵的不穩(wěn)定變化，具體來(lái)說(shuō)又分為以下兩種情況：

PA&LP token 被裁剪，導(dǎo)致模型無(wú)法有效探索，進(jìn)而造成熵坍塌的現(xiàn)象。
NA&LP token 被裁剪，導(dǎo)致模型過(guò)度探索，進(jìn)而造成收斂延遲的現(xiàn)象。

現(xiàn)有的一些方法，比如 DAPO 中的 clip higher 方法拓展了裁剪的上界，僅僅納入了一部分原本被裁剪的 PA&LP token，并沒(méi)有解決過(guò)度探索的問(wèn)題。因此，CE-GPPO 的核心目標(biāo)是：在保證訓(xùn)練穩(wěn)定的前提下，重新利用裁剪外區(qū)間低概率 token 的梯度，實(shí)現(xiàn)策略熵的精細(xì)調(diào)控，平衡模型訓(xùn)練過(guò)程中的探索與利用。

算法設(shè)計(jì)

基于上述洞察，快手 Klear 團(tuán)隊(duì)提出了全新的 CE-GPPO 算法，其核心思想是：不再丟棄被裁剪 token 的梯度，而是有控制地保留和縮放它們，讓它們作為平衡熵變化，平衡探索與利用的 “閥門”。

核心機(jī)制

上式是 CE-GPPO 的目標(biāo)函數(shù)，其在原 PPO 框架上引入了兩項(xiàng)關(guān)鍵改進(jìn)：

stop gradient 解耦機(jī)制：對(duì)超出 clip 區(qū)間的 token 應(yīng)用 stop gradient 操作，在前向傳播保持不變的同時(shí)在反向傳播時(shí)恢復(fù)其梯度傳導(dǎo)。

雙系數(shù)控制 β? 和 β? ：通過(guò)兩個(gè)可調(diào)整的超參數(shù)對(duì)梯度進(jìn)行縮放，其中 β? 控制原本被截?cái)嗟?NA&LP token 的梯度，促進(jìn)收斂；β? 控制原本被截?cái)嗟?PA&LP token 的梯度，鼓勵(lì)探索。這使得訓(xùn)練可以在探索與利用之間靈活調(diào)節(jié)。

梯度穩(wěn)定性證明

上式是 CE-GPPO 的梯度表達(dá)式，可以觀察到，雖然 CE-GPPO 引入了 clip 區(qū)間外的梯度，其仍然能夠維持訓(xùn)練穩(wěn)定，一個(gè)核心的原因是梯度幅度是可控的：裁剪區(qū)間外的梯度被限制在 β?(1-?) 或 β?(1+?) ，其中 β? 和 β? 通常接近于 1，避免梯度爆炸。公式的其他項(xiàng)與 PPO 的梯度表達(dá)式一致，繼承了 PPO 的「保守更新」的特性。

實(shí)驗(yàn)結(jié)果

為驗(yàn)證 CE-GPPO 在穩(wěn)定性與性能上的有效性，研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了系統(tǒng)實(shí)驗(yàn)，包括 AIME24、AIME25、HMMT25、MATH500 和 AMC23。所有實(shí)驗(yàn)均基于 DeepSeek-R1-Distill-Qwen 模型（1.5B 與 7B）進(jìn)行訓(xùn)練。

主要觀察：

CE-GPPO 在所有 benchmark 上均超越強(qiáng)基線方法。
提升最顯著的任務(wù)為 AIME25 與 HMMT25，這類高難度推理任務(wù)對(duì)熵穩(wěn)定性與探索能力最敏感，驗(yàn)證了 CE-GPPO 在保持探索性的同時(shí)確保收斂的效果。
模型規(guī)模越大，CE-GPPO 帶來(lái)的收益越明顯，說(shuō)明方法擁有能夠 scale 到更大規(guī)模模型的潛力。

此外，訓(xùn)練過(guò)程中對(duì)比了各方法的熵動(dòng)態(tài)曲線與驗(yàn)證集準(zhǔn)確率變化：

GRPO 出現(xiàn)顯著的熵塌縮，訓(xùn)練后期輸出趨同；
DAPO 通過(guò) clip-higher 緩解了塌縮，但存在 “熵反彈”，后期出現(xiàn)過(guò)度探索；
CE-GPPO 保持穩(wěn)定且中等偏高的熵水平，全程無(wú)震蕩，最終收斂性能更高。

實(shí)驗(yàn)分析

超參數(shù)對(duì)熵變化的影響

CE-GPPO 的兩個(gè)核心超參數(shù) β? 和 β? 控制了裁剪區(qū)間外梯度的權(quán)重，在 1.5B 與 7B 模型上進(jìn)行了系統(tǒng)超參數(shù)實(shí)驗(yàn)，結(jié)果如圖所示：

當(dāng) β? 較大（例如 β?=1, β?=0.5）時(shí)，模型更偏向利用，熵下降更快。
當(dāng) β? 較大（例如 β?=0.5, β?=1）時(shí)，模型傾向于探索，熵下降變緩且保持在較高水平，甚至也有可能出現(xiàn)熵上升的趨勢(shì)。

這一現(xiàn)象驗(yàn)證了 CE-GPPO 的 “可控熵調(diào)節(jié)” 機(jī)制：通過(guò)調(diào)整兩個(gè)系數(shù)，訓(xùn)練可以在「快速收斂」與「持續(xù)探索」之間取得理想平衡。

熵變化與性能的關(guān)系

進(jìn)一步的，研究還分析了熵變化與性能之間的關(guān)系，并得出了以下結(jié)論：

維持相對(duì)高且穩(wěn)定的熵通常有利于訓(xùn)練過(guò)程中的持續(xù)性能提升，熵的過(guò)快下降和上升都不利于模型性能的穩(wěn)定提升。
給予 PA&LP tokens 更大的梯度權(quán)重 β? ，同時(shí)給予 NA&LP tokens 更小的權(quán)重 β? ，有助于維持模型的探索能力，更有利于性能提升。
CE-GPPO 對(duì)超參數(shù)具有魯棒性，在不同規(guī)模模型上，β?=0.5/0.75 和 β?=1 的設(shè)置都能帶來(lái)顯著的性能提升。

訓(xùn)練穩(wěn)定性實(shí)證性驗(yàn)證

為了驗(yàn)證 CE-GPPO 的訓(xùn)練穩(wěn)定性，研究可視化分析了訓(xùn)練過(guò)程中 KL 散度和 gradient norm，并與 GRPO 的訓(xùn)練動(dòng)態(tài)進(jìn)行對(duì)比，結(jié)果表明，CE-GPPO 雖然納入了 clip 區(qū)間外 token 的梯度，但由于梯度限制在固定區(qū)域，所以其整體訓(xùn)練過(guò)程是平穩(wěn)的。

與其他 RL 算法比較

研究還對(duì)比了 CE-GPPO 與其他近期提出的強(qiáng)化學(xué)習(xí)算法的性能，比如 CISPO 和 GSPO 算法，CE-GPPO 在不同基準(zhǔn)上取得了最好的結(jié)果，進(jìn)一步的，可以分析出如下結(jié)論：

CISPO 雖然采用了類似的通過(guò) stop gradient 的方法保留梯度，但在訓(xùn)練后期仍出現(xiàn)熵急劇下降和性能崩潰的現(xiàn)象，它與 CE-GPPO 的區(qū)別主要在于 CE-GPPO 繼承了 PPO 的悲觀更新的特性，并且 CE-GPPO 對(duì)于 clip 區(qū)間外梯度的管理更加細(xì)粒度，這些原因?qū)е?CE-GPPO 的性能超過(guò) CISPO 算法。
GSPO 使用序列級(jí)別的重要性采樣，這導(dǎo)致了大約 15% 的 token 被裁剪，而 CE-GPPO 方法納入了 clip 區(qū)間外 token 的梯度，其對(duì)于采樣樣本的利用率更高，所以性能更好。

與其他熵調(diào)節(jié)方法的比較

最后，研究還比較了 CE-GPPO 和其他熵調(diào)節(jié)的算法，比如傳統(tǒng)的熵正則化以及 DAPO 的 clip-higher 策略，結(jié)果表明：

直接加入熵正則項(xiàng)雖然能延緩熵坍縮，但其對(duì)超參數(shù)稀疏很敏感，并且性能均較差。
DAPO 的 clip higher 策略雖然能納入部分高熵 token 的梯度，但在訓(xùn)練后期出現(xiàn)熵反彈和過(guò)度探索的現(xiàn)象，這限制了模型的收斂。
CE-GPPO 全程保持了較為平穩(wěn)的熵曲線，并且性能隨訓(xùn)練不斷提升，達(dá)到了最優(yōu)性能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.