夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

快手Klear團(tuán)隊(duì):梯度保留協(xié)調(diào)熵,解決強(qiáng)化學(xué)習(xí)中的熵不穩(wěn)定問(wèn)題

0
分享至



本研究由快手科技 Klear 語(yǔ)言大模型團(tuán)隊(duì)完成,核心作者蘇振鵬,潘雷宇,呂民軒,胡文憑,張富崢,周國(guó)睿等??焓?Klear 語(yǔ)言大模型團(tuán)隊(duì)聚焦在基礎(chǔ)語(yǔ)言大模型研發(fā)、Agent RL 等前沿技術(shù)創(chuàng)新等方向,積累務(wù)實(shí)的探索 AGI 的能力邊界,并不斷推進(jìn) AI 領(lǐng)域新技術(shù)和新產(chǎn)品的發(fā)展。此前,該團(tuán)隊(duì)已開(kāi)源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數(shù)學(xué)和代碼的基準(zhǔn)測(cè)試上達(dá)到了同參數(shù)級(jí)別模型的 SOTA 效果。

近年來(lái),隨著 OpenAI O1、Deepseek R1、KIMI K2 等大模型不斷展示出復(fù)雜推理與思維鏈能力,強(qiáng)化學(xué)習(xí)已成為推動(dòng)語(yǔ)言模型智能躍升的關(guān)鍵技術(shù)環(huán)節(jié)。相比傳統(tǒng)的監(jiān)督微調(diào),RL 通過(guò)獎(jiǎng)勵(lì)信號(hào)直接優(yōu)化模型行為,使模型能夠在訓(xùn)練中自我探索、自我修正。

然而,這一階段的訓(xùn)練并非穩(wěn)態(tài)過(guò)程。業(yè)界在大規(guī)模 RLVR 實(shí)踐中普遍發(fā)現(xiàn),模型熵的失衡,即探索與利用的不協(xié)調(diào),是導(dǎo)致模型訓(xùn)練不穩(wěn)定、性能難以提升的核心原因。針對(duì)這一長(zhǎng)期瓶頸,快手 Klear 團(tuán)隊(duì)提出了一種新的強(qiáng)化學(xué)習(xí)算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),該方法以「熵」為核心視角,重新審視 RL 中梯度裁剪機(jī)制的本質(zhì)影響,并對(duì)應(yīng)地提出了梯度保留策略,在保證訓(xùn)練穩(wěn)定的前提下,納入裁剪區(qū)間外的梯度使模型能夠在訓(xùn)練過(guò)程中達(dá)到探索與收斂的平衡。



  • 論文標(biāo)題:CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
  • 論文地址:https://www.arxiv.org/pdf/2509.20712
  • 項(xiàng)目地址:https://github.com/Kwai-Klear/CE-GPPO

研究動(dòng)機(jī)


在使用強(qiáng)化學(xué)習(xí)方法優(yōu)化大模型以處理復(fù)雜推理任務(wù)的過(guò)程中,策略熵的平衡是核心挑戰(zhàn),原因在于它衡量了動(dòng)作選擇的不確定性,能夠代表模型探索與利用的權(quán)衡。然而,現(xiàn)有的方法通常面臨熵不穩(wěn)定的問(wèn)題,具體來(lái)說(shuō)包含兩方面,一方面是熵坍縮,這會(huì)造成模型的輸出趨于單一,喪失探索能力,另一方面是熵爆炸,這會(huì)造成模型過(guò)度探索,進(jìn)而導(dǎo)致訓(xùn)練不穩(wěn)定、難以收斂。



CE-GPPO 通過(guò)研究將所有 token 分為四類,分別對(duì)熵有不同的作用:

  • 導(dǎo)致熵坍縮的 token 類型:正優(yōu)勢(shì)高概率 token(PA&HP)、負(fù)優(yōu)勢(shì)低概率 token(NA&LP),優(yōu)化這部分 token 會(huì)強(qiáng)化高概率選擇或弱化低概率選擇,加速策略的收斂。

  • 導(dǎo)致熵爆炸的 token 類型:正優(yōu)勢(shì)低概率 token(PA&LP)、負(fù)優(yōu)勢(shì)高概率 token(NA&HP),優(yōu)化這部分 token 會(huì)強(qiáng)化低概率選擇或弱化高概率選擇,維持輸出多樣性。

然而,由于 PPO 等方法廣泛采用的 clip 機(jī)制,有些低概率的 token(包括 PA&LP token 和 NA&LP token)的梯度被直接截?cái)?,這意味著,PPO 在保證穩(wěn)定性的同時(shí),失去了平衡探索與利用的「安全閥」,從而導(dǎo)致了熵的不穩(wěn)定變化,具體來(lái)說(shuō)又分為以下兩種情況:

  • PA&LP token 被裁剪,導(dǎo)致模型無(wú)法有效探索,進(jìn)而造成熵坍塌的現(xiàn)象。
  • NA&LP token 被裁剪,導(dǎo)致模型過(guò)度探索,進(jìn)而造成收斂延遲的現(xiàn)象。

現(xiàn)有的一些方法,比如 DAPO 中的 clip higher 方法拓展了裁剪的上界,僅僅納入了一部分原本被裁剪的 PA&LP token,并沒(méi)有解決過(guò)度探索的問(wèn)題。因此,CE-GPPO 的核心目標(biāo)是:在保證訓(xùn)練穩(wěn)定的前提下,重新利用裁剪外區(qū)間低概率 token 的梯度,實(shí)現(xiàn)策略熵的精細(xì)調(diào)控,平衡模型訓(xùn)練過(guò)程中的探索與利用。


算法設(shè)計(jì)


基于上述洞察,快手 Klear 團(tuán)隊(duì)提出了全新的 CE-GPPO 算法,其核心思想是:不再丟棄被裁剪 token 的梯度,而是有控制地保留和縮放它們,讓它們作為平衡熵變化,平衡探索與利用的 “閥門”。

核心機(jī)制



上式是 CE-GPPO 的目標(biāo)函數(shù),其在原 PPO 框架上引入了兩項(xiàng)關(guān)鍵改進(jìn):

  • stop gradient 解耦機(jī)制:對(duì)超出 clip 區(qū)間的 token 應(yīng)用 stop gradient 操作,在前向傳播保持不變的同時(shí)在反向傳播時(shí)恢復(fù)其梯度傳導(dǎo)。

  • 雙系數(shù)控制 β? 和 β? :通過(guò)兩個(gè)可調(diào)整的超參數(shù)對(duì)梯度進(jìn)行縮放,其中 β? 控制原本被截?cái)嗟?NA&LP token 的梯度,促進(jìn)收斂;β? 控制原本被截?cái)嗟?PA&LP token 的梯度,鼓勵(lì)探索。這使得訓(xùn)練可以在探索與利用之間靈活調(diào)節(jié)。


梯度穩(wěn)定性證明




上式是 CE-GPPO 的梯度表達(dá)式,可以觀察到,雖然 CE-GPPO 引入了 clip 區(qū)間外的梯度,其仍然能夠維持訓(xùn)練穩(wěn)定,一個(gè)核心的原因是梯度幅度是可控的:裁剪區(qū)間外的梯度被限制在 β?(1-?) 或 β?(1+?) ,其中 β? 和 β? 通常接近于 1,避免梯度爆炸。公式的其他項(xiàng)與 PPO 的梯度表達(dá)式一致,繼承了 PPO 的「保守更新」的特性。

實(shí)驗(yàn)結(jié)果


為驗(yàn)證 CE-GPPO 在穩(wěn)定性與性能上的有效性,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了系統(tǒng)實(shí)驗(yàn),包括 AIME24、AIME25、HMMT25、MATH500 和 AMC23。所有實(shí)驗(yàn)均基于 DeepSeek-R1-Distill-Qwen 模型(1.5B 與 7B)進(jìn)行訓(xùn)練。

主要觀察:

  • CE-GPPO 在所有 benchmark 上均超越強(qiáng)基線方法。
  • 提升最顯著的任務(wù)為 AIME25 與 HMMT25,這類高難度推理任務(wù)對(duì)熵穩(wěn)定性與探索能力最敏感,驗(yàn)證了 CE-GPPO 在保持探索性的同時(shí)確保收斂的效果。
  • 模型規(guī)模越大,CE-GPPO 帶來(lái)的收益越明顯,說(shuō)明方法擁有能夠 scale 到更大規(guī)模模型的潛力。

此外,訓(xùn)練過(guò)程中對(duì)比了各方法的熵動(dòng)態(tài)曲線與驗(yàn)證集準(zhǔn)確率變化:

  • GRPO 出現(xiàn)顯著的熵塌縮,訓(xùn)練后期輸出趨同;
  • DAPO 通過(guò) clip-higher 緩解了塌縮,但存在 “熵反彈”,后期出現(xiàn)過(guò)度探索;
  • CE-GPPO 保持穩(wěn)定且中等偏高的熵水平,全程無(wú)震蕩,最終收斂性能更高。





實(shí)驗(yàn)分析

超參數(shù)對(duì)熵變化的影響

CE-GPPO 的兩個(gè)核心超參數(shù) β? 和 β? 控制了裁剪區(qū)間外梯度的權(quán)重,在 1.5B 與 7B 模型上進(jìn)行了系統(tǒng)超參數(shù)實(shí)驗(yàn),結(jié)果如圖所示:

  • 當(dāng) β? 較大(例如 β?=1, β?=0.5)時(shí),模型更偏向利用,熵下降更快。
  • 當(dāng) β? 較大(例如 β?=0.5, β?=1)時(shí),模型傾向于探索,熵下降變緩且保持在較高水平,甚至也有可能出現(xiàn)熵上升的趨勢(shì)。

這一現(xiàn)象驗(yàn)證了 CE-GPPO 的 “可控熵調(diào)節(jié)” 機(jī)制:通過(guò)調(diào)整兩個(gè)系數(shù),訓(xùn)練可以在「快速收斂」與「持續(xù)探索」之間取得理想平衡。



熵變化與性能的關(guān)系

進(jìn)一步的,研究還分析了熵變化與性能之間的關(guān)系,并得出了以下結(jié)論:

  • 維持相對(duì)高且穩(wěn)定的熵通常有利于訓(xùn)練過(guò)程中的持續(xù)性能提升,熵的過(guò)快下降和上升都不利于模型性能的穩(wěn)定提升。
  • 給予 PA&LP tokens 更大的梯度權(quán)重 β? ,同時(shí)給予 NA&LP tokens 更小的權(quán)重 β? ,有助于維持模型的探索能力,更有利于性能提升。
  • CE-GPPO 對(duì)超參數(shù)具有魯棒性,在不同規(guī)模模型上,β?=0.5/0.75 和 β?=1 的設(shè)置都能帶來(lái)顯著的性能提升。

訓(xùn)練穩(wěn)定性實(shí)證性驗(yàn)證

為了驗(yàn)證 CE-GPPO 的訓(xùn)練穩(wěn)定性,研究可視化分析了訓(xùn)練過(guò)程中 KL 散度和 gradient norm,并與 GRPO 的訓(xùn)練動(dòng)態(tài)進(jìn)行對(duì)比,結(jié)果表明,CE-GPPO 雖然納入了 clip 區(qū)間外 token 的梯度,但由于梯度限制在固定區(qū)域,所以其整體訓(xùn)練過(guò)程是平穩(wěn)的。



與其他 RL 算法比較

研究還對(duì)比了 CE-GPPO 與其他近期提出的強(qiáng)化學(xué)習(xí)算法的性能,比如 CISPO 和 GSPO 算法,CE-GPPO 在不同基準(zhǔn)上取得了最好的結(jié)果,進(jìn)一步的,可以分析出如下結(jié)論:

  • CISPO 雖然采用了類似的通過(guò) stop gradient 的方法保留梯度,但在訓(xùn)練后期仍出現(xiàn)熵急劇下降和性能崩潰的現(xiàn)象,它與 CE-GPPO 的區(qū)別主要在于 CE-GPPO 繼承了 PPO 的悲觀更新的特性,并且 CE-GPPO 對(duì)于 clip 區(qū)間外梯度的管理更加細(xì)粒度,這些原因?qū)е?CE-GPPO 的性能超過(guò) CISPO 算法。
  • GSPO 使用序列級(jí)別的重要性采樣,這導(dǎo)致了大約 15% 的 token 被裁剪,而 CE-GPPO 方法納入了 clip 區(qū)間外 token 的梯度,其對(duì)于采樣樣本的利用率更高,所以性能更好。



與其他熵調(diào)節(jié)方法的比較

最后,研究還比較了 CE-GPPO 和其他熵調(diào)節(jié)的算法,比如傳統(tǒng)的熵正則化以及 DAPO 的 clip-higher 策略,結(jié)果表明:

  • 直接加入熵正則項(xiàng)雖然能延緩熵坍縮,但其對(duì)超參數(shù)稀疏很敏感,并且性能均較差。
  • DAPO 的 clip higher 策略雖然能納入部分高熵 token 的梯度,但在訓(xùn)練后期出現(xiàn)熵反彈和過(guò)度探索的現(xiàn)象,這限制了模型的收斂。
  • CE-GPPO 全程保持了較為平穩(wěn)的熵曲線,并且性能隨訓(xùn)練不斷提升,達(dá)到了最優(yōu)性能。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
場(chǎng)均2.70分,阿隆索登頂皇馬主帥前10場(chǎng)西甲場(chǎng)均拿分榜

場(chǎng)均2.70分,阿隆索登頂皇馬主帥前10場(chǎng)西甲場(chǎng)均拿分榜

懂球帝
2025-10-27 21:31:13
“臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

“臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

小喬古裝漢服
2025-09-29 07:55:03
被公司無(wú)情降職后我躺平只做分內(nèi)事,3個(gè)月后公司業(yè)績(jī)暴跌95%

被公司無(wú)情降職后我躺平只做分內(nèi)事,3個(gè)月后公司業(yè)績(jī)暴跌95%

秋風(fēng)專欄
2025-10-22 12:12:42
潘功勝:目前債市整體運(yùn)行良好 人民銀行將恢復(fù)公開(kāi)市場(chǎng)國(guó)債買賣操作

潘功勝:目前債市整體運(yùn)行良好 人民銀行將恢復(fù)公開(kāi)市場(chǎng)國(guó)債買賣操作

財(cái)聯(lián)社
2025-10-27 17:18:23
機(jī)器狼真的來(lái)了!央視披露實(shí)戰(zhàn)化演習(xí),重構(gòu)兩棲作戰(zhàn)效能

機(jī)器狼真的來(lái)了!央視披露實(shí)戰(zhàn)化演習(xí),重構(gòu)兩棲作戰(zhàn)效能

兵國(guó)大事
2025-10-27 00:05:06
為什么美國(guó)人能把屁股吃成一米寬?

為什么美國(guó)人能把屁股吃成一米寬?

西樓知趣雜談
2025-10-22 15:42:28
真可惜,重慶再?zèng)]有新光天地了,這是為什么?

真可惜,重慶再?zèng)]有新光天地了,這是為什么?

西莫的藝術(shù)宮殿
2025-10-27 13:19:14
廳干徐發(fā)成,被查?。ǜ胶?jiǎn)歷)

廳干徐發(fā)成,被查?。ǜ胶?jiǎn)歷)

鳳凰網(wǎng)安徽
2025-10-27 17:36:37
北京一空姐嫁給打工仔,婚后一年,她才得知丈夫真實(shí)身份

北京一空姐嫁給打工仔,婚后一年,她才得知丈夫真實(shí)身份

小月文史
2024-10-12 14:09:55
埃弗拉:我從未在與梅西的對(duì)位時(shí)感到有什么困難

埃弗拉:我從未在與梅西的對(duì)位時(shí)感到有什么困難

懂球帝
2025-10-27 16:33:08
郭富城官宣三胎得女,印證了白龍王當(dāng)初的預(yù)言:四大天王生七仙女

郭富城官宣三胎得女,印證了白龍王當(dāng)初的預(yù)言:四大天王生七仙女

TVB的四小花
2025-10-27 01:36:07
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
原來(lái)只有圈子里的人才知道這些小秘密!看網(wǎng)友們的透露,長(zhǎng)見(jiàn)識(shí)了

原來(lái)只有圈子里的人才知道這些小秘密!看網(wǎng)友們的透露,長(zhǎng)見(jiàn)識(shí)了

另子維愛(ài)讀史
2025-10-17 21:14:45
恭喜火箭隊(duì)!范喬丹現(xiàn)身健身房開(kāi)練,先從力量練起,恢復(fù)堪稱神速

恭喜火箭隊(duì)!范喬丹現(xiàn)身健身房開(kāi)練,先從力量練起,恢復(fù)堪稱神速

熊哥愛(ài)籃球
2025-10-27 19:19:41
演都不演了!楊振寧去世僅7天,惡心的一幕出現(xiàn),結(jié)局大快人心

演都不演了!楊振寧去世僅7天,惡心的一幕出現(xiàn),結(jié)局大快人心

元爸體育
2025-10-27 15:41:55
聽(tīng)說(shuō)最近中國(guó)、歐洲都開(kāi)始緊急應(yīng)對(duì)美國(guó)的穩(wěn)定幣了?

聽(tīng)說(shuō)最近中國(guó)、歐洲都開(kāi)始緊急應(yīng)對(duì)美國(guó)的穩(wěn)定幣了?

小鬼頭體育
2025-10-27 13:17:16
一切國(guó)資都要變現(xiàn),地方財(cái)政的終極破局!

一切國(guó)資都要變現(xiàn),地方財(cái)政的終極破局!

思哲與創(chuàng)富
2025-10-27 10:30:07
男女無(wú)論在一起多久,女人只要有“兩不”,那就是不愛(ài)了!

男女無(wú)論在一起多久,女人只要有“兩不”,那就是不愛(ài)了!

云端小院
2025-10-04 08:55:01
【2025.10.27】扒醬料不停:那些你不知道的八卦一二三

【2025.10.27】扒醬料不停:那些你不知道的八卦一二三

娛樂(lè)真爆姐
2025-10-27 23:17:29
誰(shuí)是陳志背后的保護(hù)傘?四層外殼揭秘之后,真相水落石出

誰(shuí)是陳志背后的保護(hù)傘?四層外殼揭秘之后,真相水落石出

吃瓜局
2025-10-23 15:46:45
2025-10-28 01:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11574文章數(shù) 142495關(guān)注度
往期回顧 全部

科技要聞

最后一個(gè)沒(méi)有廣告的地圖,要消失了

頭條要聞

14歲男生嬉鬧時(shí)被女同學(xué)打中左胸心跳驟停 如今癱瘓

頭條要聞

14歲男生嬉鬧時(shí)被女同學(xué)打中左胸心跳驟停 如今癱瘓

體育要聞

尤文官宣!圖多爾下課,僅執(zhí)教218天,8戰(zhàn)不勝意甲僅排第8

娛樂(lè)要聞

“奪女”成功 章子怡成女兒唯一監(jiān)護(hù)人

財(cái)經(jīng)要聞

重磅!潘功勝、李云澤、吳清最新發(fā)聲

汽車要聞

對(duì)話蘇偉銘:絕地反擊,雷諾的一劑「中國(guó)良方」

態(tài)度原創(chuàng)

教育
藝術(shù)
手機(jī)
公開(kāi)課
軍事航空

教育要聞

如何與老師溝通是家校溝通的指南,助力孩子學(xué)習(xí)成長(zhǎng)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

手機(jī)要聞

華為nova15曝光:直曲屏+紅楓影像+Ai自拍輔助構(gòu)圖,這次真的贏了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

在南海墜毀的美軍機(jī)比F-35還貴 單價(jià)1億美元

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 免费国产乱理伦片在线观看| 97人人模人人爽人人喊网| 东京一本一道一二三区| 婷婷综合色| 毛片在线视频| 六月婷婷综合| 人妻精品久久无码专区精东影业| 欧洲熟妇的一区二区三区四区| 国产不卡免费一区二区| 尤物蜜芽国产成人精品区| 亚洲国产日产无码精品| 一级裸体真人男女真人AA| 久久精品国产99久久久古代| 无码任你躁久久久久久老妇| 性色av蜜臀av浪潮av一区二区| 任你干在线精品视频网2| 不卡的无码播放| chinese老熟女| 欧美日韩亚洲TV不卡久久| 日韩精品无码观看视频免费| 三十熟女美臀后入| 欧美伦理片一区二区三区| 成人有色视频免费观看网址| 婷婷丁香五月深爱憿情网| 视频一区视频二区中文字幕| gogo大胆无码无码免费视频 | 亚洲欧洲AV系列天堂日产国码| 欧美国产三级| 亚洲AV无码专区色爱天堂网站| 成人免费无遮挡在线播放| 中文字幕人妻无码乱精品 | 精品a人妻v无码久久久久久久| 国产av中文字幕精品| 中文日韩一区| 在线精品无码字幕无码av| 成年女人片免费视频| 国产精品∧v在线观看| 亚洲精品一区二区三区大桥未久| 国产精品一在线观看| 国产精品老熟女露脸视频| 精品国产一区二区三区av性色|