夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

冗長響應(yīng)縮減80%,DeepSeek GRPO獲得顛覆性改進(jìn),微軟GFPO問世

0
分享至

機(jī)器之心報(bào)道

編輯:Panda

用過 DeepSeek-R1 等推理模型的人,大概都遇到過這種情況:一個(gè)稍微棘手的問題,模型像陷入沉思一樣長篇大論地推下去,耗時(shí)耗算力,結(jié)果卻未必靠譜?,F(xiàn)在,我們或許有了解決方案。

這兩天,微軟研究員 Dimitris Papailiopoulos 在 上曝出一個(gè)新成果:Group Filtered Policy Optimization(GFPO)—— 一種顛覆性的強(qiáng)化學(xué)習(xí)算法。



GFPO 能同時(shí)權(quán)衡訓(xùn)練與測試階段的計(jì)算開銷,可在提升準(zhǔn)確率的同時(shí),將推理中因強(qiáng)化學(xué)習(xí)帶來的多余 token 長度削減多達(dá)80%!



數(shù)據(jù)很驚人,但這究竟是如何做到的呢?

就在剛剛,GFPO 終于上線 arXiv,所有細(xì)節(jié)首次公開,高效強(qiáng)化學(xué)習(xí)的新玩法即將揭曉。



  • 論文標(biāo)題:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
  • 論文地址:https://arxiv.org/abs/2508.09726

欲知 GFPO,先看 GRPO

在介紹 GFPO 之前,有必要先看看 DeepSeek 提出的組相對策略優(yōu)化(GRPO)。

GRPO 基于近端策略優(yōu)化(PPO)算法,但進(jìn)行了簡化,即不再需要使用價(jià)值模型來估計(jì)基線優(yōu)勢。具體操作是對每個(gè)問題采樣多個(gè)響應(yīng),并使用它們的平均獎(jiǎng)勵(lì)作為基線,而其優(yōu)化的目標(biāo)仍然是與 PPO 類似的裁剪替代目標(biāo)(clipped surrogate objective)。

寫成公式的話,如果令 θ 表示模型參數(shù),q 表示問題,o 表示從舊策略 π_θ_old 采樣的響應(yīng),則 GRPO 目標(biāo)可以寫成:



需要注意的是,盡管這里展示了標(biāo)準(zhǔn)的 GRPO 損失歸一化公式,但包括 verl 和 TRL 在內(nèi)的多個(gè)開源強(qiáng)化學(xué)習(xí)庫都默認(rèn)為 GRPO 使用了 DAPO token 級(jí)損失歸一化 ,這也是該微軟團(tuán)隊(duì)在實(shí)驗(yàn)中使用的方法。

GRPO 的一個(gè)關(guān)鍵限制在于它依賴于單一的標(biāo)量獎(jiǎng)勵(lì)信號(hào),這使得它難以聯(lián)合優(yōu)化多個(gè)期望得到的響應(yīng)屬性,例如簡潔性和準(zhǔn)確度。結(jié)果就是,GRPO 確實(shí)能提高準(zhǔn)確度,但也會(huì)讓響應(yīng)長度大幅增加。

GFPO 正是為了解決這個(gè)問題而生的,它可以同時(shí)優(yōu)化多個(gè)響應(yīng)屬性。

組過濾策略優(yōu)化:GFPO

GFPO 是一種簡單而有效的方法,可以針對想要的響應(yīng)屬性進(jìn)行有針對性的策略優(yōu)化。

GFPO 會(huì)為每個(gè)問題采樣更大的候選響應(yīng)組,從而擴(kuò)大響應(yīng)池以包含更多具有所需特性的候選響應(yīng),然后在計(jì)算策略梯度時(shí)顯式地過濾這些特性。雖然將簡潔性或信息量等所需屬性直接編碼到標(biāo)量獎(jiǎng)勵(lì)中是看似自然的做法,但同時(shí)編碼多個(gè)特性卻可能很難,尤其是在必須保證正確性的情況下。

數(shù)據(jù)過濾則是一種隱式、靈活的獎(jiǎng)勵(lì)塑造形式 —— 類似于使用選擇性采樣來放大特定模型行為的迭代式自我改進(jìn)方法 。在此顯式過濾步驟分離出所需的響應(yīng)后,將在所選組內(nèi)使用標(biāo)準(zhǔn)獎(jiǎng)勵(lì)來計(jì)算相對優(yōu)勢。因此,GFPO 無需復(fù)雜的獎(jiǎng)勵(lì)工程,即可同時(shí)優(yōu)化多個(gè)所需屬性(例如長度和準(zhǔn)確度)。

由于這里的目標(biāo)是減少強(qiáng)化學(xué)習(xí)中響應(yīng)長度的膨脹,因此該團(tuán)隊(duì)主要研究的是在保持與 GRPO 相當(dāng)?shù)臏?zhǔn)確度的用時(shí),使用 GFPO 來優(yōu)化縮短響應(yīng)長度。

給定一個(gè)問題 q,從當(dāng)前策略采樣大量響應(yīng) G = {o_1, ..., o_G}。GFPO 并不會(huì)在所有響應(yīng)上平等地訓(xùn)練,而是會(huì)根據(jù)用戶指定的指標(biāo)應(yīng)用選擇步驟,過濾出大小為 k 的最符合期望的響應(yīng)子集,然后進(jìn)行訓(xùn)練。之后,為每個(gè)響應(yīng)計(jì)算一個(gè)指標(biāo)得分并進(jìn)行相應(yīng)排序,從中選出前 k 個(gè)響應(yīng),形成留存子集 S ? G(算法 1)。這里,該團(tuán)隊(duì)定義了一個(gè)二元掩碼 m ∈ {0, 1}^G,其中 m_i = 1 表示被選中響應(yīng),m_i = 0 表示被拒絕響應(yīng)。



下面是 GFPO 的形式化定義:



這里使用 S 中響應(yīng)層面的獎(jiǎng)勵(lì)的平均值 (μ_S) 和標(biāo)準(zhǔn)差 (σ_S) 對所選子集 S 中響應(yīng)的優(yōu)勢進(jìn)行歸一化。這樣一來,便可以有意義地比較已表現(xiàn)出所需屬性的響應(yīng),從而確保 GFPO 優(yōu)先考慮過濾子集中獎(jiǎng)勵(lì)最高的響應(yīng)。不在 S 中的響應(yīng)的優(yōu)勢為零,從而可有效地被排除在策略更新之外。

因此,GFPO 的主要干預(yù)措施是在優(yōu)勢估計(jì)層面,使其可與任何 GRPO 變體兼容,例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。

雖然通過采樣更多響應(yīng),GFPO 會(huì)導(dǎo)致更高的訓(xùn)練時(shí)間計(jì)算成本,但由于學(xué)習(xí)到的策略比 GRPO 能產(chǎn)生更短的響應(yīng),因此這部分成本可以被抵消。

盡管 GFPO 是通用的,可以適應(yīng)各種評(píng)分指標(biāo),但微軟在這里的實(shí)驗(yàn)中研究的是旨在減少響應(yīng)長度膨脹的指標(biāo):

  • 響應(yīng)長度:使用短響應(yīng)進(jìn)行訓(xùn)練能直接鼓勵(lì)實(shí)現(xiàn)簡潔性。
  • token 效率(獎(jiǎng)勵(lì)/長度):使用高 token 效率的響應(yīng)進(jìn)行訓(xùn)練可鼓勵(lì)簡潔性,但如果較長響應(yīng)能「證明」其正當(dāng)性,則仍可允許較長響應(yīng)。

其他指標(biāo)(例如事實(shí)性、多樣性或外部質(zhì)量得分)也可以集成到 GFPO 中,以優(yōu)化不同的目標(biāo)屬性。

自適應(yīng)難度的 GFPO

該團(tuán)隊(duì)還提出了 GFPO 變體:自適應(yīng)難度 GFPO,見算法 2,其目標(biāo)是將更多的訓(xùn)練信號(hào)分配給更難的問題。



在訓(xùn)練的每個(gè)步驟中,通過計(jì)算為每個(gè)問題采樣的響應(yīng)的平均獎(jiǎng)勵(lì)來估計(jì)問題難度 —— 較低的平均獎(jiǎng)勵(lì)意味著難度更高。

為了自適應(yīng)地調(diào)整留存響應(yīng)的數(shù)量 (k),該團(tuán)隊(duì)使用了一個(gè)輕量級(jí) t-digest 數(shù)據(jù)結(jié)構(gòu)維護(hù)提示詞難度的流式摘要。t-digest 可以有效地近似迄今為止所有提示詞難度(獎(jiǎng)勵(lì)均值)的四分位數(shù),從而能夠?qū)⑿聠栴}分類到相對難度的桶(bucket)中。

基于此分類,該團(tuán)隊(duì)為每個(gè)問題分配一個(gè)留存響應(yīng)數(shù)量目標(biāo) k:簡單 4 個(gè),中等 6 個(gè),困難和非常困難的問題 8 個(gè)(從 16 個(gè)樣本中選?。_@種動(dòng)態(tài)課程可以對簡單提示詞進(jìn)行更積極的過濾,并對困難提示詞進(jìn)行更多探索。難度桶的數(shù)量和每個(gè)桶的 k 是此方法的超參數(shù)。

自適應(yīng)難度 GFPO 可高效利用訓(xùn)練計(jì)算,將梯度更新集中在最需要的地方。它能幫助模型減少簡單示例(正確率已經(jīng)很高)的冗長程度,同時(shí)通過保留更多推理鏈來保持更難提示詞的準(zhǔn)確度。

該團(tuán)隊(duì)表示:「據(jù)我們所知,這是首個(gè)能根據(jù)問題難度動(dòng)態(tài)調(diào)整有效分組規(guī)模的算法?!?/p>

基于 GFPO 的實(shí)驗(yàn)發(fā)現(xiàn)

那么,GFPO 的表現(xiàn)如何呢?基于 14B 參數(shù)的 Phi-4-reasoning 模型,該團(tuán)隊(duì)開展了實(shí)驗(yàn)。

他們評(píng)估了三種 GFPO 變體:

  • Shortest k/G:留存 G 中的 k 個(gè)最短響應(yīng),同時(shí)改變 k 和分組規(guī)模 G,以研究它們對長度縮減的影響。
  • token 效率:留存 G 中 k 個(gè)每 token 獎(jiǎng)勵(lì)效率最高的響應(yīng),使用 k = 8,G = 16(與基準(zhǔn) Shortest k/G 設(shè)置一致)。
  • 自適應(yīng)難度:留存 G 中 k 個(gè)最短的響應(yīng),k 根據(jù)實(shí)時(shí)難度估算動(dòng)態(tài)選擇(4、6、8,8 表示簡單→非常難),G = 16。

更多實(shí)驗(yàn)細(xì)節(jié)請參閱原論文,這里我們重點(diǎn)看看該團(tuán)隊(duì)得到的一些發(fā)現(xiàn)。





發(fā)現(xiàn) 1:「少思考」需要多采樣:在不增加分組規(guī)模的情況下減少保留的響應(yīng)(Shortest 6/8 GFPO)不會(huì)減少響應(yīng)長度。

發(fā)現(xiàn) 2:留存響應(yīng)的百分比 (k/G) 可控制長度壓力:降低 k 或提高 G 會(huì)進(jìn)一步縮短長度;該團(tuán)隊(duì)觀察到保留 25-33% 的響應(yīng)是最佳的,保留比例越小,增益越小。最短 4/24 是最佳長度優(yōu)化的 GFPO 變體,可最大程度地減少過長響應(yīng)。



發(fā)現(xiàn) 3:token 效率(獎(jiǎng)勵(lì) / 長度)優(yōu)化帶來了最大幅度的縮減:在保持準(zhǔn)確度的同時(shí),額外長度減少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。這些縮減在訓(xùn)練過程中會(huì)略微增加方差。

發(fā)現(xiàn) 4:自適應(yīng)難度 GFPO 在同等計(jì)算量下優(yōu)于 Shortest-k 算法:根據(jù)問題難度自適應(yīng)地確定 k 值,在 4/5 基準(zhǔn)測試中,與同等計(jì)算量下的 Shortest-k 算法相比,其長度縮減效果更佳。



發(fā)現(xiàn) 5:GFPO 可緩解分布外(OOD)長度膨脹:GRPO 會(huì)增加分布外任務(wù)的響應(yīng)長度,但準(zhǔn)確度并未提高;而 GFPO 則在略微提高準(zhǔn)確度的同時(shí),抑制了這種膨脹。



發(fā)現(xiàn) 6:

  • GFPO 在所有難度級(jí)別上都會(huì)縮短響應(yīng)。
  • token 效率 GFPO 在簡單、中等和困難問題上實(shí)現(xiàn)了最大程度的縮減 —— 在簡單問題上,其響應(yīng)甚至比 SFT 模型更短,同時(shí)準(zhǔn)確度與 GRPO 相當(dāng)。
  • Shortest 8/24 GFPO 由于其強(qiáng)大的過濾功能,在最難問題上實(shí)現(xiàn)了最大程度的縮減。



發(fā)現(xiàn) 7:

  • 自適應(yīng)難度 GFPO 在中等難度和極難問題上的準(zhǔn)確度超越 GRPO,同時(shí)將過長問題縮短了 47%-60%。
  • 更大的分組規(guī)模提高了難題的準(zhǔn)確度:自適應(yīng)難度(k = 8,G = 16)在難題上略有下降,但 Shortest 8/24 算法可通過更多采樣找到簡潔的正確響應(yīng),從而與 GRPO 的準(zhǔn)確度相當(dāng)。

發(fā)現(xiàn) 8:即使在固定難度下,較長的響應(yīng)準(zhǔn)確度也會(huì)降低:在較難的問題中,推理的最佳點(diǎn)出現(xiàn)在 12k-16k 個(gè) token 左右。

發(fā)現(xiàn) 9:在最長的響應(yīng)四分位數(shù)中,GFPO 的準(zhǔn)確度優(yōu)于 GRPO。

發(fā)現(xiàn) 10:GFPO 可減少極端冗長:將 ≥ 20k 個(gè) token 的響應(yīng)比例從 32% 降至 22%,同時(shí)能以較短的長度解決更難的問題(在 GFPO 中,用 ≤ 5k 個(gè) token 回答的問題比 GRPO 的難度高 9 倍)。



發(fā)現(xiàn) 11:哪種 GFPO 變體效果最佳?

  • token 效率:長度縮減效果最強(qiáng),準(zhǔn)確度略有下降
  • 難度自適應(yīng):在最難問題上,通過穩(wěn)健的長度縮減獲得了最佳準(zhǔn)確度
  • Shortest 8/24:在管理準(zhǔn)確度與長度的權(quán)衡方面非常有效



發(fā)現(xiàn)12:GFPO 可大幅降低推理解答和驗(yàn)證階段的冗長程度,在 AIME 25 上,解答中減少了 94.4% 的多余長度,驗(yàn)證步驟中減少了 66.7% 的多余長度。



https://x.com/DimitrisPapail/status/1955652396572721184

https://x.com/DimitrisPapail/status/1955653211819270337

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
活了30年才知道,原來這7樣?xùn)|西“反著用”更好用!我猜你也用錯(cuò)

活了30年才知道,原來這7樣?xùn)|西“反著用”更好用!我猜你也用錯(cuò)

室內(nèi)設(shè)計(jì)師有料兒
2025-08-14 15:11:22
2500 億、擬收購:谷歌瀏覽器(Chrome)

2500 億、擬收購:谷歌瀏覽器(Chrome)

云頭條
2025-08-13 08:27:26
猛料越扒越有!釋永信在少林寺到底有多爽,你根本想象不到

猛料越扒越有!釋永信在少林寺到底有多爽,你根本想象不到

一口娛樂
2025-08-14 01:08:05
一場4分險(xiǎn)勝,男籃亞洲杯4強(qiáng)全部出爐!中國隊(duì)半決賽對手:新西蘭

一場4分險(xiǎn)勝,男籃亞洲杯4強(qiáng)全部出爐!中國隊(duì)半決賽對手:新西蘭

山河入畫屏
2025-08-15 03:04:28
沖著楊冪去看的《生萬物》,卻被尖嘴猴腮、一臉橫肉的老戲骨驚艷

沖著楊冪去看的《生萬物》,卻被尖嘴猴腮、一臉橫肉的老戲骨驚艷

探源歷史
2025-08-14 16:25:32
潘長江43歲女兒臉部大變樣,承認(rèn)做醫(yī)美,笑不自然!網(wǎng)友:認(rèn)不出

潘長江43歲女兒臉部大變樣,承認(rèn)做醫(yī)美,笑不自然!網(wǎng)友:認(rèn)不出

章眽八卦
2025-08-13 12:11:48
《戰(zhàn)地6》玩家已造成超751億美元的損失 但遠(yuǎn)遠(yuǎn)不夠!

《戰(zhàn)地6》玩家已造成超751億美元的損失 但遠(yuǎn)遠(yuǎn)不夠!

游民星空
2025-08-13 23:04:21
娃哈哈家族大戰(zhàn)終于真相大白了!原來從頭到尾都是場鬧??!

娃哈哈家族大戰(zhàn)終于真相大白了!原來從頭到尾都是場鬧劇!

阿傖說事
2025-07-29 09:58:08
2011年,蘇州市原副市長姜人杰被處決,收受賄賂1億多元

2011年,蘇州市原副市長姜人杰被處決,收受賄賂1億多元

青途歷史
2025-08-14 19:10:59
老板兒子高考583分,司機(jī)隨禮2888,司機(jī)女兒考710,老板回禮666

老板兒子高考583分,司機(jī)隨禮2888,司機(jī)女兒考710,老板回禮666

球場指揮家
2025-08-13 23:55:06
緊急通知:杭州部分列車停運(yùn)!多地特大暴雨,停課停航

緊急通知:杭州部分列車停運(yùn)!多地特大暴雨,停課停航

魯中晨報(bào)
2025-08-14 13:16:33
一味藥舒通氣血,專通人體經(jīng)絡(luò),能調(diào)八種病

一味藥舒通氣血,專通人體經(jīng)絡(luò),能調(diào)八種病

太極本草
2025-07-25 13:22:06
經(jīng)濟(jì)大省新亮點(diǎn)|福建:164條縣域重點(diǎn)產(chǎn)業(yè)鏈逐質(zhì)向新

經(jīng)濟(jì)大省新亮點(diǎn)|福建:164條縣域重點(diǎn)產(chǎn)業(yè)鏈逐質(zhì)向新

新華社
2025-08-12 19:01:16
一屋子專業(yè)老戲骨,硬是演不過一個(gè)跨界舞蹈生,爛不是沒有理由

一屋子專業(yè)老戲骨,硬是演不過一個(gè)跨界舞蹈生,爛不是沒有理由

胡一舸北游
2025-08-14 16:46:33
黎巴嫩超值歸化!勞森14中10砍24分10板3斷大勝日本 正負(fù)值+35!

黎巴嫩超值歸化!勞森14中10砍24分10板3斷大勝日本 正負(fù)值+35!

直播吧
2025-08-13 09:09:42
楊女士一覺醒來天塌了!輔導(dǎo)員劉迪調(diào)離,眾叛親離!

楊女士一覺醒來天塌了!輔導(dǎo)員劉迪調(diào)離,眾叛親離!

甜檸聊史
2025-08-14 15:03:53
一覺醒來!所有老板的天都塌了,任何補(bǔ)繳社保的約定都是無效的!

一覺醒來!所有老板的天都塌了,任何補(bǔ)繳社保的約定都是無效的!

深析古今
2025-08-04 14:01:43
落馬女官員挖出327枚比特幣,價(jià)值約1.5億元?貴州省紀(jì)委回應(yīng):是謠言

落馬女官員挖出327枚比特幣,價(jià)值約1.5億元?貴州省紀(jì)委回應(yīng):是謠言

極目新聞
2025-08-14 13:06:54
炸裂!大巴逆行逼停軍車,不聽勸阻撞退武警,畫面曝光,網(wǎng)友炸鍋

炸裂!大巴逆行逼停軍車,不聽勸阻撞退武警,畫面曝光,網(wǎng)友炸鍋

鋭娛之樂
2025-08-14 22:36:18
這是一篇性暗示內(nèi)容

這是一篇性暗示內(nèi)容

柴差說
2025-08-14 16:29:57
2025-08-15 07:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11087文章數(shù) 142417關(guān)注度
往期回顧 全部

科技要聞

暴雨之下1萬多人,500個(gè)機(jī)器人燃爆全場

頭條要聞

特朗普:“普特會(huì)”有25%幾率不成功

頭條要聞

特朗普:“普特會(huì)”有25%幾率不成功

體育要聞

在菲律賓,一支中國人創(chuàng)建的球隊(duì)踢上了亞冠

娛樂要聞

趙露思發(fā)文告別!扯下她最后的顏面

財(cái)經(jīng)要聞

“許家印同伙”夏海鈞的資產(chǎn)藏匿游戲

汽車要聞

大六座SUV還能這么玩 吉利銀河M9動(dòng)態(tài)內(nèi)測

態(tài)度原創(chuàng)

數(shù)碼
健康
家居
公開課
軍事航空

數(shù)碼要聞

血氧功能終于在美國回歸 Apple Watch

急診科專家解答動(dòng)物抓咬傷八大問題

家居要聞

現(xiàn)代奶油 網(wǎng)紅又實(shí)用

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

倒計(jì)時(shí)一天 "普特會(huì)"的五大看點(diǎn)梳理

無障礙瀏覽 進(jìn)入關(guān)懷版 九九综合九九综合| 亚洲av成人片在线观看 | 网久久综合| 日韩成人不卡免费视频| 毛片精品免费视频| 国产精品岛国久久久久| 第一精品福利导福航| 人妻在线日韩免费视频| 人人曰人人看| AVZONGHE| 欧美国产日韩久久MV| 亚洲精品无码久久久| 特级毛片A级毛片免费播放| 办公室激情啪波多野结衣图片| 亚洲国产亚洲综合在线尤物| 国产成人AV无码精品天堂| 97夜夜澡人人爽人人模人人喊| 无码国内精品久久人妻| 欧美ⅩⅩⅩⅩ| AV网站在线播放| 国产AV综合AV一区二区| 欧美成人性蜜芽| Av免费在线网址| 95在线人妻| 少妇水多12p| 亚洲av无码专区在线厂| 亚洲一区二区三区有码| A级毛片100部免费看| XXXXWWW互换人妻中国| 久久国产精品_国产精品| 欧美墨人肛交片| 国产色婷婷| 久久精品人人爽人人爽| 国产精品亚洲专区无码不卡| 午夜福利av无码一区二区| 久久www免费人成精品| 日韩中文字幕国产精品| 一二三区性爱视频| 久久一日本道色综合久久| 亚洲精华国产欧美| 高清无码精品一区二区三区|