冗長響應(yīng)縮減80%，DeepSeek GRPO獲得顛覆性改進(jìn)，微軟GFPO問世

2025-08-14 17:32:36　來源: 機(jī)器之心Pro

內(nèi)蒙古舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：Panda

用過 DeepSeek-R1 等推理模型的人，大概都遇到過這種情況：一個(gè)稍微棘手的問題，模型像陷入沉思一樣長篇大論地推下去，耗時(shí)耗算力，結(jié)果卻未必靠譜?，F(xiàn)在，我們或許有了解決方案。

這兩天，微軟研究員 Dimitris Papailiopoulos 在上曝出一個(gè)新成果：Group Filtered Policy Optimization（GFPO）—— 一種顛覆性的強(qiáng)化學(xué)習(xí)算法。

GFPO 能同時(shí)權(quán)衡訓(xùn)練與測試階段的計(jì)算開銷，可在提升準(zhǔn)確率的同時(shí)，將推理中因強(qiáng)化學(xué)習(xí)帶來的多余 token 長度削減多達(dá)80%！

數(shù)據(jù)很驚人，但這究竟是如何做到的呢？

就在剛剛，GFPO 終于上線 arXiv，所有細(xì)節(jié)首次公開，高效強(qiáng)化學(xué)習(xí)的新玩法即將揭曉。

論文標(biāo)題：Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
論文地址：https://arxiv.org/abs/2508.09726

欲知 GFPO，先看 GRPO

在介紹 GFPO 之前，有必要先看看 DeepSeek 提出的組相對策略優(yōu)化（GRPO）。

GRPO 基于近端策略優(yōu)化（PPO）算法，但進(jìn)行了簡化，即不再需要使用價(jià)值模型來估計(jì)基線優(yōu)勢。具體操作是對每個(gè)問題采樣多個(gè)響應(yīng)，并使用它們的平均獎(jiǎng)勵(lì)作為基線，而其優(yōu)化的目標(biāo)仍然是與 PPO 類似的裁剪替代目標(biāo)（clipped surrogate objective）。

寫成公式的話，如果令 θ 表示模型參數(shù)，q 表示問題，o 表示從舊策略 π_θ_old 采樣的響應(yīng)，則 GRPO 目標(biāo)可以寫成：

需要注意的是，盡管這里展示了標(biāo)準(zhǔn)的 GRPO 損失歸一化公式，但包括 verl 和 TRL 在內(nèi)的多個(gè)開源強(qiáng)化學(xué)習(xí)庫都默認(rèn)為 GRPO 使用了 DAPO token 級(jí)損失歸一化，這也是該微軟團(tuán)隊(duì)在實(shí)驗(yàn)中使用的方法。

GRPO 的一個(gè)關(guān)鍵限制在于它依賴于單一的標(biāo)量獎(jiǎng)勵(lì)信號(hào)，這使得它難以聯(lián)合優(yōu)化多個(gè)期望得到的響應(yīng)屬性，例如簡潔性和準(zhǔn)確度。結(jié)果就是，GRPO 確實(shí)能提高準(zhǔn)確度，但也會(huì)讓響應(yīng)長度大幅增加。

GFPO 正是為了解決這個(gè)問題而生的，它可以同時(shí)優(yōu)化多個(gè)響應(yīng)屬性。

組過濾策略優(yōu)化：GFPO

GFPO 是一種簡單而有效的方法，可以針對想要的響應(yīng)屬性進(jìn)行有針對性的策略優(yōu)化。

GFPO 會(huì)為每個(gè)問題采樣更大的候選響應(yīng)組，從而擴(kuò)大響應(yīng)池以包含更多具有所需特性的候選響應(yīng)，然后在計(jì)算策略梯度時(shí)顯式地過濾這些特性。雖然將簡潔性或信息量等所需屬性直接編碼到標(biāo)量獎(jiǎng)勵(lì)中是看似自然的做法，但同時(shí)編碼多個(gè)特性卻可能很難，尤其是在必須保證正確性的情況下。

數(shù)據(jù)過濾則是一種隱式、靈活的獎(jiǎng)勵(lì)塑造形式 —— 類似于使用選擇性采樣來放大特定模型行為的迭代式自我改進(jìn)方法。在此顯式過濾步驟分離出所需的響應(yīng)后，將在所選組內(nèi)使用標(biāo)準(zhǔn)獎(jiǎng)勵(lì)來計(jì)算相對優(yōu)勢。因此，GFPO 無需復(fù)雜的獎(jiǎng)勵(lì)工程，即可同時(shí)優(yōu)化多個(gè)所需屬性（例如長度和準(zhǔn)確度）。

由于這里的目標(biāo)是減少強(qiáng)化學(xué)習(xí)中響應(yīng)長度的膨脹，因此該團(tuán)隊(duì)主要研究的是在保持與 GRPO 相當(dāng)?shù)臏?zhǔn)確度的用時(shí)，使用 GFPO 來優(yōu)化縮短響應(yīng)長度。

給定一個(gè)問題 q，從當(dāng)前策略采樣大量響應(yīng) G = {o_1, ..., o_G}。GFPO 并不會(huì)在所有響應(yīng)上平等地訓(xùn)練，而是會(huì)根據(jù)用戶指定的指標(biāo)應(yīng)用選擇步驟，過濾出大小為 k 的最符合期望的響應(yīng)子集，然后進(jìn)行訓(xùn)練。之后，為每個(gè)響應(yīng)計(jì)算一個(gè)指標(biāo)得分并進(jìn)行相應(yīng)排序，從中選出前 k 個(gè)響應(yīng)，形成留存子集 S ? G（算法 1）。這里，該團(tuán)隊(duì)定義了一個(gè)二元掩碼 m ∈ {0, 1}^G，其中 m_i = 1 表示被選中響應(yīng)，m_i = 0 表示被拒絕響應(yīng)。

下面是 GFPO 的形式化定義：

這里使用 S 中響應(yīng)層面的獎(jiǎng)勵(lì)的平均值 (μ_S) 和標(biāo)準(zhǔn)差 (σ_S) 對所選子集 S 中響應(yīng)的優(yōu)勢進(jìn)行歸一化。這樣一來，便可以有意義地比較已表現(xiàn)出所需屬性的響應(yīng)，從而確保 GFPO 優(yōu)先考慮過濾子集中獎(jiǎng)勵(lì)最高的響應(yīng)。不在 S 中的響應(yīng)的優(yōu)勢為零，從而可有效地被排除在策略更新之外。

因此，GFPO 的主要干預(yù)措施是在優(yōu)勢估計(jì)層面，使其可與任何 GRPO 變體兼容，例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。

雖然通過采樣更多響應(yīng)，GFPO 會(huì)導(dǎo)致更高的訓(xùn)練時(shí)間計(jì)算成本，但由于學(xué)習(xí)到的策略比 GRPO 能產(chǎn)生更短的響應(yīng)，因此這部分成本可以被抵消。

盡管 GFPO 是通用的，可以適應(yīng)各種評(píng)分指標(biāo)，但微軟在這里的實(shí)驗(yàn)中研究的是旨在減少響應(yīng)長度膨脹的指標(biāo)：

響應(yīng)長度：使用短響應(yīng)進(jìn)行訓(xùn)練能直接鼓勵(lì)實(shí)現(xiàn)簡潔性。
token 效率（獎(jiǎng)勵(lì)/長度）：使用高 token 效率的響應(yīng)進(jìn)行訓(xùn)練可鼓勵(lì)簡潔性，但如果較長響應(yīng)能「證明」其正當(dāng)性，則仍可允許較長響應(yīng)。

其他指標(biāo)（例如事實(shí)性、多樣性或外部質(zhì)量得分）也可以集成到 GFPO 中，以優(yōu)化不同的目標(biāo)屬性。

自適應(yīng)難度的 GFPO

該團(tuán)隊(duì)還提出了 GFPO 變體：自適應(yīng)難度 GFPO，見算法 2，其目標(biāo)是將更多的訓(xùn)練信號(hào)分配給更難的問題。

在訓(xùn)練的每個(gè)步驟中，通過計(jì)算為每個(gè)問題采樣的響應(yīng)的平均獎(jiǎng)勵(lì)來估計(jì)問題難度 —— 較低的平均獎(jiǎng)勵(lì)意味著難度更高。

為了自適應(yīng)地調(diào)整留存響應(yīng)的數(shù)量 (k)，該團(tuán)隊(duì)使用了一個(gè)輕量級(jí) t-digest 數(shù)據(jù)結(jié)構(gòu)維護(hù)提示詞難度的流式摘要。t-digest 可以有效地近似迄今為止所有提示詞難度（獎(jiǎng)勵(lì)均值）的四分位數(shù)，從而能夠?qū)⑿聠栴}分類到相對難度的桶（bucket）中。

基于此分類，該團(tuán)隊(duì)為每個(gè)問題分配一個(gè)留存響應(yīng)數(shù)量目標(biāo) k：簡單 4 個(gè)，中等 6 個(gè)，困難和非常困難的問題 8 個(gè)（從 16 個(gè)樣本中選?。＿@種動(dòng)態(tài)課程可以對簡單提示詞進(jìn)行更積極的過濾，并對困難提示詞進(jìn)行更多探索。難度桶的數(shù)量和每個(gè)桶的 k 是此方法的超參數(shù)。

自適應(yīng)難度 GFPO 可高效利用訓(xùn)練計(jì)算，將梯度更新集中在最需要的地方。它能幫助模型減少簡單示例（正確率已經(jīng)很高）的冗長程度，同時(shí)通過保留更多推理鏈來保持更難提示詞的準(zhǔn)確度。

該團(tuán)隊(duì)表示：「據(jù)我們所知，這是首個(gè)能根據(jù)問題難度動(dòng)態(tài)調(diào)整有效分組規(guī)模的算法?！?/p>

基于 GFPO 的實(shí)驗(yàn)發(fā)現(xiàn)

那么，GFPO 的表現(xiàn)如何呢？基于 14B 參數(shù)的 Phi-4-reasoning 模型，該團(tuán)隊(duì)開展了實(shí)驗(yàn)。

他們評(píng)估了三種 GFPO 變體：

Shortest k/G：留存 G 中的 k 個(gè)最短響應(yīng)，同時(shí)改變 k 和分組規(guī)模 G，以研究它們對長度縮減的影響。
token 效率：留存 G 中 k 個(gè)每 token 獎(jiǎng)勵(lì)效率最高的響應(yīng)，使用 k = 8，G = 16（與基準(zhǔn) Shortest k/G 設(shè)置一致）。
自適應(yīng)難度：留存 G 中 k 個(gè)最短的響應(yīng)，k 根據(jù)實(shí)時(shí)難度估算動(dòng)態(tài)選擇（4、6、8，8 表示簡單→非常難），G = 16。

更多實(shí)驗(yàn)細(xì)節(jié)請參閱原論文，這里我們重點(diǎn)看看該團(tuán)隊(duì)得到的一些發(fā)現(xiàn)。

發(fā)現(xiàn) 1：「少思考」需要多采樣：在不增加分組規(guī)模的情況下減少保留的響應(yīng)（Shortest 6/8 GFPO）不會(huì)減少響應(yīng)長度。

發(fā)現(xiàn) 2：留存響應(yīng)的百分比 (k/G) 可控制長度壓力：降低 k 或提高 G 會(huì)進(jìn)一步縮短長度；該團(tuán)隊(duì)觀察到保留 25-33% 的響應(yīng)是最佳的，保留比例越小，增益越小。最短 4/24 是最佳長度優(yōu)化的 GFPO 變體，可最大程度地減少過長響應(yīng)。

發(fā)現(xiàn) 3：token 效率（獎(jiǎng)勵(lì) / 長度）優(yōu)化帶來了最大幅度的縮減：在保持準(zhǔn)確度的同時(shí)，額外長度減少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。這些縮減在訓(xùn)練過程中會(huì)略微增加方差。

發(fā)現(xiàn) 4：自適應(yīng)難度 GFPO 在同等計(jì)算量下優(yōu)于 Shortest-k 算法：根據(jù)問題難度自適應(yīng)地確定 k 值，在 4/5 基準(zhǔn)測試中，與同等計(jì)算量下的 Shortest-k 算法相比，其長度縮減效果更佳。

發(fā)現(xiàn) 5：GFPO 可緩解分布外（OOD）長度膨脹：GRPO 會(huì)增加分布外任務(wù)的響應(yīng)長度，但準(zhǔn)確度并未提高；而 GFPO 則在略微提高準(zhǔn)確度的同時(shí)，抑制了這種膨脹。

發(fā)現(xiàn) 6：

GFPO 在所有難度級(jí)別上都會(huì)縮短響應(yīng)。
token 效率 GFPO 在簡單、中等和困難問題上實(shí)現(xiàn)了最大程度的縮減 —— 在簡單問題上，其響應(yīng)甚至比 SFT 模型更短，同時(shí)準(zhǔn)確度與 GRPO 相當(dāng)。
Shortest 8/24 GFPO 由于其強(qiáng)大的過濾功能，在最難問題上實(shí)現(xiàn)了最大程度的縮減。

發(fā)現(xiàn) 7：

自適應(yīng)難度 GFPO 在中等難度和極難問題上的準(zhǔn)確度超越 GRPO，同時(shí)將過長問題縮短了 47%-60%。
更大的分組規(guī)模提高了難題的準(zhǔn)確度：自適應(yīng)難度（k = 8，G = 16）在難題上略有下降，但 Shortest 8/24 算法可通過更多采樣找到簡潔的正確響應(yīng)，從而與 GRPO 的準(zhǔn)確度相當(dāng)。

發(fā)現(xiàn) 8：即使在固定難度下，較長的響應(yīng)準(zhǔn)確度也會(huì)降低：在較難的問題中，推理的最佳點(diǎn)出現(xiàn)在 12k-16k 個(gè) token 左右。

發(fā)現(xiàn) 9：在最長的響應(yīng)四分位數(shù)中，GFPO 的準(zhǔn)確度優(yōu)于 GRPO。

發(fā)現(xiàn) 10：GFPO 可減少極端冗長：將 ≥ 20k 個(gè) token 的響應(yīng)比例從 32% 降至 22%，同時(shí)能以較短的長度解決更難的問題（在 GFPO 中，用 ≤ 5k 個(gè) token 回答的問題比 GRPO 的難度高 9 倍）。

發(fā)現(xiàn) 11：哪種 GFPO 變體效果最佳？

token 效率：長度縮減效果最強(qiáng)，準(zhǔn)確度略有下降
難度自適應(yīng)：在最難問題上，通過穩(wěn)健的長度縮減獲得了最佳準(zhǔn)確度
Shortest 8/24：在管理準(zhǔn)確度與長度的權(quán)衡方面非常有效

發(fā)現(xiàn)12：GFPO 可大幅降低推理解答和驗(yàn)證階段的冗長程度，在 AIME 25 上，解答中減少了 94.4% 的多余長度，驗(yàn)證步驟中減少了 66.7% 的多余長度。

https://x.com/DimitrisPapail/status/1955652396572721184

https://x.com/DimitrisPapail/status/1955653211819270337

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.