機(jī)器之心報(bào)道
編輯:Panda
用過 DeepSeek-R1 等推理模型的人,大概都遇到過這種情況:一個(gè)稍微棘手的問題,模型像陷入沉思一樣長篇大論地推下去,耗時(shí)耗算力,結(jié)果卻未必靠譜?,F(xiàn)在,我們或許有了解決方案。
這兩天,微軟研究員 Dimitris Papailiopoulos 在 上曝出一個(gè)新成果:Group Filtered Policy Optimization(GFPO)—— 一種顛覆性的強(qiáng)化學(xué)習(xí)算法。
GFPO 能同時(shí)權(quán)衡訓(xùn)練與測試階段的計(jì)算開銷,可在提升準(zhǔn)確率的同時(shí),將推理中因強(qiáng)化學(xué)習(xí)帶來的多余 token 長度削減多達(dá)80%!
數(shù)據(jù)很驚人,但這究竟是如何做到的呢?
就在剛剛,GFPO 終于上線 arXiv,所有細(xì)節(jié)首次公開,高效強(qiáng)化學(xué)習(xí)的新玩法即將揭曉。
- 論文標(biāo)題:Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
- 論文地址:https://arxiv.org/abs/2508.09726
欲知 GFPO,先看 GRPO
在介紹 GFPO 之前,有必要先看看 DeepSeek 提出的組相對策略優(yōu)化(GRPO)。
GRPO 基于近端策略優(yōu)化(PPO)算法,但進(jìn)行了簡化,即不再需要使用價(jià)值模型來估計(jì)基線優(yōu)勢。具體操作是對每個(gè)問題采樣多個(gè)響應(yīng),并使用它們的平均獎(jiǎng)勵(lì)作為基線,而其優(yōu)化的目標(biāo)仍然是與 PPO 類似的裁剪替代目標(biāo)(clipped surrogate objective)。
寫成公式的話,如果令 θ 表示模型參數(shù),q 表示問題,o 表示從舊策略 π_θ_old 采樣的響應(yīng),則 GRPO 目標(biāo)可以寫成:
需要注意的是,盡管這里展示了標(biāo)準(zhǔn)的 GRPO 損失歸一化公式,但包括 verl 和 TRL 在內(nèi)的多個(gè)開源強(qiáng)化學(xué)習(xí)庫都默認(rèn)為 GRPO 使用了 DAPO token 級(jí)損失歸一化 ,這也是該微軟團(tuán)隊(duì)在實(shí)驗(yàn)中使用的方法。
GRPO 的一個(gè)關(guān)鍵限制在于它依賴于單一的標(biāo)量獎(jiǎng)勵(lì)信號(hào),這使得它難以聯(lián)合優(yōu)化多個(gè)期望得到的響應(yīng)屬性,例如簡潔性和準(zhǔn)確度。結(jié)果就是,GRPO 確實(shí)能提高準(zhǔn)確度,但也會(huì)讓響應(yīng)長度大幅增加。
GFPO 正是為了解決這個(gè)問題而生的,它可以同時(shí)優(yōu)化多個(gè)響應(yīng)屬性。
組過濾策略優(yōu)化:GFPO
GFPO 是一種簡單而有效的方法,可以針對想要的響應(yīng)屬性進(jìn)行有針對性的策略優(yōu)化。
GFPO 會(huì)為每個(gè)問題采樣更大的候選響應(yīng)組,從而擴(kuò)大響應(yīng)池以包含更多具有所需特性的候選響應(yīng),然后在計(jì)算策略梯度時(shí)顯式地過濾這些特性。雖然將簡潔性或信息量等所需屬性直接編碼到標(biāo)量獎(jiǎng)勵(lì)中是看似自然的做法,但同時(shí)編碼多個(gè)特性卻可能很難,尤其是在必須保證正確性的情況下。
數(shù)據(jù)過濾則是一種隱式、靈活的獎(jiǎng)勵(lì)塑造形式 —— 類似于使用選擇性采樣來放大特定模型行為的迭代式自我改進(jìn)方法 。在此顯式過濾步驟分離出所需的響應(yīng)后,將在所選組內(nèi)使用標(biāo)準(zhǔn)獎(jiǎng)勵(lì)來計(jì)算相對優(yōu)勢。因此,GFPO 無需復(fù)雜的獎(jiǎng)勵(lì)工程,即可同時(shí)優(yōu)化多個(gè)所需屬性(例如長度和準(zhǔn)確度)。
由于這里的目標(biāo)是減少強(qiáng)化學(xué)習(xí)中響應(yīng)長度的膨脹,因此該團(tuán)隊(duì)主要研究的是在保持與 GRPO 相當(dāng)?shù)臏?zhǔn)確度的用時(shí),使用 GFPO 來優(yōu)化縮短響應(yīng)長度。
給定一個(gè)問題 q,從當(dāng)前策略采樣大量響應(yīng) G = {o_1, ..., o_G}。GFPO 并不會(huì)在所有響應(yīng)上平等地訓(xùn)練,而是會(huì)根據(jù)用戶指定的指標(biāo)應(yīng)用選擇步驟,過濾出大小為 k 的最符合期望的響應(yīng)子集,然后進(jìn)行訓(xùn)練。之后,為每個(gè)響應(yīng)計(jì)算一個(gè)指標(biāo)得分并進(jìn)行相應(yīng)排序,從中選出前 k 個(gè)響應(yīng),形成留存子集 S ? G(算法 1)。這里,該團(tuán)隊(duì)定義了一個(gè)二元掩碼 m ∈ {0, 1}^G,其中 m_i = 1 表示被選中響應(yīng),m_i = 0 表示被拒絕響應(yīng)。
下面是 GFPO 的形式化定義:
這里使用 S 中響應(yīng)層面的獎(jiǎng)勵(lì)的平均值 (μ_S) 和標(biāo)準(zhǔn)差 (σ_S) 對所選子集 S 中響應(yīng)的優(yōu)勢進(jìn)行歸一化。這樣一來,便可以有意義地比較已表現(xiàn)出所需屬性的響應(yīng),從而確保 GFPO 優(yōu)先考慮過濾子集中獎(jiǎng)勵(lì)最高的響應(yīng)。不在 S 中的響應(yīng)的優(yōu)勢為零,從而可有效地被排除在策略更新之外。
因此,GFPO 的主要干預(yù)措施是在優(yōu)勢估計(jì)層面,使其可與任何 GRPO 變體兼容,例如 DAPO、Dr. GRPO 或帶有 Dual-Clip PPO 損失的 GRPO。
雖然通過采樣更多響應(yīng),GFPO 會(huì)導(dǎo)致更高的訓(xùn)練時(shí)間計(jì)算成本,但由于學(xué)習(xí)到的策略比 GRPO 能產(chǎn)生更短的響應(yīng),因此這部分成本可以被抵消。
盡管 GFPO 是通用的,可以適應(yīng)各種評(píng)分指標(biāo),但微軟在這里的實(shí)驗(yàn)中研究的是旨在減少響應(yīng)長度膨脹的指標(biāo):
- 響應(yīng)長度:使用短響應(yīng)進(jìn)行訓(xùn)練能直接鼓勵(lì)實(shí)現(xiàn)簡潔性。
- token 效率(獎(jiǎng)勵(lì)/長度):使用高 token 效率的響應(yīng)進(jìn)行訓(xùn)練可鼓勵(lì)簡潔性,但如果較長響應(yīng)能「證明」其正當(dāng)性,則仍可允許較長響應(yīng)。
其他指標(biāo)(例如事實(shí)性、多樣性或外部質(zhì)量得分)也可以集成到 GFPO 中,以優(yōu)化不同的目標(biāo)屬性。
自適應(yīng)難度的 GFPO
該團(tuán)隊(duì)還提出了 GFPO 變體:自適應(yīng)難度 GFPO,見算法 2,其目標(biāo)是將更多的訓(xùn)練信號(hào)分配給更難的問題。
在訓(xùn)練的每個(gè)步驟中,通過計(jì)算為每個(gè)問題采樣的響應(yīng)的平均獎(jiǎng)勵(lì)來估計(jì)問題難度 —— 較低的平均獎(jiǎng)勵(lì)意味著難度更高。
為了自適應(yīng)地調(diào)整留存響應(yīng)的數(shù)量 (k),該團(tuán)隊(duì)使用了一個(gè)輕量級(jí) t-digest 數(shù)據(jù)結(jié)構(gòu)維護(hù)提示詞難度的流式摘要。t-digest 可以有效地近似迄今為止所有提示詞難度(獎(jiǎng)勵(lì)均值)的四分位數(shù),從而能夠?qū)⑿聠栴}分類到相對難度的桶(bucket)中。
基于此分類,該團(tuán)隊(duì)為每個(gè)問題分配一個(gè)留存響應(yīng)數(shù)量目標(biāo) k:簡單 4 個(gè),中等 6 個(gè),困難和非常困難的問題 8 個(gè)(從 16 個(gè)樣本中選?。_@種動(dòng)態(tài)課程可以對簡單提示詞進(jìn)行更積極的過濾,并對困難提示詞進(jìn)行更多探索。難度桶的數(shù)量和每個(gè)桶的 k 是此方法的超參數(shù)。
自適應(yīng)難度 GFPO 可高效利用訓(xùn)練計(jì)算,將梯度更新集中在最需要的地方。它能幫助模型減少簡單示例(正確率已經(jīng)很高)的冗長程度,同時(shí)通過保留更多推理鏈來保持更難提示詞的準(zhǔn)確度。
該團(tuán)隊(duì)表示:「據(jù)我們所知,這是首個(gè)能根據(jù)問題難度動(dòng)態(tài)調(diào)整有效分組規(guī)模的算法?!?/p>
基于 GFPO 的實(shí)驗(yàn)發(fā)現(xiàn)
那么,GFPO 的表現(xiàn)如何呢?基于 14B 參數(shù)的 Phi-4-reasoning 模型,該團(tuán)隊(duì)開展了實(shí)驗(yàn)。
他們評(píng)估了三種 GFPO 變體:
- Shortest k/G:留存 G 中的 k 個(gè)最短響應(yīng),同時(shí)改變 k 和分組規(guī)模 G,以研究它們對長度縮減的影響。
- token 效率:留存 G 中 k 個(gè)每 token 獎(jiǎng)勵(lì)效率最高的響應(yīng),使用 k = 8,G = 16(與基準(zhǔn) Shortest k/G 設(shè)置一致)。
- 自適應(yīng)難度:留存 G 中 k 個(gè)最短的響應(yīng),k 根據(jù)實(shí)時(shí)難度估算動(dòng)態(tài)選擇(4、6、8,8 表示簡單→非常難),G = 16。
更多實(shí)驗(yàn)細(xì)節(jié)請參閱原論文,這里我們重點(diǎn)看看該團(tuán)隊(duì)得到的一些發(fā)現(xiàn)。
發(fā)現(xiàn) 1:「少思考」需要多采樣:在不增加分組規(guī)模的情況下減少保留的響應(yīng)(Shortest 6/8 GFPO)不會(huì)減少響應(yīng)長度。
發(fā)現(xiàn) 2:留存響應(yīng)的百分比 (k/G) 可控制長度壓力:降低 k 或提高 G 會(huì)進(jìn)一步縮短長度;該團(tuán)隊(duì)觀察到保留 25-33% 的響應(yīng)是最佳的,保留比例越小,增益越小。最短 4/24 是最佳長度優(yōu)化的 GFPO 變體,可最大程度地減少過長響應(yīng)。
發(fā)現(xiàn) 3:token 效率(獎(jiǎng)勵(lì) / 長度)優(yōu)化帶來了最大幅度的縮減:在保持準(zhǔn)確度的同時(shí),額外長度減少了 70.9% (AIME 25)、84.6% (AIME 24)、79.7% (GPQA)、82.6% (OmniMATH) 和 79.7% (LiveCodeBench)。這些縮減在訓(xùn)練過程中會(huì)略微增加方差。
發(fā)現(xiàn) 4:自適應(yīng)難度 GFPO 在同等計(jì)算量下優(yōu)于 Shortest-k 算法:根據(jù)問題難度自適應(yīng)地確定 k 值,在 4/5 基準(zhǔn)測試中,與同等計(jì)算量下的 Shortest-k 算法相比,其長度縮減效果更佳。
發(fā)現(xiàn) 5:GFPO 可緩解分布外(OOD)長度膨脹:GRPO 會(huì)增加分布外任務(wù)的響應(yīng)長度,但準(zhǔn)確度并未提高;而 GFPO 則在略微提高準(zhǔn)確度的同時(shí),抑制了這種膨脹。
發(fā)現(xiàn) 6:
- GFPO 在所有難度級(jí)別上都會(huì)縮短響應(yīng)。
- token 效率 GFPO 在簡單、中等和困難問題上實(shí)現(xiàn)了最大程度的縮減 —— 在簡單問題上,其響應(yīng)甚至比 SFT 模型更短,同時(shí)準(zhǔn)確度與 GRPO 相當(dāng)。
- Shortest 8/24 GFPO 由于其強(qiáng)大的過濾功能,在最難問題上實(shí)現(xiàn)了最大程度的縮減。
發(fā)現(xiàn) 7:
- 自適應(yīng)難度 GFPO 在中等難度和極難問題上的準(zhǔn)確度超越 GRPO,同時(shí)將過長問題縮短了 47%-60%。
- 更大的分組規(guī)模提高了難題的準(zhǔn)確度:自適應(yīng)難度(k = 8,G = 16)在難題上略有下降,但 Shortest 8/24 算法可通過更多采樣找到簡潔的正確響應(yīng),從而與 GRPO 的準(zhǔn)確度相當(dāng)。
發(fā)現(xiàn) 8:即使在固定難度下,較長的響應(yīng)準(zhǔn)確度也會(huì)降低:在較難的問題中,推理的最佳點(diǎn)出現(xiàn)在 12k-16k 個(gè) token 左右。
發(fā)現(xiàn) 9:在最長的響應(yīng)四分位數(shù)中,GFPO 的準(zhǔn)確度優(yōu)于 GRPO。
發(fā)現(xiàn) 10:GFPO 可減少極端冗長:將 ≥ 20k 個(gè) token 的響應(yīng)比例從 32% 降至 22%,同時(shí)能以較短的長度解決更難的問題(在 GFPO 中,用 ≤ 5k 個(gè) token 回答的問題比 GRPO 的難度高 9 倍)。
發(fā)現(xiàn) 11:哪種 GFPO 變體效果最佳?
- token 效率:長度縮減效果最強(qiáng),準(zhǔn)確度略有下降
- 難度自適應(yīng):在最難問題上,通過穩(wěn)健的長度縮減獲得了最佳準(zhǔn)確度
- Shortest 8/24:在管理準(zhǔn)確度與長度的權(quán)衡方面非常有效
發(fā)現(xiàn)12:GFPO 可大幅降低推理解答和驗(yàn)證階段的冗長程度,在 AIME 25 上,解答中減少了 94.4% 的多余長度,驗(yàn)證步驟中減少了 66.7% 的多余長度。
https://x.com/DimitrisPapail/status/1955652396572721184
https://x.com/DimitrisPapail/status/1955653211819270337
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.