DeepSeek的GRPO會(huì)導(dǎo)致模型崩潰？看下Qwen3新范式GSPO

2025-08-07 17:42:25　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

眾所周知，大型語言模型的訓(xùn)練通常分為兩個(gè)階段。第一階段是「預(yù)訓(xùn)練」，開發(fā)者利用大規(guī)模文本數(shù)據(jù)集訓(xùn)練模型，讓它學(xué)會(huì)預(yù)測句子中的下一個(gè)詞。第二階段是「后訓(xùn)練」，旨在教會(huì)模型如何更好地理解和執(zhí)行人類指令。

在 LLM 后訓(xùn)練階段，似乎是一個(gè)強(qiáng)化學(xué)習(xí)的特殊形式。用于大語言模型（LLMs）微調(diào)的強(qiáng)化學(xué)習(xí)（RL）算法正沿著一條明確的演進(jìn)路徑持續(xù)發(fā)展。

起初，OpenAI 開創(chuàng)了一種名為基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）的技術(shù)，用于改進(jìn) ChatGPT。RLHF 的核心是讓人類標(biāo)注員對模型生成的多種響應(yīng)進(jìn)行打分，并選出最優(yōu)答案作為訓(xùn)練參考。這一過程雖然有效，但也耗時(shí)、昂貴且依賴人力，通常需要一支小型但專業(yè)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。

DeepSeek 的重要?jiǎng)?chuàng)新在于用 RL 技術(shù)自動(dòng)化了這一環(huán)節(jié)。算法不再依賴人工逐一評估，而是讓模型在探索過程中，通過獲得「獎(jiǎng)勵(lì)信號」自主學(xué)習(xí)正確行為，從而顯著降低了成本，提高了效率，最終能以較低的成本實(shí)現(xiàn)高性能。

OpenAI 在 ChatGPT 的訓(xùn)練中采用了近端策略優(yōu)化（Proximal Policy Optimization, PPO）

而 DeepSeek 團(tuán)隊(duì) 則認(rèn)為，在一組樣本中進(jìn)行價(jià)值估計(jì)更加有效，因此提出了組相對策略優(yōu)化（Group Relative Policy Optimization, GRPO）算法，這也是 DeepSeek-R1 中的核心技術(shù)，使 DeepSeek-R1 模型大放異彩。

GPRO 與 PPO 的對比，摘自 DeepSeekMath 論文。

在幾個(gè)月前 Qwen3 首次亮相的時(shí)候，其旗艦?zāi)Ｐ偷男阅芫鸵呀?jīng)與 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等頂級模型表現(xiàn)相當(dāng)。除此以外，Qwen3 系列模型覆蓋了 MoE 模型和密集模型，每一款模型又有許多細(xì)分版本。

近些天，Qwen3 系列模型仍然在不停的迭代更新，例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知識數(shù)學(xué)、編程、人類偏好對齊、Agent 能力等眾多測評中表現(xiàn)出色，甚至了超過 Kimi-K2、DeepSeek-V3 等頂級開源模型以及 Claude-Opus4-Non-thinking 等領(lǐng)先閉源模型。

最近，Qwen 團(tuán)隊(duì)發(fā)布了一篇有關(guān)其模型后訓(xùn)練算法的論文，似乎揭示了 Qwen3 模型成功的核心技術(shù)細(xì)節(jié)。

論文標(biāo)題：Group Sequence Policy Optimization
論文鏈接：https://huggingface.co/papers/2507.18071
博客鏈接：https://qwenlm.github.io/blog/gspo/

而在昨天，來自清華大學(xué)校友創(chuàng)立的創(chuàng)業(yè)公司 NetMind.AI發(fā)表了一篇博客，題為《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》，對 Qwen 團(tuán)隊(duì)為 Qwen3 模型提出的 GSPO 算法進(jìn)行了詳盡的介紹與分析。

博客鏈接：https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

最近 Qwen 的研究表明，使用 GRPO 訓(xùn)練大語言模型時(shí)存在嚴(yán)重的穩(wěn)定性問題，往往會(huì)導(dǎo)致模型不可逆地崩潰。他們認(rèn)為 DeepSeek 的 GPRO 方法存在一些嚴(yán)重問題：

在每個(gè) token 級別應(yīng)用重要性采樣，會(huì)在長序列中積累高方差，導(dǎo)致訓(xùn)練不穩(wěn)定
這一問題在專家混合模型（Mixture-of-Experts, MoE）中尤為嚴(yán)重，因?yàn)?strong>token 級別的路由變化會(huì)加劇不穩(wěn)定性
為緩解這一問題，基于 GRPO 的訓(xùn)練流程通常需要依賴一些額外策略，例如路由重放（Routing Replay）。

因此，Qwen 團(tuán)隊(duì)聲稱 GRPO 的 token 級重要性采樣無法達(dá)到穩(wěn)定訓(xùn)練，其優(yōu)化目標(biāo)是「病態(tài)的（ill-posed）」

為了解決這些問題并訓(xùn)練其最新的 Qwen3 系列模型，Qwen 團(tuán)隊(duì)提出了一種新的強(qiáng)化學(xué)習(xí)算法 ——組序列策略優(yōu)化（Group Sequence Policy Optimization, GSPO）

GRPO 的根本問題：

「逐 token 重要性采樣」的不穩(wěn)定性

Qwen 團(tuán)隊(duì)指出，GRPO 的不穩(wěn)定性源于其對 token 級重要性采樣權(quán)重的錯(cuò)誤使用。在強(qiáng)化學(xué)習(xí)中，重要性采樣（Importance Sampling）用于校正行為策略（即用于收集訓(xùn)練數(shù)據(jù)的策略）與目標(biāo)策略（當(dāng)前正在優(yōu)化的策略）之間的差異。

當(dāng)兩者不一致時(shí)，重要性采樣通過為已有數(shù)據(jù)樣本賦予權(quán)重，使其更能代表當(dāng)前希望優(yōu)化的目標(biāo)策略，從而提高訓(xùn)練的穩(wěn)定性與有效性。

在大語言模型（LLMs）的訓(xùn)練中，強(qiáng)化學(xué)習(xí)常常會(huì)復(fù)用舊策略生成的響應(yīng)，以節(jié)省計(jì)算資源，這屬于典型的「離策略」（off-policy）訓(xùn)練場景。重要性采樣正是用于緩解這種策略不匹配帶來的影響，并幫助穩(wěn)定訓(xùn)練過程。

然而，GRPO 將重要性采樣的權(quán)重應(yīng)用在每一個(gè) token 上，而非整個(gè)生成的序列。這種做法會(huì)帶來顯著的方差，并在生成較長序列時(shí)造成「誤差積累」與「訓(xùn)練不穩(wěn)定性」。

從形式上講，GRPO 是在每一個(gè) token 的生成步驟上單獨(dú)計(jì)算重要性權(quán)重的：

Qwen 團(tuán)隊(duì)指出，當(dāng)在訓(xùn)練目標(biāo)中應(yīng)用此類重要性權(quán)重時(shí)，由于每個(gè) token 的比值是獨(dú)立計(jì)算的，會(huì)導(dǎo)致高方差的累積，從而破壞梯度穩(wěn)定性，最終引發(fā)模型崩潰。

同時(shí)，這種做法會(huì)將高方差噪聲引入訓(xùn)練梯度中，尤其在長序列上呈現(xiàn)累積效應(yīng)，并且在存在「裁剪機(jī)制」時(shí)，這種不穩(wěn)定性問題會(huì)進(jìn)一步加劇。

Qwen 團(tuán)隊(duì)的實(shí)驗(yàn)證據(jù)

Qwen 團(tuán)隊(duì)通過實(shí)驗(yàn)證據(jù)驗(yàn)證了其理論分析，如圖所示。

在所有展示的實(shí)驗(yàn)場景中，其新提出的算法 GSPO 均表現(xiàn)出比 GRPO 更高的訓(xùn)練效率。在 CodeForces 任務(wù)中，GRPO 的最終得分收斂于 2000 分以下，而 GSPO 隨著訓(xùn)練計(jì)算量的增加持續(xù)提升成績，展現(xiàn)出更強(qiáng)的「可擴(kuò)展性」。

GSPO 與 GRPO 的訓(xùn)練曲線對比

Qwen 的解決方案：

「序列級重要性采樣」

那么，GSPO 是如何解決上述問題的呢？

正如其名稱所暗示的，GSPO 的核心在于將重要性采樣從 token 級轉(zhuǎn)移至序列級，其重要性比值基于整個(gè)序列的似然度計(jì)算：

這種采樣權(quán)重的設(shè)計(jì)自然地緩解了逐 token 方差的累積問題，從而顯著提升了訓(xùn)練過程的穩(wěn)定性。

需要注意的是，指數(shù)中的因子用于「長度歸一化」。如果不進(jìn)行長度歸一化，僅僅幾個(gè) token 的似然變化就可能導(dǎo)致序列級重要性比值的劇烈波動(dòng)，而不同長度的生成響應(yīng)在目標(biāo)函數(shù)中也將需要不同的裁剪范圍，這會(huì)進(jìn)一步增加訓(xùn)練的不穩(wěn)定性。

實(shí)驗(yàn)驗(yàn)證的優(yōu)勢：

簡化 MoE 模型訓(xùn)練

針對專家混合模型（MoE）所進(jìn)行的專項(xiàng)實(shí)驗(yàn)進(jìn)一步強(qiáng)調(diào)了 GSPO 的優(yōu)勢。

由于 MoE 模型具有稀疏激活特性，這會(huì)在使用 GRPO 時(shí)進(jìn)一步加劇訓(xùn)練過程中的不穩(wěn)定性。在經(jīng)過一次或多次梯度更新后，相同響應(yīng)所激活的專家網(wǎng)絡(luò)可能發(fā)生顯著變化。

Qwen 團(tuán)隊(duì)在使用 GRPO 訓(xùn)練 48 層的 Qwen3-30B-A3B-Base 模型時(shí)發(fā)現(xiàn)：在每一次強(qiáng)化學(xué)習(xí)的梯度更新后，對于相同的 rollout 樣本，新策略所激活的專家中約有 10% 與舊策略所激活的專家不同。這實(shí)際上意味著，每次梯度更新后，你都在用不同的數(shù)據(jù)樣本訓(xùn)練不同的模型，毫無疑問這是一種極其低效的訓(xùn)練方式。

在引入 GSPO 之前，為緩解這一問題，他們甚至采取了一種名為「Routing Replay」的技巧，即強(qiáng)制目標(biāo)策略激活與舊策略相同的專家網(wǎng)絡(luò)。

相比之下，GSPO 無需使用 Routing Replay 也能實(shí)現(xiàn)穩(wěn)定收斂，從而消除了不必要的訓(xùn)練復(fù)雜性，并保留了 MoE 架構(gòu)的全部潛力。

Routing Replay 策略在 GRPO 訓(xùn)練 MoE 模型的正常收斂中起到了關(guān)鍵作用

結(jié)論：

GSPO 或?qū)⒊蔀樾碌臉?biāo)準(zhǔn)

總結(jié)一下，GSPO 的方法有兩點(diǎn)創(chuàng)新：

將重要性采樣從 token 級別提升到序列級別，并通過序列長度進(jìn)行歸一化處理；
顯著降低了方差，同時(shí)消除了對「路由技巧」（如 Routing Replay）等輔助策略的依賴；

業(yè)界已普遍達(dá)成共識 —— 在大語言模型的后訓(xùn)練階段引入強(qiáng)化學(xué)習(xí)，對于提升其推理能力至關(guān)重要。

而論文中的大量實(shí)驗(yàn)結(jié)果也進(jìn)一步證實(shí)，GRPO 所采用的「逐 token 重要性采樣」方法存在不穩(wěn)定性和低效性的問題。

因此，GSPO 提出的「序列級重要性采樣」很可能會(huì)成為未來后訓(xùn)練強(qiáng)化學(xué)習(xí)的新標(biāo)準(zhǔn)。

https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/

https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com

https://zhuanlan.zhihu.com/p/22845155602

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.