夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek的GRPO會導(dǎo)致模型崩潰?看下Qwen3新范式GSPO

0
分享至



機器之心報道

機器之心編輯部

眾所周知,大型語言模型的訓(xùn)練通常分為兩個階段。第一階段是「預(yù)訓(xùn)練」,開發(fā)者利用大規(guī)模文本數(shù)據(jù)集訓(xùn)練模型,讓它學(xué)會預(yù)測句子中的下一個詞。第二階段是「后訓(xùn)練」,旨在教會模型如何更好地理解和執(zhí)行人類指令。

在 LLM 后訓(xùn)練階段,似乎是一個強化學(xué)習(xí)的特殊形式。用于大語言模型(LLMs)微調(diào)的強化學(xué)習(xí)(RL)算法正沿著一條明確的演進路徑持續(xù)發(fā)展。

起初,OpenAI 開創(chuàng)了一種名為 基于人類反饋的強化學(xué)習(xí)(RLHF)的技術(shù),用于改進 ChatGPT。RLHF 的核心是讓人類標注員對模型生成的多種響應(yīng)進行打分,并選出最優(yōu)答案作為訓(xùn)練參考。這一過程雖然有效,但也耗時、昂貴且依賴人力,通常需要一支小型但專業(yè)的數(shù)據(jù)標注團隊。

DeepSeek 的重要創(chuàng)新在于用 RL 技術(shù)自動化了這一環(huán)節(jié)。算法不再依賴人工逐一評估,而是讓模型在探索過程中,通過獲得「獎勵信號」自主學(xué)習(xí)正確行為,從而顯著降低了成本,提高了效率,最終能以較低的成本實現(xiàn)高性能。

OpenAI 在 ChatGPT 的訓(xùn)練中采用了近端策略優(yōu)化(Proximal Policy Optimization, PPO)

而 DeepSeek 團隊 則認為,在一組樣本中進行價值估計更加有效,因此提出了組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)算法,這也是 DeepSeek-R1 中的核心技術(shù),使 DeepSeek-R1 模型大放異彩。



GPRO 與 PPO 的對比,摘自 DeepSeekMath 論文。

在幾個月前 Qwen3 首次亮相的時候,其旗艦?zāi)P偷男阅芫鸵呀?jīng)與 DeepSeek-R1、o3-mini、Gemini 2.5 Pro 等頂級模型表現(xiàn)相當。除此以外,Qwen3 系列模型覆蓋了 MoE 模型和密集模型,每一款模型又有許多細分版本。

近些天,Qwen3 系列模型仍然在不停的迭代更新,例如 Qwen3-235B-A22B-Instruct-2507-FP8 在知識數(shù)學(xué)、編程、人類偏好對齊、Agent 能力等眾多測評中表現(xiàn)出色,甚至了超過 Kimi-K2、DeepSeek-V3 等頂級開源模型以及 Claude-Opus4-Non-thinking 等領(lǐng)先閉源模型。

最近,Qwen 團隊發(fā)布了一篇有關(guān)其模型后訓(xùn)練算法的論文,似乎揭示了 Qwen3 模型成功的核心技術(shù)細節(jié)。



  • 論文標題:Group Sequence Policy Optimization
  • 論文鏈接:https://huggingface.co/papers/2507.18071
  • 博客鏈接:https://qwenlm.github.io/blog/gspo/

而在昨天,來自清華大學(xué)校友創(chuàng)立的創(chuàng)業(yè)公司 NetMind.AI發(fā)表了一篇博客,題為《Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed》,對 Qwen 團隊為 Qwen3 模型提出的 GSPO 算法進行了詳盡的介紹與分析。



  • 博客鏈接:https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

最近 Qwen 的研究表明,使用 GRPO 訓(xùn)練大語言模型時存在嚴重的穩(wěn)定性問題,往往會導(dǎo)致模型不可逆地崩潰。他們認為 DeepSeek 的 GPRO 方法存在一些嚴重問題:

  • 在每個 token 級別應(yīng)用重要性采樣,會在長序列中積累高方差,導(dǎo)致訓(xùn)練不穩(wěn)定
  • 這一問題在 專家混合模型(Mixture-of-Experts, MoE) 中尤為嚴重,因為token 級別的路由變化會加劇不穩(wěn)定性
  • 為緩解這一問題,基于 GRPO 的訓(xùn)練流程通常需要依賴一些額外策略,例如 路由重放(Routing Replay)。

因此,Qwen 團隊聲稱 GRPO 的 token 級重要性采樣無法達到穩(wěn)定訓(xùn)練,其優(yōu)化目標是「病態(tài)的(ill-posed)」

為了解決這些問題并訓(xùn)練其最新的 Qwen3 系列模型,Qwen 團隊提出了一種新的強化學(xué)習(xí)算法 ——組序列策略優(yōu)化(Group Sequence Policy Optimization, GSPO)

GRPO 的根本問題:

「逐 token 重要性采樣」的不穩(wěn)定性

Qwen 團隊指出,GRPO 的不穩(wěn)定性源于其對 token 級重要性采樣權(quán)重的錯誤使用。在強化學(xué)習(xí)中,重要性采樣(Importance Sampling)用于校正行為策略(即用于收集訓(xùn)練數(shù)據(jù)的策略)與目標策略(當前正在優(yōu)化的策略)之間的差異。

當兩者不一致時,重要性采樣通過為已有數(shù)據(jù)樣本賦予權(quán)重,使其更能代表當前希望優(yōu)化的目標策略,從而提高訓(xùn)練的穩(wěn)定性與有效性。

在大語言模型(LLMs)的訓(xùn)練中,強化學(xué)習(xí)常常會復(fù)用舊策略生成的響應(yīng),以節(jié)省計算資源,這屬于典型的「離策略」(off-policy)訓(xùn)練場景。重要性采樣正是用于緩解這種策略不匹配帶來的影響,并幫助穩(wěn)定訓(xùn)練過程。

然而,GRPO 將重要性采樣的權(quán)重應(yīng)用在每一個 token 上,而非整個生成的序列。這種做法會帶來顯著的方差,并在生成較長序列時造成「誤差積累」與「訓(xùn)練不穩(wěn)定性」。

從形式上講,GRPO 是在每一個 token 的生成步驟上單獨計算重要性權(quán)重的:



Qwen 團隊指出,當在訓(xùn)練目標中應(yīng)用此類重要性權(quán)重時,由于每個 token 的比值是獨立計算的,會導(dǎo)致高方差的累積,從而破壞梯度穩(wěn)定性,最終引發(fā)模型崩潰。

同時,這種做法會將高方差噪聲引入訓(xùn)練梯度中,尤其在長序列上呈現(xiàn)累積效應(yīng),并且在存在「裁剪機制」時,這種不穩(wěn)定性問題會進一步加劇。

Qwen 團隊的實驗證據(jù)

Qwen 團隊通過實驗證據(jù)驗證了其理論分析,如圖所示。

在所有展示的實驗場景中,其新提出的算法 GSPO 均表現(xiàn)出比 GRPO 更高的訓(xùn)練效率。在 CodeForces 任務(wù)中,GRPO 的最終得分收斂于 2000 分以下,而 GSPO 隨著訓(xùn)練計算量的增加持續(xù)提升成績,展現(xiàn)出更強的「可擴展性」。



GSPO 與 GRPO 的訓(xùn)練曲線對比

Qwen 的解決方案:

「序列級重要性采樣」

那么,GSPO 是如何解決上述問題的呢?

正如其名稱所暗示的,GSPO 的核心在于將重要性采樣從 token 級轉(zhuǎn)移至序列級,其重要性比值基于整個序列的似然度計算:



這種采樣權(quán)重的設(shè)計自然地緩解了逐 token 方差的累積問題,從而顯著提升了訓(xùn)練過程的穩(wěn)定性。

需要注意的是,指數(shù)中的因子用于「長度歸一化」。如果不進行長度歸一化,僅僅幾個 token 的似然變化就可能導(dǎo)致序列級重要性比值的劇烈波動,而不同長度的生成響應(yīng)在目標函數(shù)中也將需要不同的裁剪范圍,這會進一步增加訓(xùn)練的不穩(wěn)定性。

實驗驗證的優(yōu)勢:

簡化 MoE 模型訓(xùn)練

針對專家混合模型(MoE)所進行的專項實驗進一步強調(diào)了 GSPO 的優(yōu)勢。

由于 MoE 模型具有稀疏激活特性,這會在使用 GRPO 時進一步加劇訓(xùn)練過程中的不穩(wěn)定性。在經(jīng)過一次或多次梯度更新后,相同響應(yīng)所激活的專家網(wǎng)絡(luò)可能發(fā)生顯著變化。

Qwen 團隊在使用 GRPO 訓(xùn)練 48 層的 Qwen3-30B-A3B-Base 模型時發(fā)現(xiàn):在每一次強化學(xué)習(xí)的梯度更新后,對于相同的 rollout 樣本,新策略所激活的專家中約有 10% 與舊策略所激活的專家不同。這實際上意味著,每次梯度更新后,你都在用不同的數(shù)據(jù)樣本訓(xùn)練不同的模型,毫無疑問這是一種極其低效的訓(xùn)練方式。

在引入 GSPO 之前,為緩解這一問題,他們甚至采取了一種名為「Routing Replay」的技巧,即強制目標策略激活與舊策略相同的專家網(wǎng)絡(luò)。

相比之下,GSPO 無需使用 Routing Replay 也能實現(xiàn)穩(wěn)定收斂,從而消除了不必要的訓(xùn)練復(fù)雜性,并保留了 MoE 架構(gòu)的全部潛力。



Routing Replay 策略在 GRPO 訓(xùn)練 MoE 模型的正常收斂中起到了關(guān)鍵作用

結(jié)論:

GSPO 或?qū)⒊蔀樾碌臉藴?/strong>

總結(jié)一下,GSPO 的方法有兩點創(chuàng)新:

  • 將重要性采樣從 token 級別提升到序列級別,并通過序列長度進行歸一化處理;
  • 顯著降低了方差,同時消除了對「路由技巧」(如 Routing Replay)等輔助策略的依賴;

業(yè)界已普遍達成共識 —— 在大語言模型的后訓(xùn)練階段引入強化學(xué)習(xí),對于提升其推理能力至關(guān)重要。

而論文中的大量實驗結(jié)果也進一步證實,GRPO 所采用的「逐 token 重要性采樣」方法存在不穩(wěn)定性和低效性的問題。

因此,GSPO 提出的「序列級重要性采樣」很可能會成為未來后訓(xùn)練強化學(xué)習(xí)的新標準。

https://www.reddit.com/r/MachineLearning/comments/1mj3t3r/d_gspo_qwen3s_sequencelevel_rlhf_method_vs_grpo/

https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed

https://www.ft.com/content/ea803121-196f-4c61-ab70-93b38043836e?utm_source=chatgpt.com

https://zhuanlan.zhihu.com/p/22845155602

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
趙薇一家三口旅游回來,75歲母親打扮時尚,小四月越來越像趙薇了

趙薇一家三口旅游回來,75歲母親打扮時尚,小四月越來越像趙薇了

山河月明史
2025-08-14 16:47:46
C羅抵達香港尖沙咀,現(xiàn)場人氣爆棚尖叫不斷,他面無表情略顯疲憊

C羅抵達香港尖沙咀,現(xiàn)場人氣爆棚尖叫不斷,他面無表情略顯疲憊

喜歡歷史的阿繁
2025-08-15 03:32:50
宗馥莉“大戰(zhàn)”杜建英!爭搶娃哈哈西北市場,宗馥莉關(guān)閉杜建英控制的陜西工廠后,斥資10億元布局西安,8萬平方米工廠獲批!

宗馥莉“大戰(zhàn)”杜建英!爭搶娃哈哈西北市場,宗馥莉關(guān)閉杜建英控制的陜西工廠后,斥資10億元布局西安,8萬平方米工廠獲批!

金融界
2025-08-14 17:53:29
胡金秋,王俊杰神勇,0號成移動城墻,中國男籃10年后重返亞洲四強

胡金秋,王俊杰神勇,0號成移動城墻,中國男籃10年后重返亞洲四強

行舟問茶
2025-08-15 04:14:21
1420名百歲老人調(diào)查:決定人壽命長短的不是吃和運動,而是這些!

1420名百歲老人調(diào)查:決定人壽命長短的不是吃和運動,而是這些!

寶哥精彩賽事
2025-08-11 11:14:03
張雨綺生圖霸屏熱搜,無濾鏡身材成熱議焦點,網(wǎng)友直呼太絕?

張雨綺生圖霸屏熱搜,無濾鏡身材成熱議焦點,網(wǎng)友直呼太絕?

娛樂領(lǐng)航家
2025-08-13 20:00:05
8月13日 飛天茅臺價格下跌 各大名酒批發(fā)參考價

8月13日 飛天茅臺價格下跌 各大名酒批發(fā)參考價

平祥生活日志
2025-08-14 02:47:58
看了杜建英朋友圈,才明白宗慶后臨終前2年,為什么總是神色憂郁

看了杜建英朋友圈,才明白宗慶后臨終前2年,為什么總是神色憂郁

子芫伴你成長
2025-08-05 23:23:16
DeepSeek更新,但R2暫無發(fā)布計劃/iPhone 18芯片規(guī)格曝光/vivo Vision官宣本月見

DeepSeek更新,但R2暫無發(fā)布計劃/iPhone 18芯片規(guī)格曝光/vivo Vision官宣本月見

AppSo
2025-08-14 09:16:07
阿斯:阿隆索戰(zhàn)術(shù)改造效果明顯,赫伊森承擔(dān)了更多出球任務(wù)

阿斯:阿隆索戰(zhàn)術(shù)改造效果明顯,赫伊森承擔(dān)了更多出球任務(wù)

懂球帝
2025-08-15 03:48:06
兩性關(guān)系:你知道女人最抵抗不了男人什么嗎?99%的人都不知道

兩性關(guān)系:你知道女人最抵抗不了男人什么嗎?99%的人都不知道

伊人河畔
2025-08-14 10:57:48
英偉達狂跌,中國怒甩美芯,特朗普承認:沒中國市場,美科技必崩

英偉達狂跌,中國怒甩美芯,特朗普承認:沒中國市場,美科技必崩

原來仙女不講理
2025-08-14 18:22:57
第二個立陶宛出現(xiàn)了?主動邀請賴清德訪問,中國68年的友誼喂了狗

第二個立陶宛出現(xiàn)了?主動邀請賴清德訪問,中國68年的友誼喂了狗

阿校談史
2025-08-14 16:17:05
江西現(xiàn)“提燈定損”升級版:租了十幾年,退租時鋪面竟少了一平米

江西現(xiàn)“提燈定損”升級版:租了十幾年,退租時鋪面竟少了一平米

墜入二次元的海洋
2025-08-14 10:39:51
一場抗戰(zhàn)前前后后打了十四年,到底是誰在抗日呢?

一場抗戰(zhàn)前前后后打了十四年,到底是誰在抗日呢?

翻開歷史和現(xiàn)實
2025-07-14 23:59:46
糖尿病開始惡化,身體會出現(xiàn)這6種異樣,一旦發(fā)現(xiàn)了,立馬去排查

糖尿病開始惡化,身體會出現(xiàn)這6種異樣,一旦發(fā)現(xiàn)了,立馬去排查

周哥一影視
2025-08-14 15:05:36
安徽高中女生美得像校花,妥妥的女神長相,網(wǎng)友:擔(dān)心她被黃毛騙

安徽高中女生美得像?;?,妥妥的女神長相,網(wǎng)友:擔(dān)心她被黃毛騙

唐小糖說情感
2025-08-09 09:31:30
廣西某建設(shè)集團被“一鍋端”

廣西某建設(shè)集團被“一鍋端”

黯泉
2025-08-14 20:38:44
凌晨3點湖人拋出續(xù)約難題,詹皇怒了,布朗尼也炸了球隊局勢堪憂

凌晨3點湖人拋出續(xù)約難題,詹皇怒了,布朗尼也炸了球隊局勢堪憂

國萌叔
2025-08-14 11:30:44
央視怒斥畸形心態(tài)!33歲鄧倫近照再曝,最悲哀的不是面相變了

央視怒斥畸形心態(tài)!33歲鄧倫近照再曝,最悲哀的不是面相變了

天行艦
2025-08-14 00:05:10
2025-08-15 05:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11087文章數(shù) 142417關(guān)注度
往期回顧 全部

科技要聞

暴雨之下1萬多人,500個機器人燃爆全場

頭條要聞

白宮威脅后普京表態(tài) 俄方:會晤后預(yù)計不會簽任何文件

頭條要聞

白宮威脅后普京表態(tài) 俄方:會晤后預(yù)計不會簽任何文件

體育要聞

在菲律賓,一支中國人創(chuàng)建的球隊踢上了亞冠

娛樂要聞

趙露思發(fā)文告別!扯下她最后的顏面

財經(jīng)要聞

“許家印同伙”夏海鈞的資產(chǎn)藏匿游戲

汽車要聞

大六座SUV還能這么玩 吉利銀河M9動態(tài)內(nèi)測

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
藝術(shù)
公開課

本地新聞

云游中國 | 地心探秘!一天穿越池州六大溶洞

親子要聞

你家有泡騰片嗎?千萬別讓孩子吞吃了。孩子不慎吞服后如何處理?

房產(chǎn)要聞

重磅新政要來!海南138個安居盤,數(shù)萬套房源將逆天改命!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 精品肉妻在线视频| 岛国精品一区免费视频在线观看| 一进一出一爽又粗又大视频,| 乌克兰精品AⅤ无码精品| 亚洲va欧美va天堂v国产综合| Chinese老女人| 色欲一级毛片爽免费看| 一区二区乱子伦在线播放| 熟妇激情自拍| 国产做爰xxxⅹ久久久| 久9无限国产| 欧美一级黄色影院| 99九九99九九视频精品| 自拍校园亚洲欧美另类| 韩国老妇一一区| 免费在线视频a| 裸眼3d成人片在线看| 老熟妇高潮一区二区| 亚洲一区乱伦| 国产美女操逼| 午夜精品久久久久久不卡AV| 狠狠操狠狠操A√| 国产精品久久综合青草亚洲AV| 亚洲午夜成人精品无码app| 一本色道久久爱88av| 久久精品人妻一区二区三区| 五月丁香六月婷婷色色| 欧美色色色视频| 午夜福利麻豆国产精品| A∨人妻中文字幕向井蓝| 日韩色欲人妻无码精品av| 无码黑丝一区二区三区| 久久精品国产亚洲av成人| www.色婷婷.com| 色偷偷www.8888在线观看| 老熟女丝袜脚一区二区三区四区| 久久99精品国产麻豆婷婷洗澡 | 亚洲中文无码爱爱| av蜜桃在线| 国内久久婷婷精品人双人| 亚州天堂AV在线|