新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】DeepSeek的強化學(xué)習(xí)GRPO為什么能讓大模型「集體頓悟」?港科大、滑鐵盧、清華等團(tuán)隊最新研究給出統(tǒng)一解釋:在RL中,LLM推理自發(fā)分層——先鞏固底層「執(zhí)行」,再探索高層「規(guī)劃」?;诖?,還提出了更強HICRA算法。
眾所周知,強化學(xué)習(xí)(Reinforcement Learning,RL)能提升大語言模型LLM的推理能力。
但沒人說清楚:為什么會這樣?
最近,香港科技大學(xué)、滑鐵盧大學(xué)、清華大學(xué)等機構(gòu)的研究者在arXiv提交預(yù)印本,首次揭示:
大模型正在以類人的方式學(xué)會推理——通過將高層策略規(guī)劃與底層程序執(zhí)行相分離。
論文鏈接:https://arxiv.org/abs/2509.03646
DeepSeek究竟如何讓LLM學(xué)會推理?
強化學(xué)習(xí)(RL)雖已成為提升LLM復(fù)雜推理能力的顛覆性技術(shù),但其內(nèi)在機制始終不甚明朗。
在論文中,DeepSeek研究團(tuán)隊強調(diào)了強化學(xué)習(xí)的重要性:
大模型與強化學(xué)習(xí)環(huán)境交互,自然涌現(xiàn)出反思和重新評估(reflection)之類的行為。
他們給出了兩條重要實驗線索:「長度縮放效應(yīng)」(length-scaling)和「頓悟時刻」(aha moment)。
在訓(xùn)練過程中,DeepSeek-R1-Zero的思考時長持續(xù)增長,自然而然地學(xué)會了用更多的思考時間來解決推理任務(wù),如下圖所示。
在強化學(xué)習(xí)(RL)過程中,DeepSeek-R1-Zero在訓(xùn)練集上的平均響應(yīng)長度
在DeepSeek-R1-Zero的某個中間版本中,AI出乎意料地進(jìn)入了「頓悟時刻」。他們認(rèn)為這是強化學(xué)習(xí)的「力與美」。
DeepSeek-R1-Zero的中間版本展現(xiàn)了一個有趣的「頓悟時刻」:該模型學(xué)會了采用擬人化的方式來表達(dá)思考過程
這些現(xiàn)象如此奇特,被多家實驗室復(fù)現(xiàn)。
為什么呢?為什么強化學(xué)習(xí)能提升LLM的推理能力?這些問題之前無人明確解釋。
這次的研究突破性地揭示:
像「頓悟時刻」這類令人困惑的現(xiàn)象并不是孤立的事件,而是新興推理層次結(jié)構(gòu)的標(biāo)志,類似于人類認(rèn)知中高層次策略規(guī)劃與低層次程序執(zhí)行的分隔。
這一次揭示了強化學(xué)習(xí)推動推理能力提升的核心機制:模型先固化基礎(chǔ)執(zhí)行能力,再自主發(fā)展出策略規(guī)劃能力。
階段1(底層技能鞏固):以執(zhí)行tokens(execution tokens)的熵值下降為標(biāo)志,模型專注于鞏固低級技能(如算術(shù)計算、格式規(guī)范)。
階段2(高層規(guī)劃探索):學(xué)習(xí)重心轉(zhuǎn)向高級規(guī)劃,以規(guī)劃tokens(planning tokens)的語義多樣性提升為特征,模型持續(xù)增強推理能力并出現(xiàn)長度縮放效應(yīng)(length scaling)。
圖1:(左圖)大語言模型的推理過程呈現(xiàn)出類人的層次化推理結(jié)構(gòu):高層策略規(guī)劃與底層程序執(zhí)行。(右圖)在強化學(xué)習(xí)訓(xùn)練中,層次化推理通過兩階段動態(tài)過程涌現(xiàn)
研究者通過區(qū)分兩類token驗證這種轉(zhuǎn)變:執(zhí)行token對應(yīng)具體操作步驟,規(guī)劃token則體現(xiàn)為「嘗試其他方法」等策略性表達(dá)。
他們發(fā)現(xiàn),當(dāng)模型掌握執(zhí)行token后,規(guī)劃token的多樣性顯著增加,這與推理能力提升及解決方案鏈條延長直接相關(guān)。
基于此,團(tuán)隊提出分層感知信用分配機制(HICRA)。
與傳統(tǒng)均勻分配學(xué)習(xí)權(quán)重不同,HICRA重點強化規(guī)劃token的學(xué)習(xí)權(quán)重,從而加速模型探索和鞏固策略的能力。
實驗表明,HICRA始終優(yōu)于主流GRPO方法,且在模型已具備扎實執(zhí)行技能時效果最佳——若執(zhí)行基礎(chǔ)薄弱,HICRA的優(yōu)勢則難以發(fā)揮。
這項研究的核心啟示在于:推理能力的真正突破源于規(guī)劃能力的提升,而非僅僅優(yōu)化執(zhí)行細(xì)節(jié)。
強化學(xué)習(xí)增強推理的兩階段動力學(xué)
實驗分析表明,經(jīng)強化學(xué)習(xí)訓(xùn)練的大語言模型并非整體性提升,而是遵循一種"性能瓶頸"隨時間轉(zhuǎn)移的兩階段學(xué)習(xí)動態(tài)。
第一階段:鍛造可靠程序引擎
初期,模型專注于掌握基礎(chǔ)能力。它學(xué)習(xí)可靠地執(zhí)行低級操作步驟,如格式規(guī)范、算術(shù)運算和變量替換。
這一階段體現(xiàn)為「執(zhí)行token」的不確定性(困惑度及token熵)急劇下降。
RL訓(xùn)練動力學(xué):執(zhí)行token的熵(圖中灰色線)下降,而規(guī)劃token的語義熵(圖中紅色線)上升
研究者追蹤了代表性模型家族的訓(xùn)練動態(tài)曲線。
上圖前兩列顯示,模型初始聚焦于程序鞏固階段,表現(xiàn)為執(zhí)行token的模型困惑度(更高置信度)和token熵(更確定性)急劇下降。
隨后發(fā)生向策略規(guī)劃探索的轉(zhuǎn)變(第三列),規(guī)劃策略的多樣性(語義熵)在Qwen模型上持續(xù)增長,或在Llama模型上出現(xiàn)拐點后增長,這與準(zhǔn)確率持續(xù)提升及推理鏈延長(第四列)密切相關(guān)。
對于強模型或易學(xué)習(xí)數(shù)據(jù),此階段可能短暫甚至不存在,因為模型已具備可靠的基礎(chǔ)低級技能,通常僅需對格式token進(jìn)行最小調(diào)整。
第二階段:掌握高級策略規(guī)劃
當(dāng)模型在低級技能上奠定堅實基礎(chǔ)后,學(xué)習(xí)前沿發(fā)生轉(zhuǎn)移。性能提升轉(zhuǎn)為由探索和掌握高級策略驅(qū)動——例如選擇新方法、回溯或識別關(guān)鍵定理。
通過測量規(guī)劃token的語義熵,這次研究驗證了這一轉(zhuǎn)變。其中的語義熵用于反映模型高級策略計劃的多樣性。
規(guī)劃token的語義熵(紅線,第三列)從開始或拐點處持續(xù)上升,這種增長與推理準(zhǔn)確率提升和長度縮放效應(yīng)同步發(fā)生。
這表明策略正在主動擴展其策略計劃庫,以實現(xiàn)推理能力的持續(xù)提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。
揭秘「神秘的現(xiàn)象」
這次的分層框架為強化學(xué)習(xí)訓(xùn)練中一些長期讓人困惑的現(xiàn)象,提供了統(tǒng)一而清晰的解釋:
1、「頓悟時刻」并非偶然靈光。
這類轉(zhuǎn)折并不是隨機爆發(fā)的才思,而是某種行為特征信號:模型在「發(fā)現(xiàn)—掌握—強化」某種強力的高層策略(如自我反思)
當(dāng)策略被納入并穩(wěn)定執(zhí)行時,模型的表現(xiàn)會出現(xiàn)突躍式改善。
2、「長度縮放」源于更好的規(guī)劃。
隨著模型探索到更豐富、更精細(xì)的策略(包括分類討論、預(yù)先規(guī)劃、回溯等),它自然會生成更長、更有結(jié)構(gòu)的推理鏈條;而這類更長的輸出,往往意味著更高的成功率與更好的表現(xiàn)。
換言之,「輸出越長越準(zhǔn)」的現(xiàn)象,本質(zhì)是高層規(guī)劃能力增強的外在體現(xiàn)。
3、復(fù)雜的「熵」變化,其實并不神秘。
整體的token級熵常見下降,并非模型「變笨」,而是因為數(shù)量龐大的執(zhí)行類詞元(格式、算術(shù)、替換等)在訓(xùn)練中變得高度可預(yù)測,把總體曲線往下拉。
真正反映策略探索進(jìn)展的,是高層規(guī)劃詞元的語義熵:它隨訓(xùn)練逐步上升,準(zhǔn)確刻畫出模型在發(fā)明與擴充策略譜系方面的探索步伐。
歸結(jié)起來:第一階段通過降低執(zhí)行不確定性「打好基本功」,第二階段通過提升規(guī)劃多樣性「把思路打開」。這些看似各自為政的現(xiàn)象,其實都出自同一套分層學(xué)習(xí)動力學(xué)。
這一發(fā)現(xiàn)揭示了當(dāng)前RL方法(如GRPO)的核心低效問題:
它們對所有token施加無差別優(yōu)化壓力,稀釋了學(xué)習(xí)信號。
既然高級推理的關(guān)鍵在于掌握策略,為何還要在已掌握的程序性步驟上浪費精力?
為解決此問題,研究者提出了一種新算法HICRA(Hierarchy-Aware Credit Assignment,分層感知信用分配),其核心設(shè)計理念是:
將模型的學(xué)習(xí)能力聚焦于稀疏但高價值的規(guī)劃token。
分層感知信用分配
聚焦關(guān)鍵要素
通過放大策略舉措的學(xué)習(xí)信號,HICRA加速了有效推理模式的發(fā)現(xiàn)與強化進(jìn)程。
實驗結(jié)果,效果驚人:定向優(yōu)化規(guī)劃全贏了!
在多個純文本及視覺語言模型中,HICRA不斷超越強大的GRPO基線方法,顯著驗證了定向優(yōu)化規(guī)劃token的有效性。
表1:在多項數(shù)學(xué)推理基準(zhǔn)測試中,HICRA、GRPO與基座模型的性能對比。
表2:在多模態(tài)推理基準(zhǔn)測試中,HICRA與GRPO的性能對比
為探究強化學(xué)習(xí)最有效的應(yīng)用方向,這次分析了失敗推演中錯誤類型的演變規(guī)律。
首先通過人工審查失敗案例,歸納出四種不同的錯誤成因。
隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應(yīng)成因,最后將這些分類解析為兩大范疇:「規(guī)劃與策略」(如邏輯缺陷、高層計劃錯誤)和「其他錯誤」(如計算失誤、事實檢索錯誤)。
分析表明,強化學(xué)習(xí)(RL)的主要優(yōu)勢在于修正高層策略失誤,而非細(xì)微的計算錯誤。
這也激發(fā)了HICRA的設(shè)計理念,即將學(xué)習(xí)重點集中在規(guī)劃token上。
如下圖5所示,HICRA的成功與其維持比GRPO更高的語義熵水平密切相關(guān)。
這種高層策略的更高多樣性,直接與更強且更穩(wěn)定的驗證準(zhǔn)確率相關(guān)聯(lián),證實了專注的策略探索是推理能力改進(jìn)的主要驅(qū)動力。
何種指標(biāo)能有效追蹤策略探索?
準(zhǔn)確衡量策略探索,對于診斷策略學(xué)習(xí)至關(guān)重要。
然而,這次發(fā)現(xiàn)諸如token級熵值等常用指標(biāo)可能產(chǎn)生誤導(dǎo)。
1、token級熵值的缺陷:該指標(biāo)有時會收斂至較低水平,被實踐者誤判為「崩潰」。但這是錯誤的。
大量低層執(zhí)行token主導(dǎo)了token級熵值,而這些token本身就會趨于可預(yù)測化(即低熵狀態(tài))。低層token的熵值下降,會拉低全局平均熵值,但這并不意味探索停止。相反,只要語義熵保持高位,就說明模型正在積極探索新高階策略,且性能持續(xù)提升。
2、Pass@K指標(biāo)的盲點:該通過K次嘗試成功率衡量的指標(biāo),有時會飽和(例如所有查詢都可能被解決),導(dǎo)致無法區(qū)分方法優(yōu)劣或追蹤訓(xùn)練后期的持續(xù)學(xué)習(xí)動態(tài)。
語義熵有效規(guī)避了這些缺陷。它直接衡量有意義策略方案的多樣性。
如下圖所示,語義熵始終保持強大區(qū)分力:當(dāng)token熵值崩潰且Pass@8飽和時,仍能清晰顯示HICRA持續(xù)的策略探索優(yōu)勢。這使其成為追蹤真正推理發(fā)展的可靠指南。
token熵值(最右)崩潰且Pass@8(右二)飽和失效時,語義熵(最左)仍明確顯示HICRA的持續(xù)探索優(yōu)勢,該優(yōu)勢與最終準(zhǔn)確率提升正相關(guān)。
現(xiàn)有研究提出使用高熵的「分岔token」作為模型推理過程中決策點的代理指標(biāo)。
鏈接:https://arxiv.org/abs/2506.01939
這類基于熵的token與基于功能定義的規(guī)劃token之間,到底什么關(guān)系?
研究發(fā)現(xiàn)關(guān)鍵不對稱性:
雖然大部分規(guī)劃token確實呈現(xiàn)高熵特性(符合策略選擇的預(yù)期),但反向關(guān)系并不成立。
大多數(shù)高熵token并非規(guī)劃token,它們往往對應(yīng)表述方式的簡單變異或不影響整體策略的低層計算。
這揭示了僅依靠熵值識別具有精確語義功能token的局限性。
雖然功能定義的規(guī)劃token大多具有高熵特性(下圖左),但高熵token并非規(guī)劃token的有效代理指標(biāo),因其多數(shù)承擔(dān)其他功能(下圖右)。
參考資料:
https://arxiv.org/abs/2509.03646
https://www.rohan-paul.com/p/new-paper-shows-why-reasoning-improves
https://tiger-ai-lab.github.io/Hierarchical-Reasoner/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.