頓悟不是玄學(xué)！港科大清華等聯(lián)手：撕開推理黑箱，RL讓AI像人思考

2025-10-07 06:11:39　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】DeepSeek的強化學(xué)習(xí)GRPO為什么能讓大模型「集體頓悟」？港科大、滑鐵盧、清華等團(tuán)隊最新研究給出統(tǒng)一解釋：在RL中，LLM推理自發(fā)分層——先鞏固底層「執(zhí)行」，再探索高層「規(guī)劃」?；诖?，還提出了更強HICRA算法。

眾所周知，強化學(xué)習(xí)（Reinforcement Learning，RL）能提升大語言模型LLM的推理能力。

但沒人說清楚：為什么會這樣？

最近，香港科技大學(xué)、滑鐵盧大學(xué)、清華大學(xué)等機構(gòu)的研究者在arXiv提交預(yù)印本，首次揭示：

大模型正在以類人的方式學(xué)會推理——通過將高層策略規(guī)劃與底層程序執(zhí)行相分離。

論文鏈接：https://arxiv.org/abs/2509.03646

DeepSeek究竟如何讓LLM學(xué)會推理？

強化學(xué)習(xí)（RL）雖已成為提升LLM復(fù)雜推理能力的顛覆性技術(shù)，但其內(nèi)在機制始終不甚明朗。

在論文中，DeepSeek研究團(tuán)隊強調(diào)了強化學(xué)習(xí)的重要性：

大模型與強化學(xué)習(xí)環(huán)境交互，自然涌現(xiàn)出反思和重新評估（reflection）之類的行為。

他們給出了兩條重要實驗線索：「長度縮放效應(yīng)」（length-scaling）和「頓悟時刻」（aha moment）。

在訓(xùn)練過程中，DeepSeek-R1-Zero的思考時長持續(xù)增長，自然而然地學(xué)會了用更多的思考時間來解決推理任務(wù)，如下圖所示。

在強化學(xué)習(xí)（RL）過程中，DeepSeek-R1-Zero在訓(xùn)練集上的平均響應(yīng)長度

在DeepSeek-R1-Zero的某個中間版本中，AI出乎意料地進(jìn)入了「頓悟時刻」。他們認(rèn)為這是強化學(xué)習(xí)的「力與美」。

DeepSeek-R1-Zero的中間版本展現(xiàn)了一個有趣的「頓悟時刻」：該模型學(xué)會了采用擬人化的方式來表達(dá)思考過程

這些現(xiàn)象如此奇特，被多家實驗室復(fù)現(xiàn)。

為什么呢？為什么強化學(xué)習(xí)能提升LLM的推理能力？這些問題之前無人明確解釋。

這次的研究突破性地揭示：

像「頓悟時刻」這類令人困惑的現(xiàn)象并不是孤立的事件，而是新興推理層次結(jié)構(gòu)的標(biāo)志，類似于人類認(rèn)知中高層次策略規(guī)劃與低層次程序執(zhí)行的分隔。

這一次揭示了強化學(xué)習(xí)推動推理能力提升的核心機制：模型先固化基礎(chǔ)執(zhí)行能力，再自主發(fā)展出策略規(guī)劃能力。

階段1（底層技能鞏固）：以執(zhí)行tokens（execution tokens）的熵值下降為標(biāo)志，模型專注于鞏固低級技能（如算術(shù)計算、格式規(guī)范）。

階段2（高層規(guī)劃探索）：學(xué)習(xí)重心轉(zhuǎn)向高級規(guī)劃，以規(guī)劃tokens（planning tokens）的語義多樣性提升為特征，模型持續(xù)增強推理能力并出現(xiàn)長度縮放效應(yīng)（length scaling）。

圖1：（左圖）大語言模型的推理過程呈現(xiàn)出類人的層次化推理結(jié)構(gòu)：高層策略規(guī)劃與底層程序執(zhí)行。（右圖）在強化學(xué)習(xí)訓(xùn)練中，層次化推理通過兩階段動態(tài)過程涌現(xiàn)

研究者通過區(qū)分兩類token驗證這種轉(zhuǎn)變：執(zhí)行token對應(yīng)具體操作步驟，規(guī)劃token則體現(xiàn)為「嘗試其他方法」等策略性表達(dá)。

他們發(fā)現(xiàn)，當(dāng)模型掌握執(zhí)行token后，規(guī)劃token的多樣性顯著增加，這與推理能力提升及解決方案鏈條延長直接相關(guān)。

基于此，團(tuán)隊提出分層感知信用分配機制（HICRA）。

與傳統(tǒng)均勻分配學(xué)習(xí)權(quán)重不同，HICRA重點強化規(guī)劃token的學(xué)習(xí)權(quán)重，從而加速模型探索和鞏固策略的能力。

實驗表明，HICRA始終優(yōu)于主流GRPO方法，且在模型已具備扎實執(zhí)行技能時效果最佳——若執(zhí)行基礎(chǔ)薄弱，HICRA的優(yōu)勢則難以發(fā)揮。

這項研究的核心啟示在于：推理能力的真正突破源于規(guī)劃能力的提升，而非僅僅優(yōu)化執(zhí)行細(xì)節(jié)。

強化學(xué)習(xí)增強推理的兩階段動力學(xué)

實驗分析表明，經(jīng)強化學(xué)習(xí)訓(xùn)練的大語言模型并非整體性提升，而是遵循一種"性能瓶頸"隨時間轉(zhuǎn)移的兩階段學(xué)習(xí)動態(tài)。

第一階段：鍛造可靠程序引擎

初期，模型專注于掌握基礎(chǔ)能力。它學(xué)習(xí)可靠地執(zhí)行低級操作步驟，如格式規(guī)范、算術(shù)運算和變量替換。

這一階段體現(xiàn)為「執(zhí)行token」的不確定性（困惑度及token熵）急劇下降。

RL訓(xùn)練動力學(xué)：執(zhí)行token的熵（圖中灰色線）下降，而規(guī)劃token的語義熵（圖中紅色線）上升

研究者追蹤了代表性模型家族的訓(xùn)練動態(tài)曲線。

上圖前兩列顯示，模型初始聚焦于程序鞏固階段，表現(xiàn)為執(zhí)行token的模型困惑度（更高置信度）和token熵（更確定性）急劇下降。

隨后發(fā)生向策略規(guī)劃探索的轉(zhuǎn)變（第三列），規(guī)劃策略的多樣性（語義熵）在Qwen模型上持續(xù)增長，或在Llama模型上出現(xiàn)拐點后增長，這與準(zhǔn)確率持續(xù)提升及推理鏈延長（第四列）密切相關(guān)。

對于強模型或易學(xué)習(xí)數(shù)據(jù)，此階段可能短暫甚至不存在，因為模型已具備可靠的基礎(chǔ)低級技能，通常僅需對格式token進(jìn)行最小調(diào)整。

第二階段：掌握高級策略規(guī)劃

當(dāng)模型在低級技能上奠定堅實基礎(chǔ)后，學(xué)習(xí)前沿發(fā)生轉(zhuǎn)移。性能提升轉(zhuǎn)為由探索和掌握高級策略驅(qū)動——例如選擇新方法、回溯或識別關(guān)鍵定理。

通過測量規(guī)劃token的語義熵，這次研究驗證了這一轉(zhuǎn)變。其中的語義熵用于反映模型高級策略計劃的多樣性。

規(guī)劃token的語義熵（紅線，第三列）從開始或拐點處持續(xù)上升，這種增長與推理準(zhǔn)確率提升和長度縮放效應(yīng)同步發(fā)生。

這表明策略正在主動擴展其策略計劃庫，以實現(xiàn)推理能力的持續(xù)提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。

揭秘「神秘的現(xiàn)象」

這次的分層框架為強化學(xué)習(xí)訓(xùn)練中一些長期讓人困惑的現(xiàn)象，提供了統(tǒng)一而清晰的解釋：

1、「頓悟時刻」并非偶然靈光。

這類轉(zhuǎn)折并不是隨機爆發(fā)的才思，而是某種行為特征信號：模型在「發(fā)現(xiàn)—掌握—強化」某種強力的高層策略（如自我反思）

當(dāng)策略被納入并穩(wěn)定執(zhí)行時，模型的表現(xiàn)會出現(xiàn)突躍式改善。

2、「長度縮放」源于更好的規(guī)劃。

隨著模型探索到更豐富、更精細(xì)的策略（包括分類討論、預(yù)先規(guī)劃、回溯等），它自然會生成更長、更有結(jié)構(gòu)的推理鏈條；而這類更長的輸出，往往意味著更高的成功率與更好的表現(xiàn)。

換言之，「輸出越長越準(zhǔn)」的現(xiàn)象，本質(zhì)是高層規(guī)劃能力增強的外在體現(xiàn)。

3、復(fù)雜的「熵」變化，其實并不神秘。

整體的token級熵常見下降，并非模型「變笨」，而是因為數(shù)量龐大的執(zhí)行類詞元（格式、算術(shù)、替換等）在訓(xùn)練中變得高度可預(yù)測，把總體曲線往下拉。

真正反映策略探索進(jìn)展的，是高層規(guī)劃詞元的語義熵：它隨訓(xùn)練逐步上升，準(zhǔn)確刻畫出模型在發(fā)明與擴充策略譜系方面的探索步伐。

歸結(jié)起來：第一階段通過降低執(zhí)行不確定性「打好基本功」，第二階段通過提升規(guī)劃多樣性「把思路打開」。這些看似各自為政的現(xiàn)象，其實都出自同一套分層學(xué)習(xí)動力學(xué)。

這一發(fā)現(xiàn)揭示了當(dāng)前RL方法（如GRPO）的核心低效問題：

它們對所有token施加無差別優(yōu)化壓力，稀釋了學(xué)習(xí)信號。

既然高級推理的關(guān)鍵在于掌握策略，為何還要在已掌握的程序性步驟上浪費精力？

為解決此問題，研究者提出了一種新算法HICRA（Hierarchy-Aware Credit Assignment，分層感知信用分配），其核心設(shè)計理念是：

將模型的學(xué)習(xí)能力聚焦于稀疏但高價值的規(guī)劃token。

分層感知信用分配

聚焦關(guān)鍵要素

通過放大策略舉措的學(xué)習(xí)信號，HICRA加速了有效推理模式的發(fā)現(xiàn)與強化進(jìn)程。

實驗結(jié)果，效果驚人：定向優(yōu)化規(guī)劃全贏了！

在多個純文本及視覺語言模型中，HICRA不斷超越強大的GRPO基線方法，顯著驗證了定向優(yōu)化規(guī)劃token的有效性。

表1：在多項數(shù)學(xué)推理基準(zhǔn)測試中，HICRA、GRPO與基座模型的性能對比。

表2：在多模態(tài)推理基準(zhǔn)測試中，HICRA與GRPO的性能對比

為探究強化學(xué)習(xí)最有效的應(yīng)用方向，這次分析了失敗推演中錯誤類型的演變規(guī)律。

首先通過人工審查失敗案例，歸納出四種不同的錯誤成因。

隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應(yīng)成因，最后將這些分類解析為兩大范疇：「規(guī)劃與策略」（如邏輯缺陷、高層計劃錯誤）和「其他錯誤」（如計算失誤、事實檢索錯誤）。

分析表明，強化學(xué)習(xí)（RL）的主要優(yōu)勢在于修正高層策略失誤，而非細(xì)微的計算錯誤。

這也激發(fā)了HICRA的設(shè)計理念，即將學(xué)習(xí)重點集中在規(guī)劃token上。

如下圖5所示，HICRA的成功與其維持比GRPO更高的語義熵水平密切相關(guān)。

這種高層策略的更高多樣性，直接與更強且更穩(wěn)定的驗證準(zhǔn)確率相關(guān)聯(lián)，證實了專注的策略探索是推理能力改進(jìn)的主要驅(qū)動力。

何種指標(biāo)能有效追蹤策略探索？

準(zhǔn)確衡量策略探索，對于診斷策略學(xué)習(xí)至關(guān)重要。

然而，這次發(fā)現(xiàn)諸如token級熵值等常用指標(biāo)可能產(chǎn)生誤導(dǎo)。

1、token級熵值的缺陷：該指標(biāo)有時會收斂至較低水平，被實踐者誤判為「崩潰」。但這是錯誤的。

大量低層執(zhí)行token主導(dǎo)了token級熵值，而這些token本身就會趨于可預(yù)測化（即低熵狀態(tài)）。低層token的熵值下降，會拉低全局平均熵值，但這并不意味探索停止。相反，只要語義熵保持高位，就說明模型正在積極探索新高階策略，且性能持續(xù)提升。

2、Pass@K指標(biāo)的盲點：該通過K次嘗試成功率衡量的指標(biāo)，有時會飽和（例如所有查詢都可能被解決），導(dǎo)致無法區(qū)分方法優(yōu)劣或追蹤訓(xùn)練后期的持續(xù)學(xué)習(xí)動態(tài)。

語義熵有效規(guī)避了這些缺陷。它直接衡量有意義策略方案的多樣性。

如下圖所示，語義熵始終保持強大區(qū)分力：當(dāng)token熵值崩潰且Pass@8飽和時，仍能清晰顯示HICRA持續(xù)的策略探索優(yōu)勢。這使其成為追蹤真正推理發(fā)展的可靠指南。

token熵值（最右）崩潰且Pass@8（右二）飽和失效時，語義熵（最左）仍明確顯示HICRA的持續(xù)探索優(yōu)勢，該優(yōu)勢與最終準(zhǔn)確率提升正相關(guān)。

現(xiàn)有研究提出使用高熵的「分岔token」作為模型推理過程中決策點的代理指標(biāo)。

鏈接：https://arxiv.org/abs/2506.01939

這類基于熵的token與基于功能定義的規(guī)劃token之間，到底什么關(guān)系？

研究發(fā)現(xiàn)關(guān)鍵不對稱性：

雖然大部分規(guī)劃token確實呈現(xiàn)高熵特性（符合策略選擇的預(yù)期），但反向關(guān)系并不成立。

大多數(shù)高熵token并非規(guī)劃token，它們往往對應(yīng)表述方式的簡單變異或不影響整體策略的低層計算。

這揭示了僅依靠熵值識別具有精確語義功能token的局限性。

雖然功能定義的規(guī)劃token大多具有高熵特性（下圖左），但高熵token并非規(guī)劃token的有效代理指標(biāo)，因其多數(shù)承擔(dān)其他功能（下圖右）。

參考資料：

https://arxiv.org/abs/2509.03646

https://www.rohan-paul.com/p/new-paper-shows-why-reasoning-improves

https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.