夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

頓悟不是玄學(xué)!港科大清華等聯(lián)手:撕開推理黑箱,RL讓AI像人思考

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】DeepSeek的強化學(xué)習(xí)GRPO為什么能讓大模型「集體頓悟」?港科大、滑鐵盧、清華等團(tuán)隊最新研究給出統(tǒng)一解釋:在RL中,LLM推理自發(fā)分層——先鞏固底層「執(zhí)行」,再探索高層「規(guī)劃」?;诖?,還提出了更強HICRA算法。

眾所周知,強化學(xué)習(xí)(Reinforcement Learning,RL)能提升大語言模型LLM的推理能力。

但沒人說清楚:為什么會這樣?

最近,香港科技大學(xué)、滑鐵盧大學(xué)、清華大學(xué)等機構(gòu)的研究者在arXiv提交預(yù)印本,首次揭示:

大模型正在以類人的方式學(xué)會推理——通過將高層策略規(guī)劃與底層程序執(zhí)行相分離。


論文鏈接:https://arxiv.org/abs/2509.03646

DeepSeek究竟如何讓LLM學(xué)會推理?

強化學(xué)習(xí)(RL)雖已成為提升LLM復(fù)雜推理能力的顛覆性技術(shù),但其內(nèi)在機制始終不甚明朗。

在論文中,DeepSeek研究團(tuán)隊強調(diào)了強化學(xué)習(xí)的重要性:

大模型與強化學(xué)習(xí)環(huán)境交互,自然涌現(xiàn)出反思和重新評估(reflection)之類的行為。

他們給出了兩條重要實驗線索:「長度縮放效應(yīng)」(length-scaling)和「頓悟時刻」(aha moment)。

在訓(xùn)練過程中,DeepSeek-R1-Zero的思考時長持續(xù)增長,自然而然地學(xué)會了用更多的思考時間來解決推理任務(wù),如下圖所示。


在強化學(xué)習(xí)(RL)過程中,DeepSeek-R1-Zero在訓(xùn)練集上的平均響應(yīng)長度

在DeepSeek-R1-Zero的某個中間版本中,AI出乎意料地進(jìn)入了「頓悟時刻」。他們認(rèn)為這是強化學(xué)習(xí)的「力與美」。


DeepSeek-R1-Zero的中間版本展現(xiàn)了一個有趣的「頓悟時刻」:該模型學(xué)會了采用擬人化的方式來表達(dá)思考過程

這些現(xiàn)象如此奇特,被多家實驗室復(fù)現(xiàn)。

為什么呢?為什么強化學(xué)習(xí)能提升LLM的推理能力?這些問題之前無人明確解釋。

這次的研究突破性地揭示:

像「頓悟時刻」這類令人困惑的現(xiàn)象并不是孤立的事件,而是新興推理層次結(jié)構(gòu)的標(biāo)志,類似于人類認(rèn)知中高層次策略規(guī)劃與低層次程序執(zhí)行的分隔。

這一次揭示了強化學(xué)習(xí)推動推理能力提升的核心機制:模型先固化基礎(chǔ)執(zhí)行能力,再自主發(fā)展出策略規(guī)劃能力。

階段1(底層技能鞏固):以執(zhí)行tokens(execution tokens)的熵值下降為標(biāo)志,模型專注于鞏固低級技能(如算術(shù)計算、格式規(guī)范)。

階段2(高層規(guī)劃探索):學(xué)習(xí)重心轉(zhuǎn)向高級規(guī)劃,以規(guī)劃tokens(planning tokens)的語義多樣性提升為特征,模型持續(xù)增強推理能力并出現(xiàn)長度縮放效應(yīng)(length scaling)。


圖1:(左圖)大語言模型的推理過程呈現(xiàn)出類人的層次化推理結(jié)構(gòu):高層策略規(guī)劃與底層程序執(zhí)行。(右圖)在強化學(xué)習(xí)訓(xùn)練中,層次化推理通過兩階段動態(tài)過程涌現(xiàn)

研究者通過區(qū)分兩類token驗證這種轉(zhuǎn)變:執(zhí)行token對應(yīng)具體操作步驟,規(guī)劃token則體現(xiàn)為「嘗試其他方法」等策略性表達(dá)。

他們發(fā)現(xiàn),當(dāng)模型掌握執(zhí)行token后,規(guī)劃token的多樣性顯著增加,這與推理能力提升及解決方案鏈條延長直接相關(guān)。

基于此,團(tuán)隊提出分層感知信用分配機制(HICRA)。

與傳統(tǒng)均勻分配學(xué)習(xí)權(quán)重不同,HICRA重點強化規(guī)劃token的學(xué)習(xí)權(quán)重,從而加速模型探索和鞏固策略的能力。

實驗表明,HICRA始終優(yōu)于主流GRPO方法,且在模型已具備扎實執(zhí)行技能時效果最佳——若執(zhí)行基礎(chǔ)薄弱,HICRA的優(yōu)勢則難以發(fā)揮。

這項研究的核心啟示在于:推理能力的真正突破源于規(guī)劃能力的提升,而非僅僅優(yōu)化執(zhí)行細(xì)節(jié)。

強化學(xué)習(xí)增強推理的兩階段動力學(xué)

實驗分析表明,經(jīng)強化學(xué)習(xí)訓(xùn)練的大語言模型并非整體性提升,而是遵循一種"性能瓶頸"隨時間轉(zhuǎn)移的兩階段學(xué)習(xí)動態(tài)。

第一階段:鍛造可靠程序引擎

初期,模型專注于掌握基礎(chǔ)能力。它學(xué)習(xí)可靠地執(zhí)行低級操作步驟,如格式規(guī)范、算術(shù)運算和變量替換。

這一階段體現(xiàn)為「執(zhí)行token」的不確定性(困惑度及token熵)急劇下降。


RL訓(xùn)練動力學(xué):執(zhí)行token的熵(圖中灰色線)下降,而規(guī)劃token的語義熵(圖中紅色線)上升

研究者追蹤了代表性模型家族的訓(xùn)練動態(tài)曲線。

上圖前兩列顯示,模型初始聚焦于程序鞏固階段,表現(xiàn)為執(zhí)行token的模型困惑度(更高置信度)和token熵(更確定性)急劇下降。

隨后發(fā)生向策略規(guī)劃探索的轉(zhuǎn)變(第三列),規(guī)劃策略的多樣性(語義熵)在Qwen模型上持續(xù)增長,或在Llama模型上出現(xiàn)拐點后增長,這與準(zhǔn)確率持續(xù)提升及推理鏈延長(第四列)密切相關(guān)。

對于強模型或易學(xué)習(xí)數(shù)據(jù),此階段可能短暫甚至不存在,因為模型已具備可靠的基礎(chǔ)低級技能,通常僅需對格式token進(jìn)行最小調(diào)整。

第二階段:掌握高級策略規(guī)劃

當(dāng)模型在低級技能上奠定堅實基礎(chǔ)后,學(xué)習(xí)前沿發(fā)生轉(zhuǎn)移。性能提升轉(zhuǎn)為由探索和掌握高級策略驅(qū)動——例如選擇新方法、回溯或識別關(guān)鍵定理。

通過測量規(guī)劃token的語義熵,這次研究驗證了這一轉(zhuǎn)變。其中的語義熵用于反映模型高級策略計劃的多樣性。

規(guī)劃token的語義熵(紅線,第三列)從開始或拐點處持續(xù)上升,這種增長與推理準(zhǔn)確率提升和長度縮放效應(yīng)同步發(fā)生。

這表明策略正在主動擴展其策略計劃庫,以實現(xiàn)推理能力的持續(xù)提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。

揭秘「神秘的現(xiàn)象」

這次的分層框架為強化學(xué)習(xí)訓(xùn)練中一些長期讓人困惑的現(xiàn)象,提供了統(tǒng)一而清晰的解釋:

1、「頓悟時刻」并非偶然靈光。

這類轉(zhuǎn)折并不是隨機爆發(fā)的才思,而是某種行為特征信號:模型在「發(fā)現(xiàn)—掌握—強化」某種強力的高層策略(如自我反思)

當(dāng)策略被納入并穩(wěn)定執(zhí)行時,模型的表現(xiàn)會出現(xiàn)突躍式改善。

2、「長度縮放」源于更好的規(guī)劃。

隨著模型探索到更豐富、更精細(xì)的策略(包括分類討論、預(yù)先規(guī)劃、回溯等),它自然會生成更長、更有結(jié)構(gòu)的推理鏈條;而這類更長的輸出,往往意味著更高的成功率與更好的表現(xiàn)。

換言之,「輸出越長越準(zhǔn)」的現(xiàn)象,本質(zhì)是高層規(guī)劃能力增強的外在體現(xiàn)。

3、復(fù)雜的「熵」變化,其實并不神秘。

整體的token級熵常見下降,并非模型「變笨」,而是因為數(shù)量龐大的執(zhí)行類詞元(格式、算術(shù)、替換等)在訓(xùn)練中變得高度可預(yù)測,把總體曲線往下拉。

真正反映策略探索進(jìn)展的,是高層規(guī)劃詞元的語義熵:它隨訓(xùn)練逐步上升,準(zhǔn)確刻畫出模型在發(fā)明與擴充策略譜系方面的探索步伐。

歸結(jié)起來:第一階段通過降低執(zhí)行不確定性「打好基本功」,第二階段通過提升規(guī)劃多樣性「把思路打開」。這些看似各自為政的現(xiàn)象,其實都出自同一套分層學(xué)習(xí)動力學(xué)。

這一發(fā)現(xiàn)揭示了當(dāng)前RL方法(如GRPO)的核心低效問題:

它們對所有token施加無差別優(yōu)化壓力,稀釋了學(xué)習(xí)信號。

既然高級推理的關(guān)鍵在于掌握策略,為何還要在已掌握的程序性步驟上浪費精力?

為解決此問題,研究者提出了一種新算法HICRA(Hierarchy-Aware Credit Assignment,分層感知信用分配),其核心設(shè)計理念是:

將模型的學(xué)習(xí)能力聚焦于稀疏但高價值的規(guī)劃token。

分層感知信用分配

聚焦關(guān)鍵要素

通過放大策略舉措的學(xué)習(xí)信號,HICRA加速了有效推理模式的發(fā)現(xiàn)與強化進(jìn)程。

實驗結(jié)果,效果驚人:定向優(yōu)化規(guī)劃全贏了!

在多個純文本及視覺語言模型中,HICRA不斷超越強大的GRPO基線方法,顯著驗證了定向優(yōu)化規(guī)劃token的有效性。


表1:在多項數(shù)學(xué)推理基準(zhǔn)測試中,HICRA、GRPO與基座模型的性能對比。


表2:在多模態(tài)推理基準(zhǔn)測試中,HICRA與GRPO的性能對比

為探究強化學(xué)習(xí)最有效的應(yīng)用方向,這次分析了失敗推演中錯誤類型的演變規(guī)律。

首先通過人工審查失敗案例,歸納出四種不同的錯誤成因。

隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應(yīng)成因,最后將這些分類解析為兩大范疇:「規(guī)劃與策略」(如邏輯缺陷、高層計劃錯誤)和「其他錯誤」(如計算失誤、事實檢索錯誤)。

分析表明,強化學(xué)習(xí)(RL)的主要優(yōu)勢在于修正高層策略失誤,而非細(xì)微的計算錯誤。


這也激發(fā)了HICRA的設(shè)計理念,即將學(xué)習(xí)重點集中在規(guī)劃token上。

如下圖5所示,HICRA的成功與其維持比GRPO更高的語義熵水平密切相關(guān)。

這種高層策略的更高多樣性,直接與更強且更穩(wěn)定的驗證準(zhǔn)確率相關(guān)聯(lián),證實了專注的策略探索是推理能力改進(jìn)的主要驅(qū)動力。


何種指標(biāo)能有效追蹤策略探索?

準(zhǔn)確衡量策略探索,對于診斷策略學(xué)習(xí)至關(guān)重要。

然而,這次發(fā)現(xiàn)諸如token級熵值等常用指標(biāo)可能產(chǎn)生誤導(dǎo)。

1、token級熵值的缺陷:該指標(biāo)有時會收斂至較低水平,被實踐者誤判為「崩潰」。但這是錯誤的。

大量低層執(zhí)行token主導(dǎo)了token級熵值,而這些token本身就會趨于可預(yù)測化(即低熵狀態(tài))。低層token的熵值下降,會拉低全局平均熵值,但這并不意味探索停止。相反,只要語義熵保持高位,就說明模型正在積極探索新高階策略,且性能持續(xù)提升。

2、Pass@K指標(biāo)的盲點:該通過K次嘗試成功率衡量的指標(biāo),有時會飽和(例如所有查詢都可能被解決),導(dǎo)致無法區(qū)分方法優(yōu)劣或追蹤訓(xùn)練后期的持續(xù)學(xué)習(xí)動態(tài)。

語義熵有效規(guī)避了這些缺陷。它直接衡量有意義策略方案的多樣性。

如下圖所示,語義熵始終保持強大區(qū)分力:當(dāng)token熵值崩潰且Pass@8飽和時,仍能清晰顯示HICRA持續(xù)的策略探索優(yōu)勢。這使其成為追蹤真正推理發(fā)展的可靠指南。


token熵值(最右)崩潰且Pass@8(右二)飽和失效時,語義熵(最左)仍明確顯示HICRA的持續(xù)探索優(yōu)勢,該優(yōu)勢與最終準(zhǔn)確率提升正相關(guān)。

現(xiàn)有研究提出使用高熵的「分岔token」作為模型推理過程中決策點的代理指標(biāo)。


鏈接:https://arxiv.org/abs/2506.01939

這類基于熵的token與基于功能定義的規(guī)劃token之間,到底什么關(guān)系?

研究發(fā)現(xiàn)關(guān)鍵不對稱性:

雖然大部分規(guī)劃token確實呈現(xiàn)高熵特性(符合策略選擇的預(yù)期),但反向關(guān)系并不成立。

大多數(shù)高熵token并非規(guī)劃token,它們往往對應(yīng)表述方式的簡單變異或不影響整體策略的低層計算。

這揭示了僅依靠熵值識別具有精確語義功能token的局限性。

雖然功能定義的規(guī)劃token大多具有高熵特性(下圖左),但高熵token并非規(guī)劃token的有效代理指標(biāo),因其多數(shù)承擔(dān)其他功能(下圖右)。


參考資料:

https://arxiv.org/abs/2509.03646

https://www.rohan-paul.com/p/new-paper-shows-why-reasoning-improves

https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
哈馬斯無條件投降!加沙天晴了?最大贏家和輸家都是誰?

哈馬斯無條件投降!加沙天晴了?最大贏家和輸家都是誰?

大江看潮
2025-10-06 07:55:25
法國網(wǎng)球選手吐槽上海:在球場上呼吸都困難,中國大城市有很多污染

法國網(wǎng)球選手吐槽上海:在球場上呼吸都困難,中國大城市有很多污染

懂球帝
2025-10-05 10:11:12
男子開車時速105公里撞上橫穿高速公路的野豬群:人沒事,車輛前擋泥板破損,已報保險處理

男子開車時速105公里撞上橫穿高速公路的野豬群:人沒事,車輛前擋泥板破損,已報保險處理

極目新聞
2025-10-08 17:34:51
日本米價太高!越南人將越南大米包裝成綠豆走私進(jìn)入日本

日本米價太高!越南人將越南大米包裝成綠豆走私進(jìn)入日本

爆角追蹤
2025-10-08 14:03:27
最壯觀的一次移民:舉國南遷,若沒有這次遷徙,漢族可能會被滅族

最壯觀的一次移民:舉國南遷,若沒有這次遷徙,漢族可能會被滅族

銘記歷史呀
2025-10-07 15:12:30
陳可冀院士研究:他汀雖能降脂,卻可能帶來5個副作用,別吃過頭

陳可冀院士研究:他汀雖能降脂,卻可能帶來5個副作用,別吃過頭

小舟談歷史
2025-10-08 09:20:48
全面斷網(wǎng),塔利班正在把阿富汗變成一座巨大的籠子!他們怕什么?

全面斷網(wǎng),塔利班正在把阿富汗變成一座巨大的籠子!他們怕什么?

翻開歷史和現(xiàn)實
2025-10-08 09:16:55
護(hù)照姐丟人丟到國外,老外紛紛舉護(hù)照玩梗,外國老公:她只是保姆

護(hù)照姐丟人丟到國外,老外紛紛舉護(hù)照玩梗,外國老公:她只是保姆

紀(jì)中百大事
2025-10-07 15:51:14
鄭麗文:若當(dāng)選國民黨主席將常坐鎮(zhèn)南臺灣,打破“綠色執(zhí)政”魔咒

鄭麗文:若當(dāng)選國民黨主席將常坐鎮(zhèn)南臺灣,打破“綠色執(zhí)政”魔咒

海峽導(dǎo)報社
2025-10-08 14:07:14
48歲漁村網(wǎng)紅阿霞墜海遇難,出海收海鮮時不幸落水,丈夫誠信發(fā)聲:“把欠別人的錢還清,讓她好走”

48歲漁村網(wǎng)紅阿霞墜海遇難,出海收海鮮時不幸落水,丈夫誠信發(fā)聲:“把欠別人的錢還清,讓她好走”

極目新聞
2025-10-08 15:39:46
死還是不死,佩洛西陷入兩難

死還是不死,佩洛西陷入兩難

俠客棧
2025-10-08 10:21:46
不買票,還罵“滾回自己的國家”,新西蘭公交司機一拳將對方打死

不買票,還罵“滾回自己的國家”,新西蘭公交司機一拳將對方打死

發(fā)現(xiàn)新西蘭
2025-10-08 12:12:25
五角大樓候任高官稱“強烈支持”臺軍費增至GDP10% 島內(nèi)網(wǎng)友:“榨干就可放棄了”

五角大樓候任高官稱“強烈支持”臺軍費增至GDP10% 島內(nèi)網(wǎng)友:“榨干就可放棄了”

參考消息
2025-10-08 14:34:03
臺北“踹飛老太”事件反轉(zhuǎn)?男子道歉、老太被捕,誰是受害者?

臺北“踹飛老太”事件反轉(zhuǎn)?男子道歉、老太被捕,誰是受害者?

新民周刊
2025-10-08 17:32:15
廣西百色一高速公路塌陷 緊急封路未發(fā)生交通事故

廣西百色一高速公路塌陷 緊急封路未發(fā)生交通事故

環(huán)球網(wǎng)資訊
2025-10-08 16:00:08
“受賄數(shù)額特別巨大”,農(nóng)業(yè)農(nóng)村部原部長唐仁健一審被判死緩

“受賄數(shù)額特別巨大”,農(nóng)業(yè)農(nóng)村部原部長唐仁健一審被判死緩

紅星新聞
2025-09-28 19:11:17
兩名中國游客在馬來西亞失聯(lián)細(xì)節(jié)披露!友人呼吁公眾提供線索

兩名中國游客在馬來西亞失聯(lián)細(xì)節(jié)披露!友人呼吁公眾提供線索

南方都市報
2025-10-08 15:07:07
堵麻了!你“挪回”無錫了么?

堵麻了!你“挪回”無錫了么?

江南晚報
2025-10-08 15:07:07
巴基斯坦軍方打死19名恐怖分子

巴基斯坦軍方打死19名恐怖分子

新華社
2025-10-08 16:58:02
女生參加某紅書“全女”登山隊遇險,被姐妹丟下等死現(xiàn)場視頻被扒太可怕!

女生參加某紅書“全女”登山隊遇險,被姐妹丟下等死現(xiàn)場視頻被扒太可怕!

不二表姐
2025-10-07 23:53:10
2025-10-08 18:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13575文章數(shù) 66201關(guān)注度
往期回顧 全部

科技要聞

2025年諾貝爾化學(xué)獎揭曉

頭條要聞

鄭麗文:若當(dāng)選將常坐鎮(zhèn)南臺灣 打破"綠色執(zhí)政"魔咒

頭條要聞

鄭麗文:若當(dāng)選將常坐鎮(zhèn)南臺灣 打破"綠色執(zhí)政"魔咒

體育要聞

阿爾巴退役,他是巴薩隊史第一左后衛(wèi)嗎

娛樂要聞

虞書欣掉粉超200萬,仍舊沉默應(yīng)對風(fēng)波

財經(jīng)要聞

假期外圍市場太熱鬧!A股明天怎么走?

汽車要聞

家用SUV的越級感 8萬級的全新博越就能擁有

態(tài)度原創(chuàng)

親子
游戲
家居
旅游
公開課

親子要聞

一大早我還沒起床就聽見小姑子的叫門聲

《仁王3》公開新實機片段!彈反系統(tǒng)收益巨大

家居要聞

南沙之濱 越秀城市藝術(shù)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 熟女老妇97| 久久久国产精华液| 久久久精品欧美一区二区免费| 极品AV天堂| 午夜无码精品一区二区三区99午| 亚洲无码在线观看网址| 亚洲涩涩涩涩涩涩| 女人让男人桶30分钟的在线 | 欧美性黑人极品hd| 日韩亚洲欧美中文高清在线| 色老99久久精品偷偷鲁| 大胆欧美熟妇xxbbwwbw高潮了| 奇米第四色婷婷| 婷婷六月丁香在线| 西西人体超大胆视频在哪里看| 久久熟妇婬乱| 亚洲精品无码aⅴ中文字幕蜜桃| 丰满少妇高潮大叫| Free性中国少妇| 亚洲人成色777777精仙林踪| 日本又色又爽又黄的a片18禁| 日韩精品一区二区三区AV| 漂亮的少妇无码| 国产日产欧产精品品不卡| 色五月人人操| 国产最大的福利精品自拍| 色欲密臀精品一区二区三区| 加勒比一区二区无码视频在线| 91麻豆传传媒波多野衣久久 | 国产高潮一区二区三区久久久久久 | 肉大捧一进一出免费视频| 噼里啪啦国语在线播放| 国产乱码一卡二卡3卡四卡| 日韩人妻无码视频| 欲求不満の人妻松下纱荣子| www.亚洲日韩| 狠狠色噜噜狠狠狠狠色综合久| 在线播放你懂的| 国产在线自拍一区二区三区| 中国人妻与老外黑人| 无码熟熟妇丰满人妻porn|