夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AGI前夜重磅:RL突破模型「認(rèn)知上限」,真·學(xué)習(xí)發(fā)生了!

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】UC Berkeley、UW、AI2 等機(jī)構(gòu)聯(lián)合團(tuán)隊最新工作提出:在恰當(dāng)?shù)挠?xùn)練范式下,強(qiáng)化學(xué)習(xí)(RL)不僅能「打磨」已有能力,更能逼出「全新算法」級的推理模式。他們構(gòu)建了一個專門驗證這一命題的測試框架 DELTA,并觀察到從「零獎勵」到接近100%突破式躍遷的「RL grokking」現(xiàn)象。

在AI研究圈,一個核心爭論是:強(qiáng)化學(xué)習(xí)(RL)是否能夠賦予模型超越其基礎(chǔ)模型(base model)的推理能力。

懷疑派觀點:早在四月份,清華的黃高團(tuán)隊[arXiv:2504.13837]指出,盡管經(jīng)過 RLVR 訓(xùn)練的模型在較小的采樣值 (k)(例如 (k=1))時能優(yōu)于其基礎(chǔ)模型,但當(dāng)采樣數(shù)較大時,基礎(chǔ)模型往往能取得相同或更好的 pass@k 表現(xiàn)。

他們通過覆蓋率(coverage)和困惑度(perplexity)分析推斷,模型的推理能力最終受限于基礎(chǔ)模型的支持范圍。

類似地,斯坦福崔藝珍團(tuán)隊 [arXiv:2507.14843] 從理論上論證了 RLVR 無法突破基礎(chǔ)模型的表征極限。

這種懷疑的直覺在于:

大多數(shù)面向推理的強(qiáng)化學(xué)習(xí)(如 GRPO、PPO 等變體)通過比較同一提示詞(prompt)下多個采樣的獎勵來更新模型。

如果這些采樣中沒有一個成功解決任務(wù)(即 pass@K = 0),那么所有樣本的獎勵都是一樣差的,此時梯度將會消失。

所以關(guān)鍵的問題在于,當(dāng)基礎(chǔ)模型(base model)在某類任務(wù)上完全無法解答(pass@K=0)時:

RL是否還能突破零梯度瓶頸,真正學(xué)到新策略?

來自加州大學(xué)伯克利分校(UC Berkeley)與AI2、華盛頓大學(xué)等機(jī)構(gòu)的研究團(tuán)隊,近日給出了一個令人振奮的答案

RL確實能讓模型發(fā)現(xiàn)全新的推理模式——但前提是,需要不一樣的訓(xùn)練方式。

他們的最新工作《RL Grokking Receipe: How Does RL Unlock and Transfer NewAlgorithmsin LLMs?》提出了一個嶄新的測試框架DELTA,專門用來驗證該觀點。

這項研究為「RL是否能突破模型邊界這一爭論,帶來了新的實驗依據(jù)。


論文:https://www.arxiv.org/abs/2509.21016

博客:https://rdi.berkeley.edu/blog/rl-grokking-recipe

相關(guān)資源清單(持續(xù)更新):https://github.com/rdi-berkeley/awesome-RLVR-boundary

從「打磨」到「頓悟」

RL真學(xué)到新算法了?

在主流觀點中,RL似乎被困在「隱形的繩子」上 ——

模型的pass@1雖然提高,但在大規(guī)模采樣下(如pass@128)性能并未擴(kuò)展。

這意味著它可能只是重新分配已有策略的概率,而不是創(chuàng)造新的策略。

然而,伯克利團(tuán)隊在DELTA測試中發(fā)現(xiàn)了頓悟式躍遷在多個基礎(chǔ)模型完全失敗的任務(wù)族中,RL訓(xùn)練經(jīng)歷了一個長時間的「零獎勵平臺期」,隨后突然出現(xiàn)了準(zhǔn)確率接近100%的躍遷(phase transition)。


研究者將此描述為 「RL grokking」:那不是微調(diào)的延展,而是「想通了」的瞬間。

一個「分布外任務(wù)學(xué)習(xí)性」試煉場

很多工作聲稱「新任務(wù)」,但其實仍落在模型的知識范圍內(nèi)。

伯克利團(tuán)隊這次刻意設(shè)計的任務(wù),卻真正做到了脫離模型經(jīng)驗的外部分布 (Out-of-Distribution):

1. 全新的語言——互聯(lián)網(wǎng)上從未出現(xiàn)過。

研究團(tuán)隊以經(jīng)典2010 flash游戲Manufactoria為靈感,構(gòu)建了一個全新的合成編程世界。

該游戲的解法僅以圖片的形式存在,為了適配語言模型,作者引入了一種全新的程序描述語言,僅由兩種原始指令組成:

Puller:從左側(cè)讀取并移動符號;

Painter:在右側(cè)寫入或標(biāo)記符號,以此來完成輸入輸出匹配任務(wù)。

2. 全新的任務(wù)家族——不是重混關(guān)卡,而是全新打造。

研究者不是簡單復(fù)刻原始的謎題,而是合成了一批全新問題族。這些問題族的難度有簡單有困難,最難的問題使得GPT-5都只有0的正確率。

3. 全新的推理方式——與常規(guī)代碼推理完全不同。

傳統(tǒng)代碼學(xué)習(xí)依賴控制流(if/for/while)和數(shù)據(jù)結(jié)構(gòu)(stack/list/map)。

而在這個極簡世界里,模型必須發(fā)明一種有限狀態(tài)機(jī)式的推理方式:通過在帶子兩端不斷搬運和標(biāo)記顏色,完成路由、緩存、比較等操作。

換句話說,模型得在沒有變量的環(huán)境中「自造算法」。這是一種人類都要重新思考的推理方式。


如果一個RL模型在這里能學(xué)會通用策略,那幾乎可以排除掉「記憶已有代碼模式」的可能,它確實在學(xué)習(xí)新的算法結(jié)構(gòu)。


破解零梯度詛咒的關(guān)鍵

兩階段獎勵調(diào)度

伯克利團(tuán)隊的突破在于,他們重新設(shè)計了獎勵函數(shù)的結(jié)構(gòu)。

階段一:密集獎勵(dense reward)

在每個測試用例上給部分分?jǐn)?shù),而非非黑即白的0/1。即使程序只通過了一半測試,也能獲得部分獎勵。這讓模型從「全零」中獲得一絲梯度信號,開始摸索。

問題是: 密集獎勵雖然讓模型「活了」,但它學(xué)會的往往是「投機(jī)解」——通過簡單模式騙過部分測試。

結(jié)果是:平均分高了,完全通過率仍接近0


階段二:切換回二值獎勵(binary reward)

研究者發(fā)現(xiàn),關(guān)鍵在于時機(jī)的切換。當(dāng)模型通過密集獎勵階段獲得「半正確」策略后,再切換到「全對才算贏」的二值獎勵,模型突然迎來那一刻——Grokking Phase Transition:從模糊到精確的飛躍。

在約450步后,模型突然學(xué)會了任務(wù)的核心算法,從此訓(xùn)練進(jìn)入「強(qiáng)化收斂」階段,成功率穩(wěn)定在近100%。那一瞬間,你幾乎能看到模型‘領(lǐng)悟’了規(guī)律。

在DELTA的多種任務(wù)族中,研究者觀測到高度一致的學(xué)習(xí)曲線:前幾百步內(nèi),獎勵幾乎為零;接著出現(xiàn)一次陡峭的提升;模型學(xué)會了任務(wù)核心邏輯,性能穩(wěn)定在近乎100%。


這條曲線如同人類的學(xué)習(xí)歷程——先是漫長摸索,然后靈光乍現(xiàn)。

頓悟后的技能能否遷移?

團(tuán)隊進(jìn)一步設(shè)計了BouncingSim測試場景,讓模型預(yù)測小球的彈跳軌跡。


這是一個涉及物理規(guī)律與組合推理的任務(wù),是一個極具挑戰(zhàn)性的編程任務(wù)。

結(jié)果顯示:

  • 模型能在訓(xùn)練后期出現(xiàn)相似的「頓悟曲線」;

  • 對于可組合(Compositional)任務(wù),它能復(fù)用學(xué)到的子技能;

  • 但面對特殊的動力學(xué)規(guī)律,模型仍會失效。

這表明,RL 學(xué)習(xí)到的技能具備有限的遷移能力:它能重組技能,但尚未形成「概念躍遷」的能力。


深層啟示1:RL的兩種模式

該研究總結(jié)出RLVR在LLM中的兩種模式:

  1. 壓縮模式(Sharpening:重新分配概率,減少輸出方差,提升單次采樣的性能。

  2. 發(fā)現(xiàn)模式(Discovery:從完全不會(pass@K=0)到穩(wěn)定解題,實現(xiàn)結(jié)構(gòu)性突破。

而進(jìn)入發(fā)現(xiàn)模式的關(guān)鍵在于:獎勵函數(shù)設(shè)計;探索持續(xù)時間;數(shù)據(jù)混合策略;以及任務(wù)的復(fù)雜度邊界等等。

深層啟示2:提升「硬核任務(wù)」的而非平均分

研究團(tuán)隊指出,目前RLVR的評測往往在「混合任務(wù)池」上取平均,這掩蓋了最關(guān)鍵的「硬核任務(wù)」突破。

在那些基礎(chǔ)模型完全不會(pass@K=0)的任務(wù)上,才最有機(jī)會觀察到RL的「創(chuàng)造性突破」。他們建議未來評估指標(biāo)應(yīng)顯式報告該子集的表現(xiàn),因為那才是衡量「模型是否能發(fā)現(xiàn)新策略」的真實信號。

為此,伯克利團(tuán)隊搜集并維護(hù)了一個在此方向上的代表性工作:

按「立場—方法—評測—數(shù)據(jù)/基準(zhǔn)—討論」分門別類的列表,便于研究者直接定位到pass@k=0等硬核子集上的最新證據(jù)與方法路徑。

項目地址: https://github.com/sunblaze-ucb/awesome-RLVR-boundary

深層啟示3:從編程邁向數(shù)學(xué)與科學(xué):RL的新邊疆

為何該工作選擇編程作為突破口?

因為代碼任務(wù)天然具備:可驗證的單元測試;細(xì)粒度、可組合的反饋信號。

這些特性讓RL能夠精確調(diào)節(jié)獎勵,形成探索路徑。

研究者認(rèn)為,這一思路完全可擴(kuò)展到數(shù)學(xué)與科學(xué)推理領(lǐng)域:

  • 通過自動評分(rubric scoring)、逐步檢驗(step checker)或物理仿真器(simulator feedback)

  • 構(gòu)建細(xì)粒度的獎勵系統(tǒng),從而讓RL引導(dǎo)模型穿越「無梯度」地帶


結(jié)語

模型「真正思考」那一刻

這項研究的意義不僅在于性能提升,而在于它展示了LLM真正的學(xué)習(xí)潛能:

強(qiáng)化學(xué)習(xí)不只是打磨,而是讓模型學(xué)會「如何思考」。

在AGI前夜的諸多技術(shù)路徑中,RLVR 可能是那條讓模型從模仿走向洞察的路。

當(dāng)模型在接近零反饋的黑暗中摸索,直到某一刻突然頓悟——或許這就是AI的「悟道」瞬間。

作者團(tuán)隊介紹

本項研究來自UC Berkeley宋曉東(Dawn Song)團(tuán)隊,與AI2、華盛頓大學(xué)等機(jī)構(gòu)合作。

第一作者孫一鈾(Yiyou Sun),現(xiàn)為加州大學(xué)伯克利分校博士后,2023 年于威斯康星大學(xué)麥迪遜分校獲博士學(xué)位(導(dǎo)師李一璇Sharon Li),主要研究Out-of-DistributionOOD) 分布外數(shù)據(jù)的相關(guān)問題。

另外在今年5月,Yiyou Sun與宋曉東(Dawn Song)等人還在NeurIPS上發(fā)表了論文《OMEGA: Can LLMs Reason Outside the Box in Math?》。

該研究首次系統(tǒng)性地評估了大模型在「跳出盒子」式數(shù)學(xué)推理中的泛化能力,提出了一個全新的基準(zhǔn)——OMEGA。


項目地址: https://github.com/sunblaze-ucb/omega

論文地址: https://arxiv.org/abs/2506.18880

OMEGA聚焦于三種關(guān)鍵的「超分布」泛化能力:

  1. Exploratory(探索式):要求模型將已掌握的解題技能應(yīng)用到同領(lǐng)域中更復(fù)雜的實例;

  2. Compositional(組合式):測試模型能否整合不同推理技能解決新的綜合性問題;

  3. Transformative(變革式):考察模型是否能采用創(chuàng)新性、非傳統(tǒng)的策略跨越熟悉范式,真正實現(xiàn)「類人創(chuàng)造性」的遷移推理。

研究團(tuán)隊基于幾何、數(shù)論、代數(shù)、組合、邏輯與謎題等多領(lǐng)域模板構(gòu)建了多層級測試集,對多款頂級大模型(包括Qwen系列)進(jìn)行系統(tǒng)評估。

結(jié)果顯示,當(dāng)前LLMs在三類泛化任務(wù)中仍存在顯著差距,尤其在變革式泛化上幾乎沒有提升。

這一發(fā)現(xiàn)揭示出當(dāng)下模型雖然能「模仿思考」,但在創(chuàng)造性和結(jié)構(gòu)性遷移推理上仍受限于基礎(chǔ)模型的邊界。

論文作者指出,OMEGA不僅提供了一個衡量模型「數(shù)學(xué)創(chuàng)造力」的新視角,更為未來RL-for-Reasoning(推理強(qiáng)化學(xué)習(xí))研究提供了實驗基礎(chǔ)。

參考資料:

https://www.arxiv.org/abs/2509.21016

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
山東省政府:解聘襲燕省政府參事職務(wù)

山東省政府:解聘襲燕省政府參事職務(wù)

政知新媒體
2025-10-22 12:54:16
上海市政府同意,組建一家新公司

上海市政府同意,組建一家新公司

極目新聞
2025-10-21 23:01:23
“00后”拳王周潤琪澳洲遇襲后再發(fā)聲:自己是中國國籍,對不起老婆,回國后想離婚,不配當(dāng)人家老公

“00后”拳王周潤琪澳洲遇襲后再發(fā)聲:自己是中國國籍,對不起老婆,回國后想離婚,不配當(dāng)人家老公

揚子晚報
2025-10-22 09:45:18
祈求?;??俄軍全線越過鐵路線,紅軍城進(jìn)入收官階段!

祈求停火?俄軍全線越過鐵路線,紅軍城進(jìn)入收官階段!

勝研集
2025-10-22 10:49:48
詐騙首腦陳志背后的保護(hù)傘是誰?

詐騙首腦陳志背后的保護(hù)傘是誰?

小江科普
2025-10-22 00:04:16
辛柏青李乃文一起爬山被偶遇,辛柏青狀態(tài)讓人心疼,本人好憔悴

辛柏青李乃文一起爬山被偶遇,辛柏青狀態(tài)讓人心疼,本人好憔悴

鑫鑫說說
2025-10-22 10:51:08
腸道“潤滑劑”找到了!每天換著吃,“刮走”腸道垃圾,趕跑便秘

腸道“潤滑劑”找到了!每天換著吃,“刮走”腸道垃圾,趕跑便秘

江江食研社
2025-10-21 12:30:02
“野人小孩”的體檢報告出來了!顯示孩子營養(yǎng)不良,有佝僂病前期

“野人小孩”的體檢報告出來了!顯示孩子營養(yǎng)不良,有佝僂病前期

火山詩話
2025-10-22 09:41:44
離大譜!為什么我們的媒體,會把太子集團(tuán)陳志稱為“青年才俊”?

離大譜!為什么我們的媒體,會把太子集團(tuán)陳志稱為“青年才俊”?

吃瓜局
2025-10-21 15:10:14
反腐還是反智?貴州一醫(yī)學(xué)博士在上??挂撸瑓s同時又在遵義受賄

反腐還是反智?貴州一醫(yī)學(xué)博士在上??挂?,卻同時又在遵義受賄

法治邊角料
2025-10-22 09:11:00
歐洲與烏克蘭前肩而行,布達(dá)佩斯“二普”會爛尾取消

歐洲與烏克蘭前肩而行,布達(dá)佩斯“二普”會爛尾取消

近距離
2025-10-22 10:22:27
中國對美稀土出口驟降!美澳達(dá)成85億大單,澳軍機(jī)立馬強(qiáng)闖南海

中國對美稀土出口驟降!美澳達(dá)成85億大單,澳軍機(jī)立馬強(qiáng)闖南海

現(xiàn)代小青青慕慕
2025-10-22 08:52:25
6-1,歐冠大勝!巴薩踢瘋了!帽子戲法創(chuàng)造紀(jì)錄,18歲天才歷史第1

6-1,歐冠大勝!巴薩踢瘋了!帽子戲法創(chuàng)造紀(jì)錄,18歲天才歷史第1

烏龍球OwnGoal
2025-10-22 07:08:48
特朗普強(qiáng)迫中國二選一,坐上談判桌并簽署協(xié)議,否則支付157%關(guān)稅

特朗普強(qiáng)迫中國二選一,坐上談判桌并簽署協(xié)議,否則支付157%關(guān)稅

梁訊
2025-10-22 08:31:52
太尷尬了!王自如回憶與羅永浩“世紀(jì)約架”:想握手言和卻遭無視

太尷尬了!王自如回憶與羅永浩“世紀(jì)約架”:想握手言和卻遭無視

雷科技
2025-10-21 19:11:46
原研藥再次面臨全軍覆滅,多款知名進(jìn)口藥退出國內(nèi)市場

原研藥再次面臨全軍覆滅,多款知名進(jìn)口藥退出國內(nèi)市場

健康觸點
2025-10-22 06:08:11
日本鐵路月臺男女中學(xué)生不雅事件,女方仙氣正臉曝光成焦點!

日本鐵路月臺男女中學(xué)生不雅事件,女方仙氣正臉曝光成焦點!

環(huán)球趣聞分享
2025-10-21 14:05:03
真的是一胡遮百丑啊,大胡子徹底拯救了哈登的顏值!

真的是一胡遮百丑啊,大胡子徹底拯救了哈登的顏值!

田先生籃球
2025-10-21 15:14:54
遭遇全世界反對!西甲13天大反轉(zhuǎn):官宣取消巴薩海外賽 皇馬贏了

遭遇全世界反對!西甲13天大反轉(zhuǎn):官宣取消巴薩海外賽 皇馬贏了

風(fēng)過鄉(xiāng)
2025-10-22 06:15:56
在亡妻故去后,楊振寧和李政道讓網(wǎng)友們看到截然不同的選擇

在亡妻故去后,楊振寧和李政道讓網(wǎng)友們看到截然不同的選擇

清暉有墨
2025-10-22 09:27:37
2025-10-22 13:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13678文章數(shù) 66221關(guān)注度
往期回顧 全部

科技要聞

OpenAI瀏覽器來了!“智能體”成最大亮點

頭條要聞

中國女子偷法國博物館黃金:經(jīng)驗豐富 作案長達(dá)3小時

頭條要聞

中國女子偷法國博物館黃金:經(jīng)驗豐富 作案長達(dá)3小時

體育要聞

頒獎儀式:俄城升總冠軍旗幟 火箭集體缺席

娛樂要聞

何超蓮風(fēng)波暴露豪門現(xiàn)實 不止竇驍遭殃

財經(jīng)要聞

跳水!國際金價、白銀大跌

汽車要聞

低調(diào)務(wù)實的零跑,在高端市場也“支棱”了

態(tài)度原創(chuàng)

房產(chǎn)
旅游
時尚
本地
教育

房產(chǎn)要聞

22.95億!三亞海昌不夜城正式易主!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

彩毛衣+小黑褲,超顯氣色的!

本地新聞

云游中國|一腳踏入萬州,才懂煙火江城的真意

教育要聞

高考俄語完型選擇考點揭秘!24-25年高考俄語真題對比!

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美精品日韩精品一卡| 日韩欧美家庭影院一区| 淫荡人妻网址| 国产成人午夜福利在线播放| 欧美成人观看7777| 高清无码爆乳潮喷在线观看| 中文字幕 - 妓女| 成人毛片基地| 久久综合久久香蕉网欧美| 亚洲天堂网2016| 色欲av熟女| 久久www成人看片免费不卡| AV在线一二三四区| 久久香蕉国产线看观看精品yw| 99sesese| 中文字幕不卡在线播放| 成人毛片免费视频| 呦泬泬精品导航| 性欧美老妇另类xxxx| 五月婷婷七月丁香| 国产成人av一区二区三区不卡| 欧美成人爽片视频在线| 一牛影视一区二区三区| 在线 欧美 中文 亚洲 精品| 暴插少妇av| 国内精品乱码卡一卡2卡三卡| 欧美激情肉欲高潮视频| 精品女同一区二区免费播放| 久久久精品人妻无码专区不卡| 中国精学生妹品射精久久| 亚洲高清av一区二区| 少妇人妻av| 亚洲精华国产精华液的福利| 小说亚洲色图| 久久香蕉国产线看观看精品yw | 99精品热视频| 国产精品无码久久av嫩草| 国产精品伦一区二区三级视频| 亚洲AV无码久久精品国产| 亚洲一区二区三区在线观看精品中文 | 7777一区二区三区|