夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn)

0
分享至

字節(jié)&MAP團(tuán)隊(duì)投稿 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

強(qiáng)化學(xué)習(xí)(RL)范式雖然顯著提升了大語言模型(LLM)在復(fù)雜任務(wù)中的表現(xiàn),但其在實(shí)際應(yīng)用中仍面臨傳統(tǒng)RL框架下固有的探索難題。

一個(gè)普遍存在的現(xiàn)象是:在訓(xùn)練過程中,模型的熵值迅速下降,推理路徑趨于固化,導(dǎo)致“利用(exploitation)”遠(yuǎn)超“探索(exploration)”,嚴(yán)重失衡。

這種過早收斂不僅削弱了模型的多樣性生成能力,也限制了其性能上限的進(jìn)一步突破。

受OpenAI經(jīng)典論文《First Return, Then Explore》中“先返回,再探索”思想的啟發(fā),來自字節(jié)跳動、MAP,曼徹斯特大學(xué)的聯(lián)合團(tuán)隊(duì)提出了一種全新的結(jié)構(gòu)化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。



該方法通過識別推理軌跡中具有高不確定性的關(guān)鍵token,并以此為錨點(diǎn)引導(dǎo)后續(xù)的多樣化展開,系統(tǒng)性地重建了LLM在強(qiáng)化學(xué)習(xí)中的探索機(jī)制,旨在實(shí)現(xiàn)利用與探索之間的動態(tài)平衡,從而釋放RL訓(xùn)練的更高潛力。

值得一提的是,F(xiàn)R3E發(fā)布后,《First Return, Then Explore》的作者之一Jeff Clune還在X(原 Twitter)上轉(zhuǎn)發(fā)了這篇文章。



算法框架

FR3E的算法框架分為兩個(gè)階段:

第一階段:First Return



在該階段,模型對每條prompt進(jìn)行多次rollout,自由探索可能的解題路徑,并收集相應(yīng)的軌跡及其獎(jiǎng)勵(lì)信號。

隨后,采用拒絕采樣(rejection sampling)策略過濾掉全正確的樣本(避免對已掌握知識的重復(fù)學(xué)習(xí)),并針對剩余樣本構(gòu)建基準(zhǔn)路徑:對于存在部分正確結(jié)果的prompt,選取其中一條正確軌跡作為基準(zhǔn);

對于全部錯(cuò)誤的prompt,則隨機(jī)選取一條作為參考路徑。

在此基礎(chǔ)上,計(jì)算基準(zhǔn)路徑中每個(gè)token的生成熵,篩選出top-n個(gè)高熵token作為關(guān)鍵決策點(diǎn)。

這些關(guān)鍵點(diǎn)將整條軌跡劃分為n+1個(gè)partial rollout。通過將原始prompt與前n個(gè)partial rollout依次拼接(最后一個(gè)包含答案的部分被排除),形成n+1個(gè)中間狀態(tài)(state),初始狀態(tài)即為原始prompt本身。

第二階段:Entropy-Eliciting Explore



基于構(gòu)建的多狀態(tài)prompt組,F(xiàn)R3E在GRPO++(融合了拒絕采樣與Clip-Higher機(jī)制的GRPO變體)的基礎(chǔ)上,進(jìn)一步引入動態(tài)優(yōu)勢調(diào)制機(jī)制,以更精細(xì)地調(diào)控學(xué)習(xí)信號。具體而言,通過引入了一個(gè)優(yōu)勢調(diào)制因子,它基于從上一個(gè)狀態(tài)到當(dāng)前狀態(tài)的價(jià)值邊際改善來縮放學(xué)習(xí)信號。

優(yōu)勢調(diào)制因子定義為:



調(diào)控后的Advantage定義為:





表示當(dāng)前state prompt中的partial rollout部分對最終答案有正向影響,此時(shí)需要適當(dāng)降低它的advantage,防止模型過早鎖定當(dāng)前推理路徑,保留探索空間。

反之,當(dāng)



則意味著當(dāng)前state prompt中的partial rollout部分對思考過程沒有或有負(fù)向影響,需要放大其優(yōu)勢信號,激勵(lì)模型在該節(jié)點(diǎn)進(jìn)行更積極的探索,以突破推理瓶頸。

在數(shù)據(jù)構(gòu)建方面,團(tuán)隊(duì)采用雙難度混合策略:低難度數(shù)據(jù)來自DeepScaler,用于穩(wěn)定訓(xùn)練初期的收斂過程;

高難度數(shù)據(jù)則取自SimpleRL中難度等級為3–5的樣本,旨在激發(fā)模型的深層推理能力。這種組合既保障了訓(xùn)練穩(wěn)定性,又提供了足夠的挑戰(zhàn)性以推動能力躍遷。

實(shí)驗(yàn)結(jié)果

為全面評估FR3E的有效性,團(tuán)隊(duì)在多個(gè)權(quán)威數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了實(shí)驗(yàn),包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三種模型上進(jìn)行了評測。



實(shí)驗(yàn)結(jié)果表明,F(xiàn)R3E在多個(gè)基準(zhǔn)上均顯著優(yōu)于強(qiáng)基線GRPO++,展現(xiàn)出更強(qiáng)的泛化與推理能力。



尤其值得注意的是,在訓(xùn)練動態(tài)分析中,F(xiàn)R3E展現(xiàn)出更持久的探索行為:其熵值衰減更緩慢,響應(yīng)長度更長,特別是在Qwen2.5-Math-7B這類已微調(diào)模型上,成功突破了傳統(tǒng)方法中熵值長期處于低位的“僵化”困境,實(shí)現(xiàn)了探索能力的再激活。



此外,通過對多次rollout結(jié)果的統(tǒng)計(jì)監(jiān)控,團(tuán)隊(duì)發(fā)現(xiàn)FR3E顯著提升了“全正確”軌跡的數(shù)量,同時(shí)大幅降低了“全錯(cuò)誤”軌跡的比例。

這表明,原本僅能部分解出或完全失敗的問題,在FR3E的訓(xùn)練機(jī)制下,逐步演化為穩(wěn)定、完整的正確解答路徑,真正實(shí)現(xiàn)了從“部分成功”到“全面突破”的躍遷。

綜上所述,F(xiàn)R3E提出了一種新穎且高效的結(jié)構(gòu)化探索范式,直面LLM在強(qiáng)化學(xué)習(xí)中“探索不足”的核心瓶頸。

通過“先返回、再探索”的兩階段設(shè)計(jì),結(jié)合高熵錨點(diǎn)識別與動態(tài)優(yōu)勢調(diào)制機(jī)制,F(xiàn)R3E不僅有效延緩了模型的過早收斂,更顯著提升了復(fù)雜推理任務(wù)中的性能上限。

實(shí)驗(yàn)充分驗(yàn)證了FR3E在多個(gè)數(shù)學(xué)推理基準(zhǔn)上的優(yōu)越性,尤其在提升探索多樣性、增強(qiáng)長程推理穩(wěn)定性方面表現(xiàn)突出。

更重要的是,該方法所體現(xiàn)的“結(jié)構(gòu)化反饋 + 自適應(yīng)調(diào)節(jié)”思想,具備良好的可擴(kuò)展性。團(tuán)隊(duì)期待FR3E所倡導(dǎo)的探索機(jī)制,能夠?yàn)槲磥泶竽P偷膹?qiáng)化學(xué)習(xí)訓(xùn)練提供新的范式參考。

論文地址:https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們,第一時(shí)間獲知前沿科技動態(tài)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
楊某媛事件反轉(zhuǎn)了?法院判錯(cuò)了?

楊某媛事件反轉(zhuǎn)了?法院判錯(cuò)了?

麥杰遜
2025-08-11 16:09:50
《花少7》首播:同住北京大平層,李沁馬思純差距大,房子即咖位

《花少7》首播:同住北京大平層,李沁馬思純差距大,房子即咖位

小楊侃事
2025-08-10 14:26:37
全球最小的發(fā)達(dá)國家,快被中國人“買”下了,中國移民占比87%

全球最小的發(fā)達(dá)國家,快被中國人“買”下了,中國移民占比87%

慎獨(dú)贏
2025-06-05 15:41:01
周侗十個(gè)傳人的先后順序:史文恭第二,林沖第三,岳飛是關(guān)門弟子

周侗十個(gè)傳人的先后順序:史文恭第二,林沖第三,岳飛是關(guān)門弟子

北夢一
2025-08-10 14:29:59
最有氣場的合影,永不再來!

最有氣場的合影,永不再來!

中國藝術(shù)家
2025-07-28 05:24:28
汽車行業(yè),即將“一邊倒”?

汽車行業(yè),即將“一邊倒”?

博聞財(cái)經(jīng)
2025-08-11 18:26:45
曝普京遭核心大將公開反對!要求結(jié)束俄烏戰(zhàn)爭

曝普京遭核心大將公開反對!要求結(jié)束俄烏戰(zhàn)爭

項(xiàng)鵬飛
2025-08-11 21:23:48
董璇的幸福藏不住,張維伊的鼻子是真的大,有生活經(jīng)驗(yàn)的人都懂

董璇的幸福藏不住,張維伊的鼻子是真的大,有生活經(jīng)驗(yàn)的人都懂

七阿姨愛八卦
2025-08-10 22:07:42
真正適合都市中年男性的10款中大型SUV

真正適合都市中年男性的10款中大型SUV

艾米手工作品
2025-08-08 02:10:02
印度航空:9月1日起,暫停飛往華盛頓的航班

印度航空:9月1日起,暫停飛往華盛頓的航班

界面新聞
2025-08-11 18:13:04
就是這個(gè)眼神,看得我腰酸背痛!

就是這個(gè)眼神,看得我腰酸背痛!

貴圈真亂
2025-07-29 10:25:11
高風(fēng)險(xiǎn)!浙江被歸類為防控I類地區(qū)!緊急提醒!

高風(fēng)險(xiǎn)!浙江被歸類為防控I類地區(qū)!緊急提醒!

新晚報(bào)
2025-08-11 07:46:58
美論壇:如果中國不再向美國出售任何東西,中國還能繼續(xù)繁榮嗎?

美論壇:如果中國不再向美國出售任何東西,中國還能繼續(xù)繁榮嗎?

小小李娛
2025-08-09 11:35:30
楊尚昆之子楊紹明簡介:不從政、不經(jīng)商,曾擔(dān)任鄧公的貼身攝影師

楊尚昆之子楊紹明簡介:不從政、不經(jīng)商,曾擔(dān)任鄧公的貼身攝影師

方圓文史
2025-07-25 15:49:12
卸任市委書記后,原中候補(bǔ)新職明確!這地同日任命政府“一把手”和公安局局長

卸任市委書記后,原中候補(bǔ)新職明確!這地同日任命政府“一把手”和公安局局長

上觀新聞
2025-08-11 16:39:09
福建殺出一只“機(jī)器人”超級牛股,A股第一,徹底燃爆!

福建殺出一只“機(jī)器人”超級牛股,A股第一,徹底燃爆!

看財(cái)經(jīng)show
2025-08-11 16:33:12
“房子有6空,順?biāo)猪橈L(fēng)”,不管房子多大,這6個(gè)地方一定要空著

“房子有6空,順?biāo)猪橈L(fēng)”,不管房子多大,這6個(gè)地方一定要空著

室內(nèi)設(shè)計(jì)師有料兒
2025-08-06 20:49:24
美專家:中國不可怕,可怕的是我們?nèi)杂弥袊那昵熬吞蕴漠a(chǎn)物

美專家:中國不可怕,可怕的是我們?nèi)杂弥袊那昵熬吞蕴漠a(chǎn)物

不寫散文詩
2025-08-11 13:17:57
全新坦克500預(yù)售36萬起!不僅有智駕,還有冰箱彩電大沙發(fā)

全新坦克500預(yù)售36萬起!不僅有智駕,還有冰箱彩電大沙發(fā)

道哥說車
2025-08-11 23:30:04
百米飛人博爾特現(xiàn)狀:退役7年生3個(gè)孩子,每年400萬美元領(lǐng)一輩子

百米飛人博爾特現(xiàn)狀:退役7年生3個(gè)孩子,每年400萬美元領(lǐng)一輩子

秋姐居
2025-08-07 19:45:24
2025-08-12 01:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11082文章數(shù) 176225關(guān)注度
往期回顧 全部

科技要聞

馬斯克xAI官宣:Grok 4向用戶免費(fèi)開放!

頭條要聞

三架飛機(jī)在俄羅斯被扣 山河智能:收到1.6億保險(xiǎn)賠款

頭條要聞

三架飛機(jī)在俄羅斯被扣 山河智能:收到1.6億保險(xiǎn)賠款

體育要聞

戰(zhàn)勝王楚欽 張本智賽后脫衣瘋狂慶祝

娛樂要聞

姚笛疑似坐文章副駕?再回看當(dāng)年

財(cái)經(jīng)要聞

增值稅法實(shí)施條例征求意見 有哪些看點(diǎn)?

汽車要聞

綜合續(xù)航超1500km 智己LS9續(xù)航信息曝光

態(tài)度原創(chuàng)

本地
游戲
房產(chǎn)
數(shù)碼
公開課

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

LPL第三階段:JDG零封FPX,逃離卡位賽

房產(chǎn)要聞

重磅!海南安居房擬出新政!申購條件,交易時(shí)間大幅調(diào)整!

數(shù)碼要聞

vivo Vision官方預(yù)熱,真的要來啦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久无码中文字幕免费影院蜜桃 | 精品免费av一区二区三区| 黑人玩弄人妻1区二区| 日本卡2卡3卡4卡5卡精品视频| 性性性性性性性久久久久久久久久| 国内精品一区二区不卡| 一区av二区| 日本猛少妇色xxxxx猛叫| 国产免费艾彩sm调教视频| 夜夜爽麻豆xxx| 天天爽夜夜爽人人爽一区二区| 透明av在线网| 色欲蜜乳熟妇精品久久| 亚洲精品一区二区在线播| 日本成人一二三高清| 国产精品免费精品自在线观看| 精品国产一区二区三区香| 大屁股白浆熟女少妇视频| 成人午夜三级| 性欧美69式xxxx| 国产精品免费大片| 日99久9在线 | 免费| 国产在线观看高清视频黄网| 人妻少妇精品视频二区| 亚洲av区真痒| 亚洲肥老太bbw中国熟女| 精品久久久久久久久久中文字幕| 成熟熟女国产精品一区二区| 四十如虎的丰满熟妇啪啪| 亚洲日韩国产成网在线观看| 欧美黑人极品猛少妇色XXXXⅩ| 九色porny注册入口| ass少妇ass少妇ass少妇| 五月婷婷丁香色| 国产精品免费麻豆入口| 亚洲首页国产精品丝袜| 俺来也综合网| 天天婷婷天天| 成人无码免费看毛片| 成人一区二区三区附近| 体育生gay自慰男男网站|