夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達(dá)幫你省錢,讓大模型推理「短而精」,速度快5倍

0
分享至



大模型推理到底要不要「長篇大論」?過去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「長鏈思維」玩到極致:答案更準(zhǔn)了,但代價是推理鏈越來越長、Token 消耗爆炸、響應(yīng)速度驟降。

如果 scale-up 長鏈思維是通往 AGI 的路徑,那么現(xiàn)有思維鏈的冗長問題是我們亟待解決的。

那么,能不能讓模型「少說廢話」,既快又準(zhǔn)?

過去的嘗試大多失?。焊鞣N復(fù)雜的長度懲罰(Length Penalty)要么讓模型亂答,要么訓(xùn)練不穩(wěn)定,結(jié)果就是效率提升了,準(zhǔn)確率卻掉了。

現(xiàn)在,英偉達(dá)研究院的最新研究給出了答案:關(guān)鍵不在于設(shè)計多復(fù)雜的懲罰,而在于用對強(qiáng)化學(xué)習(xí)優(yōu)化方法。



  • 論文標(biāo)題:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning
  • 論文鏈接: https://arxiv.org/html/2510.15110v1
  • 項目主頁: https://nvlabs.github.io/DLER/



DLER 來了!推理模型的「減長秘籍」


DLER 首先是細(xì)致及全面了分析了引入長度懲罰之后出現(xiàn)的新的強(qiáng)化學(xué)習(xí)訓(xùn)練問題,包括:

  • Reward 信號方差增大
  • 「Aha Moment」詞不當(dāng)處理帶來的熵塌縮
  • 訓(xùn)練信號過度稀疏 (剛開始訓(xùn)練的時候大部分生成都超過了預(yù)設(shè)長度)

對于這些問題,DLER 提出了一套簡單卻強(qiáng)大的強(qiáng)化學(xué)習(xí)訓(xùn)練配方:

  • Advantage normalization with local mean and batch std:替代 GRPO,穩(wěn)定訓(xùn)練信號,避免因截斷懲罰帶來的高方差。
  • Higher clip:提升高熵探索,防止模型「思想僵化」。
  • Dynamic sampling:丟掉無效樣本,聚焦真正有價值的推理路徑。
  • Truncation penalty:最簡單的「截斷懲罰」,不給超長輸出任何獎勵。

基于 DLER 這套訓(xùn)練方法,得到的模型結(jié)果令人震驚。新模型產(chǎn)生的推理長度竟然可以減少 70% 以上,但準(zhǔn)確率完全保持。在 AIME-24 數(shù)學(xué)基準(zhǔn)上,DLER-Qwen-R1-7B 平均僅用 3230 Tokens 就達(dá)到 55.6% 準(zhǔn)確率,而 DeepSeek-R1-7B 要花 13241 Tokens 才能做到 55.4%。



DLER 不僅實(shí)現(xiàn)了回復(fù)問題更短的輸出,更是從另外角度增加了每 token 的智能含量。 在同樣的推理時間內(nèi),相比于傳統(tǒng)的推理模型只能生成一條冗長推理,DLER 模型能并行生成幾十條簡明推理,最終準(zhǔn)確率比 DeepSeek-R1 高出近 50%。這一實(shí)驗(yàn)也意味著高效推理才是 Test-time Scaling 的關(guān)鍵。

關(guān)鍵發(fā)現(xiàn)


DLER 的研究揭示了幾個顛覆性結(jié)論:

  • 推理效率的提升,不取決于懲罰設(shè)計的復(fù)雜度,而取決于優(yōu)化算法的選擇。
  • 過去大家以為 RL 長度懲罰「必然掉準(zhǔn)確率」,其實(shí)只是因?yàn)閮?yōu)化方法沒選對。
  • 簡單的截斷懲罰 + 正確的優(yōu)化器,就能讓模型學(xué)會「短而精」的思考方式。

更令人驚喜的是,DLER 不僅適用于小模型,在大模型上同樣奏效。研究團(tuán)隊還提出了權(quán)重選擇性合并(magnitude-selective weight merging),解決了大模型用公開數(shù)據(jù)微調(diào)時的性能下降問題:既能恢復(fù)全部準(zhǔn)確率,又能保持近一半的長度壓縮。

總結(jié)


這項來自 NVIDIA 的最新工作,讓我們重新認(rèn)識了推理模型的未來方向。首先,推理模型不能只是一味拉長推理鏈條,而是需要更聰明、更高效地思考。其次,通過 DLER,模型能以更少的 Tokens、更短的時間,做到更高的準(zhǔn)確率。 如果說之前的研究 ProRL 讓模型「開竅」,那么 DLER 就是幫模型「瘦身健身」,讓它們更快、更強(qiáng)、更實(shí)用。未來在實(shí)際部署中,DLER 無疑會成為讓推理模型真正落地的關(guān)鍵技術(shù)之一。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
荷蘭政府花200億挽留無效,光刻機(jī)巨頭ASML為何執(zhí)意從老家搬走?

荷蘭政府花200億挽留無效,光刻機(jī)巨頭ASML為何執(zhí)意從老家搬走?

凡知
2025-11-06 11:38:13
一場3-1誕生大黑馬:歐戰(zhàn)4場全勝,力壓維拉羅馬,排名第1

一場3-1誕生大黑馬:歐戰(zhàn)4場全勝,力壓維拉羅馬,排名第1

足球狗說
2025-11-07 07:42:42
邵佳一身邊的德國師父,國足需要他

邵佳一身邊的德國師父,國足需要他

懂球帝
2025-11-06 17:40:14
7個行業(yè),真的頂不住了!裁員、倒閉、轉(zhuǎn)行潮正全面爆發(fā)

7個行業(yè),真的頂不住了!裁員、倒閉、轉(zhuǎn)行潮正全面爆發(fā)

搬磚營Z
2025-10-21 14:05:11
“深刻認(rèn)識新形勢”!省委書記赴一線了解情況,明確突圍方向

“深刻認(rèn)識新形勢”!省委書記赴一線了解情況,明確突圍方向

政知新媒體
2025-11-06 22:21:03
王陽明悟道:人這一生,所謂的開悟,不過是想通了3件事

王陽明悟道:人這一生,所謂的開悟,不過是想通了3件事

金沛的國學(xué)筆記
2025-11-04 15:30:00
瓜帥撿到寶了!曼城新援8場獨(dú)造6球 轉(zhuǎn)會費(fèi)僅花3650萬

瓜帥撿到寶了!曼城新援8場獨(dú)造6球 轉(zhuǎn)會費(fèi)僅花3650萬

球事百科吖
2025-11-06 18:19:05
美軍航母不行了,怪中國衛(wèi)星?美國要部署新電子干擾武器

美軍航母不行了,怪中國衛(wèi)星?美國要部署新電子干擾武器

兵國大事
2025-11-06 00:05:14
滬上皇秦奮獨(dú)自在上海吃創(chuàng)意菜,37歲依然追逐時尚雙眼無神有點(diǎn)呆

滬上皇秦奮獨(dú)自在上海吃創(chuàng)意菜,37歲依然追逐時尚雙眼無神有點(diǎn)呆

小娛樂悠悠
2025-11-06 15:12:07
韋神都很難與她同框,北大女?dāng)?shù)學(xué)家又拿獎了,她到底有多神秘?

韋神都很難與她同框,北大女?dāng)?shù)學(xué)家又拿獎了,她到底有多神秘?

暖心萌阿菇?jīng)?/span>
2025-11-06 04:28:05
23分16板10助!就在今天,4項前無古人的NBA紀(jì)錄被威少達(dá)成了

23分16板10助!就在今天,4項前無古人的NBA紀(jì)錄被威少達(dá)成了

世界體育圈
2025-11-06 14:29:13
演員陳龍新身份曝光!原來是上影劇團(tuán)副團(tuán)長,事業(yè)低調(diào)深藏不露

演員陳龍新身份曝光!原來是上影劇團(tuán)副團(tuán)長,事業(yè)低調(diào)深藏不露

楓塵余往逝
2025-11-06 05:27:22
深夜,芯片大消息!巨頭直線拉升!

深夜,芯片大消息!巨頭直線拉升!

證券時報
2025-11-07 00:03:03
ESPN:伊薩洛當(dāng)著全隊指出了莫蘭特缺乏努力和領(lǐng)導(dǎo)力的問題

ESPN:伊薩洛當(dāng)著全隊指出了莫蘭特缺乏努力和領(lǐng)導(dǎo)力的問題

北青網(wǎng)-北京青年報
2025-11-07 07:47:02
風(fēng)雨之夜托孤,歐洲在中國“備份德國”,何其悲愴壯烈!

風(fēng)雨之夜托孤,歐洲在中國“備份德國”,何其悲愴壯烈!

卷史
2025-11-06 08:44:25
網(wǎng)傳相聲表演要備案?只聽正能量相聲,要守規(guī)矩笑,不能現(xiàn)掛?

網(wǎng)傳相聲表演要備案?只聽正能量相聲,要守規(guī)矩笑,不能現(xiàn)掛?

眼光很亮
2025-11-05 09:46:00
你坐火車時遇到哪些奇葩經(jīng)歷?網(wǎng)友:對,人間煙火氣最令人著迷

你坐火車時遇到哪些奇葩經(jīng)歷?網(wǎng)友:對,人間煙火氣最令人著迷

帶你感受人間冷暖
2025-11-06 00:05:14
亞冠激烈沖突!張玉寧遭“胯下之辱”,法比奧暴怒,6人互相推搡

亞冠激烈沖突!張玉寧遭“胯下之辱”,法比奧暴怒,6人互相推搡

奧拜爾
2025-11-06 21:06:17
一個十分殘酷的事實(shí):國產(chǎn)數(shù)據(jù)庫,國產(chǎn)系統(tǒng),90%基于美國開源改造

一個十分殘酷的事實(shí):國產(chǎn)數(shù)據(jù)庫,國產(chǎn)系統(tǒng),90%基于美國開源改造

侃故事的阿慶
2025-11-06 06:06:17
浦東嘉里中心偶遇奚夢瑤,她個子好高像巨人一樣但長相不是很漂亮

浦東嘉里中心偶遇奚夢瑤,她個子好高像巨人一樣但長相不是很漂亮

鄉(xiāng)野小珥
2025-11-07 00:05:57
2025-11-07 08:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11665文章數(shù) 142499關(guān)注度
往期回顧 全部

科技要聞

小鵬機(jī)器人里藏真人?何小鵬發(fā)一鏡到底視頻

頭條要聞

"一鍵投誠"APP在臺灣引熱議 臺當(dāng)局破防

頭條要聞

"一鍵投誠"APP在臺灣引熱議 臺當(dāng)局破防

體育要聞

送走兩位全明星,公牛成了東部第一

娛樂要聞

“黑料纏身”的白百何 誰給她的勇氣?

財經(jīng)要聞

南銀法巴加速發(fā)展背后:資金饑渴癥待解

汽車要聞

是我眼花了么?怎么大猩猩都來參加新車發(fā)布了?

態(tài)度原創(chuàng)

教育
家居
房產(chǎn)
游戲
藝術(shù)

教育要聞

假如你11月才備考四六級覺得來不及

家居要聞

別樣府院 暢享詩意生活

房產(chǎn)要聞

錨定居住新趨勢!廣佛新世界重構(gòu)灣區(qū)“理想生活投資學(xué)”

夢幻西游風(fēng)少逆天預(yù)判助寶哥團(tuán)隊拿狀元,歐皇鑒定130頭連出極品

藝術(shù)要聞

Omar Ortiz 2025作品,墨西哥當(dāng)代極簡超寫實(shí)畫家

無障礙瀏覽 進(jìn)入關(guān)懷版 被拉到野外强要好爽| 国产在线日本| 亚洲日韩欧美成人永久在线| 无码成人AAAAA毛片男男| 一区二区免费视频播放器 | 久久久精品成人| 成熟闷骚女邻居引诱2| 在线精品国产成人综合| 久99久热这里有精品免费阅读| 丰满人妻一区二区三区无码av| avtt一区| 日韩一区二区三区高清电影| 波多野结衣一区二区三区aV高清| 亚洲欧美中文字幕日韩一区二区| 久久久久久国产精品网站| 麻豆果冻传媒精品国产av| 你懂的永久免费| 国产精品自产拍在线18禁| 熟女轮奸一区| 午夜国人精品| 国产精品无码作爱| 女人下边被添全过视频的网址| 亚洲69网站| 肏逼嗷嗷喷水视频免费看| 熟女肥臀白浆大屁| 亚洲国产精品久久久天堂麻豆宅男| WWW爱上熟女一区二区| 影视四色在线观看| 亚洲精品中文字幕乱码| 又大又粗的久久久精品少妇AV| 国产日本欧美在线视频一区| 亚洲 精品 综合 精品 自拍| 国内精品国产成人国产三级| 337p日本欧洲亚洲大胆裸体艺术| 国模精品一区二区三区四区 | 国产婷婷一区二区三区久久| 欧美性开放bbw| 欧洲亚洲精品久久久久| 成人无码亚洲精品无码| 99热热色色| 欧美日韩一区二区中文成人|