夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

擴散語言模型新發(fā)現(xiàn):其計算潛力正在被浪費?

0
分享至



機器之心報道

機器之心編輯部

按從左到右的順序依次生成下一個 token 真的是大模型生成方式的最優(yōu)解嗎?最近,越來越多的研究者對此提出質疑。其中,有些研究者已經轉向一個新的方向 —— 掩碼擴散語言模型(MDLM)。

和自回歸(AR)語言模型不同,MDLM 的訓練目標是隨機遮蔽序列中的若干位置,模型學習去 in-fill(填充)這些被遮蔽位置。這樣訓練出來的模型存在諸多優(yōu)勢,如支持任意順序解碼、多 token 并行解碼等。此前有研究表明,MDLM 的這些優(yōu)勢使其在數(shù)獨等邏輯謎題上的表現(xiàn)得到顯著提升。

然而,最近的一篇論文有了一些意外發(fā)現(xiàn):在數(shù)學和編碼任務中,任意順序算法的性能往往不如從左到右采樣,或者表現(xiàn)與之相似,而標準的多 token 解碼會顯著降低性能。即使僅在兩個 token 上進行并行解碼,模型在主流基準任務上的性能也會顯著下降。



使用 MDLM 進行從左到右的采樣是一種適用于推理和編碼的高效采樣算法。如果沒有 [Arriola et al., 2025] 提出的塊大?。╞lock sizes)來強制形成半自回歸(AR)的從左到右結構,任意順序會顯著影響性能。



MDLM 能夠并行生成多個固定 token,但這會降低準確性。作者使用塊任意順序熵解碼,并行解碼 1 個、2 個、4 個 token??梢钥吹?,除數(shù)獨外,在所有任務中,即使并行解碼兩個 token 也會導致性能顯著下降。

這一結果引發(fā)了一個問題:既然 MDLM 在訓練時投入了大量額外計算資源以建模所有被掩碼位置的聯(lián)合分布,那么這些額外的計算是否真的物有所值?



為了回答這個問題,研究者探究了如何將這些計算資源重新利用為有意義的推理與采樣能力。他們證明,MDLM 提供了對所有掩碼位置的條件分布的訪問權限,并具備填充(in-filling)能力,這一特性解鎖了傳統(tǒng) NTP 模型無法輕易實現(xiàn)的新型采樣與后訓練(post-training)機制。

首先,研究者展示了 MDLM 的填充能力如何開啟新的模型提示范式。在本文中,他們提出了「提示即填充」(prompting-as-infilling) 的方法。與 NTP 模型僅能在序列起始位置添加提示不同,這種方法允許在多個位置添加由用戶指定的上下文。

更具體地,他們提出了「推理即填充」(reasoning-as-infilling) 的框架。在該框架中,研究者預先構造了一個顯式的「推理模板」(reasoning template),其中包含特定的推理位置與答案位置(參見圖 1)。這一模板結構使得模型能夠基于給定的推理預算和格式,對推理軌跡進行采樣。



研究者發(fā)現(xiàn),基于填充的模板帶來了多項優(yōu)勢。通過顯式區(qū)分 token 答案的位置,模型可以利用 MDLM 提供的被掩碼位置的條件分布,在推理過程中量化答案的不確定性。由此,模型一旦在答案上收斂,就能夠提前退出(early exit),從而降低推理計算成本。例如,在 GSM8k 數(shù)據(jù)集上,這種方法減少了 24% 的函數(shù)調用,且模型準確率沒有任何下降。

「推理即填充」不僅帶來新的推理方式,也對模型行為分析與性能提升具有重要意義。給定一個答案,研究者就可以從 MDLM 的后驗分布中采樣,該后驗分布是以答案為條件的推理軌跡,即 p_θ (r | c, a)。

這種在 MDLM 框架下對后驗分布進行便捷采樣的能力,使得研究者能夠生成高質量的「事后推理(post-hoc reasoning)軌跡」,并將其用于模型微調,從而提升整體性能。

隨后,研究者重新審視了多 token 解碼問題。他們指出,在同一步驟中同時解碼多個位置,會導致生成樣本偏離模型學習到的真實分布,因為聯(lián)合分布與分解分布通常不一致:



為了解決這一偏差,研究者提出利用被掩碼位置的熵值來指導解碼過程,從而控制多 token 解碼相對于單 token 解碼的偏離程度。

基于這一思路,他們提出了一種自適應多 token 解碼器 ——多 token 熵解碼(MED)。該方法僅在附加位置的條件熵低于設定閾值時,才進行并行解碼。

實驗結果表明,MED 方法能夠在保持性能幾乎不變(或僅有輕微下降)的情況下,實現(xiàn) 2–3 倍的函數(shù)調用減少,顯著降低推理計算量。



  • 論文標題:No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models
  • 論文鏈接:https://arxiv.org/pdf/2510.19990

重新思考 MDLM 的推理與采樣

MDLM 通過建模被掩碼位置 j ∈ MASK-SET 的條件分布來學習對序列進行填充,其中 x_UNMASKED 表示未被掩碼的文本,c 表示上下文。



通常情況下,MDLM 的提示方式與 NTP 模型類似,而被掩碼位置的分布僅被用于在少量固定的位置進行采樣,其余位置的分布會被直接丟棄。

在本研究中,研究者表明,MDLM 所具備的填充能力,以及其對所有被掩碼位置的分布的訪問能力,開啟了許多新的采樣與后訓練潛能。

  • 推理即填充:用于控制、早退出與后訓練優(yōu)勢。 研究者提出在序列的多個部分預先填充用戶指定的提示。對于推理任務,他們首先預填一個區(qū)分推理位置與答案位置的推理模板,然后使用 MDLM 模型對其進行填充。這種提示方式使得研究者能夠在推理過程中控制推理長度,并在生成推理軌跡的同時衡量答案區(qū)塊的不確定性,以支持早退出機制。此外,他們還展示了這種方法如何為 MDLM 的后訓練提供新的研究方向。
  • 多 Token 熵解碼(MED)。研究者提出了一種自適應的多 token 解碼算法 MED。該方法通過僅在解碼位置的條件熵低于某一閾值時才同時解碼多個位置,從而控制多 token 解碼引入的誤差。

假設:研究者假設,MDLM 模型所學習到的掩碼條件分布能夠定義出一致的聯(lián)合分布。

推理即填充

一般而言,NTP 模型在推理階段的控制方式是:在序列的開頭插入一個提示前綴(prompt prefix)。然而,對于 MDLM,研究者提出可以在輸出序列中預先填充用戶指定的 token。

在推理任務中,當模型在生成最終答案之前會輸出一段推理軌跡時,研究者可以在輸出序列中預填一個區(qū)分推理 token 與答案 token 的推理模板:



其中,答案分隔符(answer delimiter) 由用戶自行指定,例如在數(shù)學任務中可以是「The answer is: 」,而在代碼生成任務中可以是函數(shù)定義等。在這種提示方式的重新表述中,上下文 c 現(xiàn)在包含了提示和答案分隔符,如圖 1 所示。通過區(qū)分推理位置與答案位置,「推理即填充」在采樣與后訓練方面都提供了多項優(yōu)勢。



2、使用「推理即填充」對 MDLM 進行后訓練

通常,對模型進行推理類后訓練需要大量昂貴的人類示范數(shù)據(jù)。有人證明基于模型自身生成的推理軌跡進行后訓練也可以提升性能。這類方法的核心思想是:從后驗分布 p_θ (r | c, a) 中采樣推理軌跡,再用這些樣本進行訓練,從而提升模型生成正確答案的概率。

然而,對于標準的 NTP 模型,從后驗分布采樣是不可行的。因此,部分研究者采用了近似采樣方法,這些方法要么需要復雜的提示設計,要么需要額外訓練一個模型來根據(jù)答案提示生成推理軌跡。

相比之下,借助 MDLM 的「推理即填充」方法,只需在輸出序列中預先填充答案塊位置,即可實現(xiàn)從后驗分布中采樣,而無需復雜提示設計或額外訓練模型。這些后驗采樣得到的推理軌跡可以用于多種后訓練方法。

3、在后訓練中對部分推理軌跡進行評分

現(xiàn)有的微調算法(如 GRPO 和 RLOO )通常不使用后驗樣本,而是僅在生成完成后對結果進行打分。這些算法可以從中間獎勵中獲益。近期研究表明,在生成過程中引入中間獎勵有助于模型采樣出更有利于微調的樣本。這些中間獎勵一般由外部的預訓練過程獎勵模型提供。而通過「推理即填充」,在已知答案的情況下,MDLM 可以在中間步驟對任意部分推理軌跡進行評分。給定部分推理軌跡 r_UNMASKED 和一個答案 a^*,可以計算其得分:



直觀上,當對于某個推理軌跡 r_UNMASKED,其生成的答案各個 token 的似然值更高時,該推理軌跡往往更有可能產生正確答案。

多 Token 熵解碼



實驗結果

使用多 token 熵解碼的加速采樣

如圖 3 所示,對于 LLaDA 和 Dream,僅并行解碼 k=2 個 token 會導致它們在 GSM8k 上的準確率大幅下降(超過 40%)。作者發(fā)現(xiàn),解碼 k=2 還會導致 KL 散度顯著增加。使用 λ=0.2 的 MED 方法,能為 LLaDA 和 Dream 帶來顯著的速度提升,且不會損失準確率。在 HUMANEVAL 上,MED 方法在實現(xiàn) 2.2 倍速度提升的同時,準確率保持不變;而在 GSM8k 上,可以觀察到其實現(xiàn)了 1.5 倍的速度提升,且性能沒有損失。



此外,在表 6 中,作者還測量了單 token 解碼方案與多 token 解碼方案的似然值之間的 KL 散度。



推理即填充的好處

在表 2 中,可以觀察到:對于 Dream 和 LLaDA 兩種模型而言,提前退出都能減少總的 NFE。隨著提前退出閾值 γ 的提高,模型能夠在犧牲一定任務精度的情況下?lián)Q取更快的推理速度。當提前退出與 MED 或 AR-MED 結合使用時,可獲得進一步的計算節(jié)省。

值得注意的是,提前退出帶來的收益在 LLaDA 模型上比 Dream 模型更顯著。Dream 模型要實現(xiàn)相似的加速效果,通常需要設定更高的退出閾值。這一差異可能源于 Dream 模型的結構與來源 —— 它是由 NTP 模型改編而來。



通過表 4 可以觀察到,在由基礎模型生成的后驗數(shù)據(jù)上對模型進行微調,顯著提升了性能(提升 14.9%)。在 GSM8k 人工標注的推理軌跡上進行微調能產生相似的結果。這些結果證明,最大化后驗推理軌跡上的對數(shù)似然可提高推理任務的準確率。



之前有研究發(fā)現(xiàn),中間過程獎勵能提升模型微調效果,但通常需要額外訓練外部模型。在圖 4 中,作者比較了在給定中間獎勵的情況下,用于估計部分推理軌跡最終正確性的各種策略。



使用 LLaDA-8B Instruct 模型,作者在 GSM8k 測試集上采用貪心采樣策略,從左到右、逐 token 生成答案。隨后,他們計算了中間獎勵與最終輸出正確性之間的 Pearson 相關系數(shù)。

在推理過程中,利用答案的對數(shù)概率定義的中間推理過程,與最終答案正確性在中間步驟上的相關性,比一個擁有 70 億參數(shù)的預訓練過程獎勵模型更強。

值得注意的是,作者還發(fā)現(xiàn),測量答案塊的對數(shù)概率有助于過濾通過后驗采樣生成的低質量推理鏈。對于一個未預填答案的后驗推理鏈,其 MDLM 平均答案概率能夠預測 GPT-4o 的推理鏈正確性得分。

這些結果表明,MDLM 預訓練帶來了新的后訓練能力:

  • 可以提前終止或過濾低質量的推理鏈;
  • 可以引導推理過程朝正確解方向發(fā)展;
  • 可以在推理失敗處自動插入「反思」token;
  • 還可以將新的密集反饋信號納入微調目標中。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
未來12場10個客場!追夢:我們的賽程簡直是瘋了 感謝聯(lián)盟辦公室

未來12場10個客場!追夢:我們的賽程簡直是瘋了 感謝聯(lián)盟辦公室

蘭亭墨未干
2025-10-31 05:12:02
一旦開啟武統(tǒng),大陸和臺灣誰先垮?柯文哲:大陸恐怕?lián)尾贿^兩周。

一旦開啟武統(tǒng),大陸和臺灣誰先垮?柯文哲:大陸恐怕?lián)尾贿^兩周。

明月文史
2025-10-10 12:23:09
歹徒綁架女富婆,將其強奸,3天后歹徒卻哭著說:錢不要了你快走吧

歹徒綁架女富婆,將其強奸,3天后歹徒卻哭著說:錢不要了你快走吧

懸案解密檔案
2025-10-21 09:31:32
歐盟內訌!匈牙利斯洛伐克捷克三國聯(lián)手,或公開成立反烏克蘭聯(lián)盟

歐盟內訌!匈牙利斯洛伐克捷克三國聯(lián)手,或公開成立反烏克蘭聯(lián)盟

云舟史策
2025-10-31 07:29:07
工程院院士候選人劉建國被爆把單位成果給兒子報獎,論文“套娃”發(fā)表?

工程院院士候選人劉建國被爆把單位成果給兒子報獎,論文“套娃”發(fā)表?

學術星球
2025-10-30 21:04:07
記者先探“蘇超”決賽彩排,400人旗陣威武! 南通泰州隊已抵寧,巔峰對決即將打響

記者先探“蘇超”決賽彩排,400人旗陣威武! 南通泰州隊已抵寧,巔峰對決即將打響

揚子晚報
2025-10-30 20:38:09
一年繳納1.2萬元養(yǎng)老保費,浙江省靈活就業(yè)繳費20年能領多少錢?

一年繳納1.2萬元養(yǎng)老保費,浙江省靈活就業(yè)繳費20年能領多少錢?

暖心人社
2025-10-30 22:04:21
《自然》子刊:人類進入太空前,太空里就有“人”在監(jiān)視我們?!

《自然》子刊:人類進入太空前,太空里就有“人”在監(jiān)視我們?!

星空天文
2025-10-31 08:24:57
小伙相中相親對象的二婚大姐,網友:換成我,也這么選

小伙相中相親對象的二婚大姐,網友:換成我,也這么選

荔子言
2025-10-29 22:46:06
巴西總統(tǒng)宣布將與美國就關稅問題進行談判

巴西總統(tǒng)宣布將與美國就關稅問題進行談判

每日經濟新聞
2025-10-27 07:45:33
初三學生被霸凌者打斷肋骨,母親不去派出所,隔天校園來六輛商務車

初三學生被霸凌者打斷肋骨,母親不去派出所,隔天校園來六輛商務車

懸案解密檔案
2025-10-21 09:24:49
荷蘭官員:安世產權不能都歸中國,強搶是必要之惡,也是唯一選項

荷蘭官員:安世產權不能都歸中國,強搶是必要之惡,也是唯一選項

簡讀視覺
2025-10-30 11:06:57
這是吳石將軍犧牲時的真實照片,繩子繞頸,害怕他臨刑時大喊口號

這是吳石將軍犧牲時的真實照片,繩子繞頸,害怕他臨刑時大喊口號

大國紀錄
2025-10-30 09:56:59
全國多地出現(xiàn)負電價,最低價格為-50元/兆瓦時(即-0.05元/度)!呈現(xiàn)“從單點到多省、從短時到長時”的趨勢

全國多地出現(xiàn)負電價,最低價格為-50元/兆瓦時(即-0.05元/度)!呈現(xiàn)“從單點到多省、從短時到長時”的趨勢

和訊網
2025-10-30 16:22:05
反轉,埃奇庫姆突爆強勢發(fā)言!恩比德很意外,球迷:逼宮當老大了

反轉,埃奇庫姆突爆強勢發(fā)言!恩比德很意外,球迷:逼宮當老大了

阿泰希特
2025-10-30 14:23:46
6死!成都一輛面包車凌晨撞貨車,事發(fā)時司機跳車,更多信息流出

6死!成都一輛面包車凌晨撞貨車,事發(fā)時司機跳車,更多信息流出

火山詩話
2025-10-31 04:33:17
何捷終于不用再裝了,現(xiàn)在全網都知道了,他才是吃得最好的那個!

何捷終于不用再裝了,現(xiàn)在全網都知道了,他才是吃得最好的那個!

樂悠悠娛樂
2025-10-30 15:27:56
又一起,只好苦一下弱者了?

又一起,只好苦一下弱者了?

觀人隨筆
2025-10-30 10:53:47
被女巨人的新游最新截圖:性感比基尼美女破壞城市!

被女巨人的新游最新截圖:性感比基尼美女破壞城市!

游民星空
2025-10-29 13:30:13
新規(guī)落地半月!濟南這些違規(guī)行為受罰了

新規(guī)落地半月!濟南這些違規(guī)行為受罰了

萊蕪福禧今日信息
2025-10-31 06:32:11
2025-10-31 09:00:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11611文章數(shù) 142495關注度
往期回顧 全部

科技要聞

蘋果日賺22億,庫克最大的煩惱是賣斷貨

頭條要聞

90歲老人自駕3000公里去海南:上次撞車是六七年前

頭條要聞

90歲老人自駕3000公里去海南:上次撞車是六七年前

體育要聞

里夫斯送壓哨絕殺比肩韋斯特 你的里皇 確實猖狂!

娛樂要聞

江一燕自曝離婚,前夫身份曝光

財經要聞

英偉達的泡沫,或許能再吹5萬億美元

汽車要聞

最新鴻蒙座艙/AI云舒座椅 嵐圖泰山內飾官圖發(fā)布

態(tài)度原創(chuàng)

本地
游戲
旅游
公開課
軍事航空

本地新聞

全網圍觀,到底多少人被這個野人大學生笑瘋了

《午夜以南》女主配音演員:黑人女性值得被講述!

旅游要聞

盼了好久的桂花,終于開了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄官宣“末日魚雷”完成核動力試驗

無障礙瀏覽 進入關懷版 久久中文字幕人妻丝袜| 欧美人与动牲交a精品| 性高潮久久久久久| 欧美性爱综合网| 99福利资源久久福利资源 | 精品视频不卡免费观看| 青青草无码免费一二三区| XXXX互换人妻中国69| 天天爱天天做天天添天天欢| 亚洲短视频专区| 特黄熟妇丰满人妻无码| 国产成人久久精品二三区| 亚洲日本久久久| 位美女人人操人人| 4hu四虎永久在线观看| 东北女人一级毛片免费观看| 久久黄色av| 国产成人精品高清在线观看99| 亚洲精品一区二区18禁| 精品卡一卡二卡三卡四视频版| 亚洲 欧美 日韩 综合aⅴ视频| 欧美成人作品在线观看| 亚洲欧洲精品成人久久曰影片| 被黑人猛躁十次| 色男人天堂2024| 九九热九九操| 黄色国产视频| 日韩电影无码| 久久久国产精品一区二区18禁| 久久无码麻豆日韩精品| 又大又粗又爽的少妇免费视频| 美国毛片香港毛片| 久久永久视频| 99国产**精品****| 亚洲人成网站77777在线观看 | 日本高清中文字幕免费一区二区| 噜噜久久综合无码| 国产欧美日韩一区二区三区| 国产人妻丰满熟妇嗷嗷叫| 免费的国产成人av网站装睡的| 女人18片毛片60分钟|