夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

掩碼生成到「再掩碼」訓練:RemeDi讓擴散語言模型學會糾正與反思

0
分享至



近期,擴散語言模型備受矚目,提供了一種不同于自回歸模型的文本生成解決方案。為使模型能夠在生成過程中持續(xù)修正與優(yōu)化中間結(jié)果,西湖大學 MAPLE 實驗室齊國君教授團隊成功訓練了具有「再掩碼」能力的擴散語言模型(Remasking-enabledDiffusion Language Model,RemeDi9B)。在擴散去噪的多步過程中,通過進行再掩碼 SFT 和 RL 訓練,為每個 token 輸出一個去掩碼置信度,RemeDi 能夠從序列中已經(jīng)生成的內(nèi)容中識別無法確定的位置進行再掩碼(remask),從而修正錯誤內(nèi)容并提升文本質(zhì)量,在各方面都超越了現(xiàn)有的擴散語言模型。該模型還具有可變長生成(variable-length generation)能力,打破了現(xiàn)有中大規(guī)模擴散語言模型僅支持定長生成的限制,提高了模式能力的靈活性。



  • 論文地址:https://arxiv.org/abs/2509.23653
  • 代碼與模型地址:https://github.com/maple-research-lab/RemeDi

背景

擴散語言模型已成為自回歸語言模型的有力替代方案。這一類方法首先定義了一個將文本逐步破壞為噪聲的前向過程,然后讓模型學習從噪聲中恢復出干凈文本的逆向過程。在這一類方法中,當前最主流的是基于掩碼的擴散語言模型。該方案要求模型在訓練中學習恢復被掩碼的 token,而已經(jīng)被恢復的 token 則在之后的生成步驟中保持不變,直到生成結(jié)束。這其中蘊含了一則假設:每一步中預測的 token 都必然是正確的,無需修正,直接可以當作最后的生成內(nèi)容。這一假設顯然過于理想 —— 生成過程中,模型不可避免地會產(chǎn)生預測錯誤,而我們應當賦予模型通過自我反思發(fā)現(xiàn)并修正這些錯誤的能力。

為解決這一問題,提出一種面向擴散語言模型的自我反思式生成范式 —— 再掩碼(remask),并基于這一范式訓練了具有「再掩碼」能力的擴散語言模型 RemeDi。如圖所示,RemeDi 具備發(fā)現(xiàn)錯誤 token,并通過再掩碼將其修正的能力:模型首先生成了 “l(fā)eft”,但隨后在生成完整句子的語義表示時,發(fā)現(xiàn) “l(fā)eft for the pies” 這一表述與實際含義不符,因此,將 “l(fā)eft” 一詞再掩碼,修改為更合適的 “used”??梢钥闯?,通過再掩碼,模型能利用在后續(xù)步驟中生成的上下文信息,識別較早步驟中存在的錯誤,將其改正,并基于更豐富的上下文信息進行更精確的預測。



用置信度識別「再掩碼」目標

為了讓 RemeDi 能夠通過再掩碼修改已經(jīng)生成的文本內(nèi)容,一個核心的挑戰(zhàn)是讓模型能夠找到需要修改的 token,執(zhí)行再掩碼操作。為此,我們對網(wǎng)絡結(jié)構(gòu)進行了修改,讓其在預測序列中每個 token 輸出分布的同時,能夠為每個 token 額外預測一個置信度分數(shù)。整個模型采用了一種雙流協(xié)同的模型結(jié)構(gòu):







此外,在語言生成任務中,許多場景下的輸出并非固定長度。如果模型只能在固定長度下生成,將導致資源浪費或生成結(jié)果被壓縮、截斷。因此,使擴散語言模型具備靈活的不定長生成能力(variable-length generation)是必要的。在 RemeDi 中,我們采用分塊自回歸生成的方法實現(xiàn)這一點:模型每次會通過一個完整的反向擴散過程生成一段長為 L=32 的序列。完成后,如果該序列中沒有生成結(jié)束符,則將已生成的這一段序列拼接在上下文中,繼續(xù)往后生成下一段長為 L=32 的序列,如此重復直到生成結(jié)束符為止。與自回歸模型類似,我們采用分塊因果注意力掩碼機制,確保在生成時,每個 token 能看到自己所在的 block 內(nèi)的其他 token,和之前已生成 block 內(nèi)的 token,而無法看到未來將要生成的 block。



在實驗中,我們基于 LLaDA 的權(quán)重繼續(xù)訓練,將其改造成一個具有不定長生成能力的分塊擴散模型。上面表 4 中的 baseline 模型即展示了不定長生成模型在經(jīng)過再掩碼訓練前的性能。

兩階段訓練,賦予「再掩碼」能力

1.Remask SFT(監(jiān)督微調(diào)階段)

傳統(tǒng)的掩碼擴散語言模型通常通過在輸入序列上隨機掩碼進行有監(jiān)督微調(diào)(SFT)。與之不同的是,RemeDi 在反向擴散過程中還需要能夠找到潛在的不正確 token 并再掩碼。我們在 SFT 過程中將這類不正確 token 視為除掩碼 token 之后的第二類噪聲。因此,在 SFT 階段,我們不僅要訓練模型從掩碼 token 恢復原文本的能力,同時也需要訓練識別那些需要再掩碼的不正確 token。



由于在反向擴散過程中,噪聲水平(定義為 mask token 的數(shù)量)應當單調(diào)遞減。由于在 SFT 設計中,長度為 L 的輸入序列中,所有不正確 token 都必須被重新掩碼,因此需要滿足以下不等式約束:



以確保輸出中掩碼位置的數(shù)量單調(diào)減少。若該不等式不成立,則在下一步重新掩碼所有不正確 token 會增加總的掩碼數(shù)量,從而違反擴散過程中掩碼比例應逐步減少的基本原則。







整個再掩碼微調(diào)算法流程如下圖:



2.Remask RL(強化學習階段)

在完成 Remask SFT 訓練后,我們進一步通過基于結(jié)果的強化學習對模型進行微調(diào)。根據(jù)實驗室先前的研究,反向擴散過程中的每一步中間結(jié)果都可以視為大模型的一個「思考」步驟,而基于結(jié)果的強化學習可以優(yōu)化整個生成軌跡,提升模型生成正確最終答案的概率。這種面向擴散語言模型的大模型推理范式稱為擴散式「發(fā)散思維鏈」,在機器之心的往期報道中已有詳細闡述。(與Gemini Diffusion共振!首個擴散式「發(fā)散思維鏈」來了)

















實驗結(jié)果

在同規(guī)模與相近計算預算下,RemeDi 在數(shù)學推理、代碼生成與通用問答三類任務上均取得穩(wěn)定提升。其中,僅采用 Remask SFT 帶來顯著增益;在此基礎上加入 Remask RL,多數(shù)基準再獲得進一步提升。





我們在不同類型的任務上對再掩碼次數(shù)進行了統(tǒng)計,可以看出:對輸出約束更強的任務(如代碼生成)會更頻繁觸發(fā)再掩碼。



而具體的生成示例也表明,通過再掩碼機制,RemeDi 可以實現(xiàn)糾錯、插入、刪除等多種文本修改手段。





總結(jié)

這篇文章介紹了由西湖大學 MAPLE 實驗室推出的,具有再掩碼反思機制的擴散語言模型,RemeDi?;陬~外的置信度預測,RemeDi 能夠識別生成過程中的錯誤,并通過「再掩碼」機制重新預測,從而做到生成過程中的自我反思與優(yōu)化。針對「再掩碼」機制設計的有監(jiān)督訓練與強化學習算法確保了這一機制的有效性。實驗結(jié)果表明 RemeDi 在數(shù)學推理、代碼生成、通用知識問答等多個任務上都取得了超越其他擴散語言模型的性能。這些結(jié)果說明「再掩碼」能有效提升擴散語言模型的文本生成質(zhì)量,值得進一步探討。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為何不選女婿做接班人?曹德旺:因為曹暉是我兒子,女婿履歷被扒

為何不選女婿做接班人?曹德旺:因為曹暉是我兒子,女婿履歷被扒

180視角
2025-10-16 22:18:29
女歌手演唱會突然被取消!主辦方表示票房無法覆蓋成本,其上海站仍在正常售票

女歌手演唱會突然被取消!主辦方表示票房無法覆蓋成本,其上海站仍在正常售票

魯中晨報
2025-10-16 16:12:11
章澤天倫敦看展!穿搭老錢范兒,直接放生圖,真人老了卻更松弛了

章澤天倫敦看展!穿搭老錢范兒,直接放生圖,真人老了卻更松弛了

一只番茄魚
2025-10-16 13:05:52
沒有過性生活的人更孤獨更不快樂!性缺失相關的基因也在被“淘汰”

沒有過性生活的人更孤獨更不快樂!性缺失相關的基因也在被“淘汰”

爆角追蹤
2025-10-16 12:03:35
上次刑拘37天,這回失聯(lián)8小時,陶醫(yī)生的精彩故事!

上次刑拘37天,這回失聯(lián)8小時,陶醫(yī)生的精彩故事!

疫苗與科學
2025-10-16 12:57:00
同樣都是25屆的新秀中鋒,楊瀚森和馬魯阿奇季前賽數(shù)據(jù)對比!

同樣都是25屆的新秀中鋒,楊瀚森和馬魯阿奇季前賽數(shù)據(jù)對比!

田先生籃球
2025-10-16 12:21:38
又一產(chǎn)品暴雷!央視檢出超90%含有神經(jīng)毒素,很多人還在天天用

又一產(chǎn)品暴雷!央視檢出超90%含有神經(jīng)毒素,很多人還在天天用

攬星河的筆記
2025-10-16 19:20:29
董路狂批:某些跪著的中國人為日本足球癲狂,這是病,必須得治!

董路狂批:某些跪著的中國人為日本足球癲狂,這是病,必須得治!

風過鄉(xiāng)
2025-10-16 12:45:49
噴水女王須田凜夢:“三高選手”,高含水量、高接受度、高產(chǎn)量

噴水女王須田凜夢:“三高選手”,高含水量、高接受度、高產(chǎn)量

一代文嚎
2025-09-02 09:39:12
15歲初中生殺害女同學,嫉妒對方學習好,家庭優(yōu)越,兇手下跪求饒

15歲初中生殺害女同學,嫉妒對方學習好,家庭優(yōu)越,兇手下跪求饒

180視角
2025-10-16 09:33:05
高層智囊預警中美關系最惡情形,至今寫得最理性的文章

高層智囊預警中美關系最惡情形,至今寫得最理性的文章

霹靂炮
2025-10-16 22:10:15
玄學提醒:善在臉,富記腰,真正有福氣的人,身上都有這5個特征

玄學提醒:善在臉,富記腰,真正有福氣的人,身上都有這5個特征

詩詞中國
2025-10-15 19:01:32
27歲白俄羅斯女子被高薪模特招聘騙到緬北,家屬被告知“已火化”

27歲白俄羅斯女子被高薪模特招聘騙到緬北,家屬被告知“已火化”

紅星新聞
2025-10-16 14:36:19
腳踏4只船,毆打前女友!曾被張頌文力捧的他,被警方立案調(diào)查!

腳踏4只船,毆打前女友!曾被張頌文力捧的他,被警方立案調(diào)查!

白面書誏
2025-10-16 14:23:42
朝鮮女子懷孕,確認是志愿軍連長所為,團長批示了8個字

朝鮮女子懷孕,確認是志愿軍連長所為,團長批示了8個字

蘭姐說故事
2025-09-17 10:10:06
網(wǎng)傳新娘給攝影師錯發(fā)消息,內(nèi)容炸裂住址和價格曝光,警方回應

網(wǎng)傳新娘給攝影師錯發(fā)消息,內(nèi)容炸裂住址和價格曝光,警方回應

烏娛子醬
2025-10-16 14:45:35
52歲影后顏丙燕首次公開戀情,男友小她20歲,已相戀5年,對方要求兩人出門必須手拉手

52歲影后顏丙燕首次公開戀情,男友小她20歲,已相戀5年,對方要求兩人出門必須手拉手

極目新聞
2025-10-15 22:55:49
原來體制內(nèi)也有狠人啊!網(wǎng)友:穿一身孝服來開會,領導屁都不敢放

原來體制內(nèi)也有狠人啊!網(wǎng)友:穿一身孝服來開會,領導屁都不敢放

夜深愛雜談
2025-10-15 20:37:39
如果這是真的,那中國的教育將走向何處…

如果這是真的,那中國的教育將走向何處…

慧翔百科
2025-10-16 16:41:19
中美貿(mào)易戰(zhàn)一錘定音!10月16日,深夜爆出四大消息已正式出爐!

中美貿(mào)易戰(zhàn)一錘定音!10月16日,深夜爆出四大消息已正式出爐!

娛樂八卦木木子
2025-10-17 02:08:00
2025-10-17 05:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11483文章數(shù) 142484關注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級” 團隊

頭條要聞

俄美總統(tǒng)時隔近兩月再通話:時長2.5小時 細節(jié)公布

頭條要聞

俄美總統(tǒng)時隔近兩月再通話:時長2.5小時 細節(jié)公布

體育要聞

人口5.5萬,他們還在延續(xù)世界杯的夢想

娛樂要聞

還清債務的劉濤 已走上了另一條大道

財經(jīng)要聞

愛爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

提問蓮花馮擎峰:如何保證事故后車門正常開啟?

態(tài)度原創(chuàng)

游戲
藝術
時尚
數(shù)碼
親子

微軟曝光下一代Xbox研發(fā)地!神秘實驗室首次亮相

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

一下老了30歲?!她真讓人認不出

數(shù)碼要聞

2025網(wǎng)易《未來公開課》:暢談AI深度連接現(xiàn)實與未來

親子要聞

42歲高齡產(chǎn)婦剖腹產(chǎn)喜得貴子,正要關腹時,產(chǎn)婦虛弱抬起手:等等

無障礙瀏覽 進入關懷版 97超碰大香蕉| 亚洲国产综合区| 成人拍拍拍无遮挡免费视频| 老熟女乱伦网| 97视频| 久久九九99| 亚洲AV三级片网站| 狠狠做五月深爱婷婷天天综合| 山东熟女啪啪哦哦叫| 国产精品麻豆va在线播放| 亚洲精品一区国产精品丝瓜| 国产色无码网站无码视频在线| 日本老女人一区二区| 不卡无码人妻一区二区三区| 欧美亚洲视频小说人间极品| 黄色无码在线观看| 亚洲欧洲精品a片久久99 | 影音先锋色站| 国产 欧美 日韩成人在线| 国产成人情侣激情视频| 亚洲欧美日韩精品久久奇米色影视| 7777米奇影视一区二区三区| 日本三级韩国三级欧美三级| 久久水蜜桃亚洲av无码精品麻豆 | 亚洲二区中文字幕在线| 国精品无码AV人妻受辱系| 国产精品美女www爽爽爽视频| 日韩美av二区| 免费看成人毛片无码视频| 大学生疯狂高潮呻吟免费视频| 成人无码区免费AⅤ片www软件| 成人无码视频在线观看大全| 8videosex性欧美| 日本黄色一区二区三区| 热99久久国产| 国产亚洲色视频在线| 国产熟人av一二三区| 中文在线综合| 国语偷拍视频一区二区三区| 制服丝袜有码中文字幕在线| 熟妇激情自拍|