夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擴散LLM推理新范式:打破生成長度限制,實現(xiàn)動態(tài)自適應(yīng)調(diào)節(jié)

0
分享至



隨著 Gemini-Diffusion,Seed-Diffusion 等擴散大語言模型(DLLM)的發(fā)布,這一領(lǐng)域成為了工業(yè)界和學(xué)術(shù)界的熱門方向。但是,當(dāng)前 DLLM 存在著在推理時必須采用預(yù)設(shè)固定長度的限制,對于不同任務(wù)都需要專門調(diào)整才能達(dá)到最優(yōu)效果。

為了解決這一本質(zhì)的問題,香港中文大學(xué) MMLab,上海 AI 實驗室等提出 DAEDAL,賦予 DLLM 可以根據(jù)問題的具體情況自主調(diào)整回答長度的能力,彌補了 DLLM 與自回歸 LLM 的關(guān)鍵差距,為更靈活、高效、強大的擴散大語言模型打下了基石。



  • 論文標(biāo)題:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
  • 論文地址:https://arxiv.org/abs/2508.00819
  • 代碼地址:https://github.com/Li-Jinsong/DAEDAL

DAEDAL 作為一種 Training Free 的去噪策略,從一個統(tǒng)一且很短的初始長度開始,讓模型根據(jù)自己的需求在生成中調(diào)節(jié)長度,動態(tài)擴展,達(dá)到了和現(xiàn)有去噪策略在每個評測基準(zhǔn)上精心調(diào)整生成長度得到的最佳性能相當(dāng)?shù)谋憩F(xiàn),有時甚至更勝一籌。



圖 1 (a) DAEDAL 使用統(tǒng)一且很短的初始長度,在多個基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能。(b) DAEDAL 能夠根據(jù)每個問題,在生成過程中自適應(yīng)地動態(tài)調(diào)整長度,相比之下,現(xiàn)有方法則對所有問題都只能采用單一的固定長度。

DAEDAL 介紹

擴散大語言模型(DLLM)潛力巨大,但其現(xiàn)有推理流程存在一個關(guān)鍵的問題:需要預(yù)定義的,固定的生成長度。與能夠邊思考邊決定 “說” 多少的人類和自回歸模型不同,現(xiàn)有的 DLLM 需要預(yù)先設(shè)定確切的輸出長度。這導(dǎo)致了一個兩難的困境:設(shè)置太短,模型在復(fù)雜問題上難以發(fā)揮全部實力,可能導(dǎo)致做錯;設(shè)置太長,則會浪費大量的計算資源,同時,實驗中還發(fā)現(xiàn)過長的生成長度可能導(dǎo)致性能下降。

作者在探索中發(fā)現(xiàn),這一問題的解決方案就蘊藏在模型自身之中。DLLM 在生成時會不斷地全局規(guī)劃其整體輸出,而它的預(yù)測置信度正是其內(nèi)部狀態(tài)的強大信號。作者發(fā)現(xiàn)了兩種關(guān)鍵信號:

  • DLLM 在序列末端生成序列結(jié)束符 (EOS) 的意愿直接反映了其對全局預(yù)算的規(guī)劃。當(dāng)預(yù)設(shè)長度充足時,模型會自信地在末尾規(guī)劃出結(jié)束區(qū)域,從而高置信度地預(yù)測 EOS。反之,當(dāng)長度不足時,模型會試圖利用所有可用空間來完成核心內(nèi)容,因而抑制了在末尾生成 EOS 的置信度。
  • 在去噪過程中,對某個特定詞元的極低預(yù)測置信度,則可作為一種局部信號,這不僅代表了模型對該詞元的不確定性,更深層次地,它表明當(dāng)前的局部上下文過于受限,不足以支撐一個復(fù)雜的邏輯步驟或細(xì)節(jié)的展開,或是需要插入空間對過去生成的內(nèi)容進(jìn)行補充和修正。



圖 2 該熱力圖展示了在對一個長度為 128 的全掩碼輸入進(jìn)行首次預(yù)測后,于序列末端測得的平均 EOS 詞元置信度之差。該差值的計算方式為:用 “長度充足” 問題(在少于 128 長度的 setting 下被正確回答)的平均置信度減去 “長度不足” 問題(僅在長度更長的 setting 才能被正確回答)的平均置信度。圖中大面積的綠色(差值 > 0)表明,對于長度充足的問題,結(jié)尾 EOS 序列置信度更高,驗證了文中的核心發(fā)現(xiàn)。

基于發(fā)現(xiàn),作者提出了 DAEDAL,一種無需訓(xùn)練的兩階段推理策略,利用這些內(nèi)部信號,賦予 DLLM 根據(jù)每個問題的具體情況,動態(tài)自主調(diào)整回答長度的能力。



圖 3 DAEDAL 與現(xiàn)有基線方法流程對比

1. 初始長度調(diào)整 (Initial Length Adjustment): 在去噪流程開始前,DAEDAL 從一個統(tǒng)一的很短初始長度出發(fā)。它會通過檢測序列末端的 EOS 序列平均置信度來衡量:“對于這個任務(wù),當(dāng)前分配的長度是否充足?”。如果置信度很低,即模型規(guī)劃充分利用全部長度,就表明模型認(rèn)為長度預(yù)算不足。此時,DAEDAL 會通過增加 [MASK] 詞元來擴展序列長度,并重復(fù)此過程,直到模型確信長度預(yù)算充足。這為任務(wù)設(shè)定了一個合理的全局規(guī)劃長度。

2. 迭代式掩碼插入 (Iterative Mask Insertion): 在逐步去噪的過程中,DAEDAL 會持續(xù)監(jiān)控模型的置信度。如果它發(fā)現(xiàn)模型對某個 [MASK] 位置極不確定,便會將其標(biāo)記為 “擴展點”。DAEDAL 通過將這個單個 [MASK] 替換為由多個 [MASK],動態(tài)且精準(zhǔn)地在模型最需要的地方為序列注入 “思考空間”,以便其在回復(fù)中進(jìn)行補充修補,或是有足夠空間去進(jìn)行更復(fù)雜的思考。

通過結(jié)合這兩個階段,不需要進(jìn)行任何訓(xùn)練,DAEDAL 使得 DLLM 能夠根據(jù)每個問題的具體情況自主調(diào)整其回答的長度,展現(xiàn)了強大的效果。

實驗結(jié)果





圖 4 DAEDAL 在 4 個基準(zhǔn)測試上與基線方法性能對比以及生成長度可視化

DAEDAL 使用統(tǒng)一的短初始長度即可取得強大性能。 實驗結(jié)果清晰地展示了 DAEDAL 的優(yōu)越性能。盡管 DAEDAL 默認(rèn)從一個較短的初始長度開始,但其兩階段的長度調(diào)整與擴展機制,不僅使其性能顯著優(yōu)于使用相同短初始長度的基線方法,更能達(dá)到與基線方法在所有固定長度中精心調(diào)優(yōu)后的峰值性能相當(dāng)、甚至在某些情況下超越后者的水平。

這一發(fā)現(xiàn)凸顯了 DAEDAL 的有效性,并揭示了固定長度范式的內(nèi)在不便之處,因為基線方法的最佳長度因不同基準(zhǔn)而異,這更強調(diào)了動態(tài)長度適應(yīng)的必要性。為了直觀展示這種動態(tài)適應(yīng)性,圖 3 對比了 DAEDAL 所用總生成長度(N_token)的分布與基線方法所用的單一最佳長度。

DAEDAL 能自適應(yīng)地找到最佳生成長度。 進(jìn)一步的分析表明,DAEDAL 能智能地預(yù)估并生成恰當(dāng)長度的回答。在多數(shù)情況下,DAEDAL 產(chǎn)生的有效詞元數(shù)(E_token)與基線方法在最佳性能配置下的有效詞元數(shù)相當(dāng)。這表明 DAEDAL 能自適應(yīng)地找到模型內(nèi)在的、針對特定任務(wù)所需詞元長度的 “舒適點”?;€方法的行為也印證了這一點:當(dāng)設(shè)置的長度過長時,即使有效詞元數(shù)可能繼續(xù)增加,性能反而可能會下降。DAEDAL 的自適應(yīng)特性有效避免了這種因過度擴展導(dǎo)致的性能下降。

DAEDAL 能夠提升計算資源利用率。在取得優(yōu)越準(zhǔn)確率的同時,DAEDAL 生成的總詞元數(shù)(N_token)通常低于基線方法在最佳性能 setting 下的總詞元數(shù)。相近的有效詞元數(shù)和更低的總詞元數(shù)帶來了更高的有效詞元利用率(E_ratio)。這大大地提升了計算資源的利用率。

總結(jié)

DAEDAL 通過其初始長度調(diào)整(Initial Length Adjustment)和迭代式掩碼插入(Iterative Mask Insertion)機制,不僅在多個基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能,還能為每個任務(wù)自適應(yīng)地分配合適的長度。這使得模型在性能和計算效率上都取得了實質(zhì)性的提升。DAEDA 彌補了擴散大語言模型與自回歸大語言模型在核心能力上的一個關(guān)鍵差距,為更靈活、高效、強大的擴散大語言模型打下了基石。

作者介紹

本文第一作者是香港中文大學(xué) MMLab 的博士生李勁松,導(dǎo)師林達(dá)華教授,主要研究方向是多模態(tài)大模型和大語言模型。曾在 NeurIPS,ECCV,ACL 等頂級會議發(fā)表多篇論文,Google 學(xué)術(shù)引用超 1400 次。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國男籃拒絕輸球!全力淘汰韓國隊,周琦火線助力,CCTV5直播

中國男籃拒絕輸球!全力淘汰韓國隊,周琦火線助力,CCTV5直播

體壇瞎白話
2025-08-13 16:12:37
廣東陽江一男子買避孕藥付款失敗,老婆接到店員要錢信息后當(dāng)場撞破其出軌?多方回應(yīng)

廣東陽江一男子買避孕藥付款失敗,老婆接到店員要錢信息后當(dāng)場撞破其出軌?多方回應(yīng)

瀟湘晨報
2025-08-13 20:20:42
網(wǎng)友稱廣州東站內(nèi)的商店已停售泡面,車站工作人員:確已全部下架

網(wǎng)友稱廣州東站內(nèi)的商店已停售泡面,車站工作人員:確已全部下架

極目新聞
2025-08-13 21:37:51
內(nèi)蒙出軌女子照片曝光,事發(fā)那天丈夫給她5000,她帶情夫外出散心

內(nèi)蒙出軌女子照片曝光,事發(fā)那天丈夫給她5000,她帶情夫外出散心

漢史趣聞
2025-08-12 15:54:51
頂級涼薄,一語驚醒夢中人

頂級涼薄,一語驚醒夢中人

TVB的四小花
2025-08-13 17:34:55
社保的石頭 韓國已經(jīng)摸過了

社保的石頭 韓國已經(jīng)摸過了

盧詩翰
2025-08-13 21:58:51
“兒子上大學(xué)第一個月要1萬生活費”,杭州爸爸開玩笑:跟按揭一樣

“兒子上大學(xué)第一個月要1萬生活費”,杭州爸爸開玩笑:跟按揭一樣

都市快報橙柿互動
2025-08-13 21:01:15
強大的統(tǒng)治力!每場比賽都沒有挑戰(zhàn)性,澳大利亞真不該打亞洲杯!

強大的統(tǒng)治力!每場比賽都沒有挑戰(zhàn)性,澳大利亞真不該打亞洲杯!

田先生籃球
2025-08-13 22:14:56
葡媒:C羅通過婚前協(xié)議鎖定財富,但若分手每月給喬治娜10萬歐

葡媒:C羅通過婚前協(xié)議鎖定財富,但若分手每月給喬治娜10萬歐

雷速體育
2025-08-14 08:24:08
廣東一家三口遭殺害案下周將開庭,兇手葉某某被鑒定為精神分裂,被害人家屬:不理解不接受

廣東一家三口遭殺害案下周將開庭,兇手葉某某被鑒定為精神分裂,被害人家屬:不理解不接受

大風(fēng)新聞
2025-08-14 08:35:07
普京10小時飛到美國領(lǐng)土,剛下專機就會被捕?俄羅斯民眾嗅到殺氣

普京10小時飛到美國領(lǐng)土,剛下專機就會被捕?俄羅斯民眾嗅到殺氣

影孖看世界
2025-08-14 01:50:03
恒大退市,山東高速的逃跑方式太猛了

恒大退市,山東高速的逃跑方式太猛了

販財局
2025-08-13 19:18:30
李嘉誠,這次嗅到了危險

李嘉誠,這次嗅到了危險

互聯(lián)網(wǎng)思維
2025-08-13 23:34:18
“不穿文胸怎么了?”夜跑不穿內(nèi)衣的妻子引發(fā)沖突,造成悲??!

“不穿文胸怎么了?”夜跑不穿內(nèi)衣的妻子引發(fā)沖突,造成悲劇!

馬拉松跑步健身
2025-08-13 19:41:11
估值約43億美元!揭秘53歲鄧頓收購開拓者隊:換老板利好楊瀚森?

估值約43億美元!揭秘53歲鄧頓收購開拓者隊:換老板利好楊瀚森?

羅說NBA
2025-08-14 07:18:42
財政部:花20萬裝修,申請個人消費貸最高可減利息支出兩千

財政部:花20萬裝修,申請個人消費貸最高可減利息支出兩千

南方都市報
2025-08-13 12:17:09
特朗普:俄若不同意停火將面臨“非常嚴(yán)重后果”

特朗普:俄若不同意?;饘⒚媾R“非常嚴(yán)重后果”

新華社
2025-08-14 02:10:10
杭州兩男孩徒步跑偏迷路,最后竟在安徽被找到!救援隊講述細(xì)節(jié)

杭州兩男孩徒步跑偏迷路,最后竟在安徽被找到!救援隊講述細(xì)節(jié)

瀟湘晨報
2025-08-13 19:50:19
俄羅斯沒收中國數(shù)十架飛機重創(chuàng)親俄派

俄羅斯沒收中國數(shù)十架飛機重創(chuàng)親俄派

深度財線
2025-08-13 23:15:08
持剪刀致人死傷的男子戶籍地發(fā)聲!稱警方已聯(lián)系進(jìn)行調(diào)查

持剪刀致人死傷的男子戶籍地發(fā)聲!稱警方已聯(lián)系進(jìn)行調(diào)查

南方都市報
2025-08-13 23:40:40
2025-08-14 10:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11079文章數(shù) 142416關(guān)注度
往期回顧 全部

科技要聞

監(jiān)管重拳出擊,直指智駕虛假宣傳、濫用OTA

頭條要聞

牛彈琴:2天3個反制措施 中國向世界釋放一個強烈信號

頭條要聞

牛彈琴:2天3個反制措施 中國向世界釋放一個強烈信號

體育要聞

擁有133年歷史,張玉寧老東家被逐出職業(yè)聯(lián)賽

娛樂要聞

趙露思掀桌,這局能贏?

財經(jīng)要聞

指數(shù)突破!股基增量資金加速入市

汽車要聞

全新家族式設(shè)計 新款豐田鋒蘭達(dá)假想圖曝光

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
本地
時尚
公開課

房產(chǎn)要聞

嚇人!海口這個盤剛交房,外墻裂成蜘蛛網(wǎng)!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游中國 | 地心探秘!一天穿越池州六大溶洞

“有趣”的時髦,藏在穿搭里

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 成人在线不卡| 搞搞免费视频| 麻豆精品一区综合av在线| 国产96精品久久久久久| 超碰97人人做人人爱少妇 | 黑人巨大精品欧美在线观看| 精品免费国偷自产在线视频| 国产熟女123| 香蕉影院在线观看| 国产精品久久aⅴ| 欧美熟妇多毛XXXX欧美熟妇多毛图片 | 国精产品亚色精久久| 国产精品天干天干在线观看澳门| 国产噜噜久久| 无码免费岛国一区二区| 亚洲激情人妻熟妇| 爆乳丰满熟妇一区二区三区爆乳| 毛片一区二区| 国产午夜精华无码网站| 人妻 av影院| 久久亚洲日本不卡一区二区| AV女优在线影院| 久久亚洲道色宗和久久| 亚洲AV无码成人精品区国产| 亚洲熟妇av一区二区三区浪潮| 嗯…啊…18岁网站在线| 国产sm调教折磨视频| 亚洲人性爱视频| 无码日韩精品一区二区三区免费| 影音先锋色综合| 丰满人妻熟妇乱又伦精品视| 久久精品婷婷| 日韩精品无码一区精东麻豆| 大香伊蕉在人线国产最新2005| 人妻中出无码一区二区三区| 精品久久久久久成人av| 91九色丨PORNY丨闺蜜| 九九热精品在线观看视频| 亚洲AV片不卡无码久久欣赏网| 久久精品国产久精国产爱| 色五月婷狠狠操|