網易首頁 > 網易號 > 正文申請入駐

免訓練加速61倍！陳怡然團隊新作DPad：僅關注「彩票token」

2025-09-27 12:39:07　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】杜克大學團隊發(fā)現(xiàn)，擴散大語言模型只需關注少量「中獎」token，就能在推理時把速度提升61-97倍，還能讓模型更懂格式、更聽話。新策略DPad不訓練也能零成本挑出關鍵信息，實現(xiàn)「少算多準」的雙贏。

在大型語言模型的優(yōu)化中，業(yè)界通常認為計算量與模型性能正相關。

然而，杜克大學陳怡然教授團隊的一項最新研究DPad，卻揭示了一個反直覺的現(xiàn)象：對于擴散大語言模型（dLLMs），通過一種「先驗丟棄」策略，主動減少其計算量，不僅能帶來高達61倍的推理加速，還能意外地增強模型語境學習的能力。

這一發(fā)現(xiàn)源于對dLLM內部一種「中獎彩票」（Lottery Ticket）現(xiàn)象的洞察。模型在生成文本時，其龐大的注意力網絡中似乎隱藏著一個極度稀疏但高效的「中獎組合」。

DPad的核心貢獻就在于，它無需訓練，便能在推理時動態(tài)地、近乎零成本地找出這個組合，從而實現(xiàn)速度與精度的雙重飛躍。

論文地址：https://arxiv.org/abs/2508.14148

代碼地址：https://github.com/Crys-Chen/DPad

論文作者團隊來自杜克大學CEI中心，由實習生陳欣驊、黃思韜及郭聰博士共同完成，指導教師為李海教授、陳怡然教授，其他作者還包括魏遲越、何銀濤、張健一。

獨特的注意力機制

dLLM的草稿紙

團隊發(fā)現(xiàn)，dLLM的獨特之處在于雙向注意力，這使得它在生成文本時，會關注所有待生成的后文詞元（Suffix Token），并將它們用作規(guī)劃全文的「草稿紙」。

「草稿紙」機制使得模型能在Transformer的第n層往后文寫入信息，然后在第n+1層讀取后文信息，用于輔助前文的解碼。

圖1 「草稿紙機制」示意圖，左下角為前文往后文寫入信息，右上角為前文從后文讀取信息

反直覺的實驗

隨手一抓，都能中獎？

前文提到，dLLM在解碼前文時，會將大段的后文詞元作為草稿紙。

團隊進一步分析了模型對后文詞元的注意力分數(shù)，發(fā)現(xiàn)模型對后文詞元的注意力隨著距離快速衰減，但還是會有一些零星「尖峰」。

說明后文詞元有強烈的稀疏性，僅存在少量比較重要的詞元。

這個發(fā)現(xiàn)完美契合了深度學習中著名的「彩票假說」（Lottery Ticket Hypothesis）。

受此啟發(fā)，團隊提出了「擴散彩票假說」（Diffusion Lottery Tickets Hypothesis）：在dLLM的后綴token中，存在一個稀疏的「中獎彩票」子集，只要能「抽中」它們，就能在大幅降低計算成本的同時，達到甚至超越完整模型的性能。

圖2 當前塊對后綴token的注意力分數(shù)圖?？梢钥吹?，后文token存在部分尖峰

這也是正常詞元剪枝(Token Pruning)的邏輯——統(tǒng)計注意力分數(shù)，確定不重要的詞元，然后將其刪除。

然而，DPad團隊并不滿足于此，他們進行了一項顛覆性的實驗：強行刪除那些距離很遠、但注意力得分很高的「尖峰」詞元。

結果出乎意料——模型的準確率幾乎毫無損失！

不同于自回歸模型，dLLM展現(xiàn)出了驚人的「自愈能力」，仿佛后文詞元的信息可以自由流動，當一個關鍵路徑被阻斷時，注意力會立刻轉移到鄰近的詞元上，形成新的信息通路。

圖3 「注意力遷移」現(xiàn)象，刪除「關鍵詞元」后，模型的注意力尖峰轉移到附近詞元

這個「注意力遷移」現(xiàn)象有力地證明：dLLM的全局規(guī)劃能力并非依賴于某些特定位置的「明星詞元」，而更像是一種分布式的、可替代的冗余系統(tǒng)。

研究人員并沒有必要花費大量的計算去確定「關鍵詞元」，直接先驗地剪枝，最終保有一套系統(tǒng)就行。

DPad的核心

從「事后剪枝」到「事前篩選」

基于上述發(fā)現(xiàn)，DPad提出了一套全新的「事前篩選」邏輯。

不再讓模型「全力計算后才發(fā)現(xiàn)浪費」，而是在計算開始前就果斷地丟棄掉絕大部分冗余部分。

實現(xiàn)該目標的核心是兩大策略：

1.滑動窗口 (Sliding Window)：將模型的「目光」強制聚焦在當前解碼位置附近的一個固定長度窗口內，從根本上杜絕了對遙遠未來的無效關注。

這好比作家在寫當前章節(jié)時，只詳細規(guī)劃緊鄰的幾章，而不是構思最后一章的具體措辭。

2.距離衰減丟棄 (Distance-decay Dropout)：在窗口內部，也并非一視同仁。DPad采用一種隨距離遞減的概率來保留詞元，即「越近的草稿越詳細，越遠的草稿越潦草」。

這兩招簡單而有效，共同構成了一個動態(tài)的「中獎彩票」篩選器，讓模型在每一解碼步都只使用一個極度稀疏但高效的注意力子集。

圖4 (a)自回歸模型；(b) 傳統(tǒng)dLLM，需要關注所有后綴token；(c) DPad，僅關注附近少數(shù)經過篩選的后綴token

顛覆性的成果

速度與精確度的意外雙贏

DPad帶來的并非傳統(tǒng)意義上「犧牲精度換速度」的權衡，而是一場雙贏。

「嚴格匹配」準確率的大幅提升

在常規(guī)評測中，「靈活匹配」（Flexible-Match）只要求答案數(shù)值正確，而「嚴格匹配」（Strict-Match）則要求模型嚴格遵循范例的格式與推理步驟，是衡量模型「語境學習能力」的關鍵指標。

圖5 「靈活匹配」得分和「嚴格匹配」得分。原始模型（左）沒能按照「####」的格式輸出答案，沒能通過「嚴格匹配」；使用DPad（右）后模型成功「記得」按「####」輸出答案，通過「嚴格匹配」

圖6 DPad在LLaDA-Instruct上的效果

實驗顯示，原始的LLaDA-Instruct模型在GSM8K任務上嚴格匹配率僅為37.38%，因為它雖然能算對答案，卻無法很好地復刻范例格式。

而應用DPad后，通過濾除大量無關后文詞元的干擾，模型能更專注于學習prompt中的有效信息，嚴格匹配率躍升至63.84%。

這表明，DPad讓模型變得更「專注」，更能領會并執(zhí)行復雜指令。

圖7 DPad在LLaDA-1.5上的效果

圖8 DPad在Dream-Base上的效果

意料之中的驚人加速比

當模型不再需要為海量冗余信息耗費算力后，其推理速度得到了指數(shù)級解放。在短示例、長文本生成場景下，DPad的優(yōu)勢被發(fā)揮到極致：

圖9 在GSM8K(1024 tokens, 1-shot)任務上，LLaDA-1.5+Fast-dLLM+DPad實現(xiàn)了61.39倍的加速

圖10 在HumanEval(2048 tokens, 0-shot)任務上，Dream-Base+Fast-dLLM+DPad實現(xiàn)了97.32倍的加速

在LLaDA-1.5模型（1024 詞元輸出）上，DPad結合并行解碼等優(yōu)化后，實現(xiàn)了61.39倍的綜合加速。

在Dream模型（2048 詞元輸出）上，這一數(shù)字更是達到了97.32倍。

總結

DPad證明，對于dLLM而言，「少即是多」。

它通過一種巧妙的、免訓練的「事前篩選」機制，揭示并利用了dLLM中潛在的稀疏結構。

其帶來的不僅是接近兩個數(shù)量級的推理加速，更有對模型深層能力的意外增強。

這項工作為我們開辟了一條全新的優(yōu)化思路：未來的模型設計或許可以更大膽地探究稀疏性，讓dLLM在「化繁為簡」的道路上走得更遠。

參考資料：

https://arxiv.org/abs/2508.14148

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

10% KV無損數(shù)學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
5 跟貼 5
M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
1 跟貼 1

擴散語言模型九倍推理加速！KV Cache并非自回歸模型專屬

量子位 2025-05-27 17:02:02
0 跟貼 0

經典ReLU回歸！重大缺陷「死亡ReLU問題」已被解決

機器之心Pro 2025-06-03 17:08:54
4 跟貼 4
Nano Banana新增2大功能，還開放API了，一張圖不到3毛錢

量子位 2025-10-03 12:30:16
1 跟貼 1

3D版ControlNet突破多模態(tài)控制，實現(xiàn)高精度3D資產生成

機器之心Pro 2025-09-29 16:10:08
0 跟貼 0

微信更新不吭聲？微信時間條能點，還能發(fā)實況圖、撤誤刪

雷科技 2025-10-03 20:55:22
7 跟貼 7
手機計算器藏國慶彩蛋！小伙按數(shù)字召喚出國慶祝福，原來手機還能這么玩

鶴壁之聲 2025-10-01 16:51:27
19 跟貼 19

財神雙響炮來財！牛B

開興玩家 2025-10-03 10:46:02
2 跟貼 2
彩票比這還明顯，最起碼是實時開獎，彩票等半小時后才開！

磕磕撩時尚 2025-10-02 09:37:22
0 跟貼 0
藍營改選沖刺期！夏瀛洲點醒后，鄭麗文棄“討好策略”！

權權前哨前沿 2025-10-03 08:02:04
0 跟貼 0
杭州一女子彩票中獎1800萬，一個月后崩潰大哭：全都沒了

搞笑著哥 2025-10-04 03:30:37
0 跟貼 0
Mini-Omni-Reasoner：實時推理，定義下一代端到端對話模型

機器之心Pro 2025-09-22 14:01:53
0 跟貼 0
金魚損失隨機剔除token，讓AI不再死記硬背

量子位 2025-09-03 17:37:23
0 跟貼 0
讓機器人「不只是走路」，Nav-R1引領帶推理的導航新時代

機器之心Pro 2025-09-18 11:55:45
0 跟貼 0
史上最強殲20模型，跑起來那刻，一群人直接驚呆

崖柏愛生活 2025-10-01 16:52:53
0 跟貼 0
敘利亞前總統(tǒng)阿薩德被投毒后入院治療，現(xiàn)已出院

北京青年報 2025-10-03 17:27:32
31283 跟貼 31283
雙色球最笨的選號方法，有人用它中了大獎，彩民們不妨試試！

小于愛生活丫 2025-10-03 06:43:18
0 跟貼 0
33年真實影像，民國彩票當場搖獎，同期外國博彩業(yè)竟然更瘋狂

文化風起時 2025-10-01 06:30:00
0 跟貼 0
美國“命運之輪”再次開出百萬美元大獎，女子中百萬大獎后向男友保密4個月

現(xiàn)代快報 2025-10-02 14:09:53
0 跟貼 0
彩票太假了？普通人能中大獎嗎？聽聽主播是怎么說的

貓咪妞妞 2025-10-03 02:59:16
0 跟貼 0
開海參就像買彩票，隨時都有可能有魚，網友：買一送一嗎？

馬路江湖 2025-10-03 22:10:23
0 跟貼 0
彩票看似一夜暴富，實則背后暗藏玄機，本質真相大揭秘

搞笑不打烊 2025-10-04 05:15:29
1 跟貼 1
美女買彩票中了500萬后，想法突然大變，提前收藏起來

趣拍匣子 2025-10-03 13:47:35
1 跟貼 1
電子票時代，天涯海角紙質票為何成新頂流？

三人成虎V5 2025-10-02 11:54:07
1 跟貼 1
江西妹子談江西彩禮，聽聽她怎么說！大家覺得江西彩禮真的高么

胖大星是寶寶 2025-10-03 11:25:38
0 跟貼 0
東北保安中彩票兩次500萬，現(xiàn)狀如何？

呂彏極限手工 2025-10-02 10:37:07
0 跟貼 0
徐源：完全擁護、堅決服從省委決定

新京報政事兒 2025-10-03 19:11:20
140 跟貼 140
《謎底里的謎題》：競答決賽冠軍無字搶答背后的真相

李淑媛 2025-09-29 17:55:10
0 跟貼 0
小女孩想看電視，媽媽不同意，她靠“談判”成功看上了電視，網友：不愧是小孩姐，這是用上三十六計了吧！

米小圈 2025-10-02 18:09:51
0 跟貼 0
Transformer作者：DeepSeek才有搞頭，OpenAI指望不上了

量子位 2025-09-12 11:07:58
150 跟貼 150
我就喜歡你不喜歡我，這追愛邏輯也是沒誰了

兔八哥影視 2025-10-02 01:11:22
1 跟貼 1
視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
2 跟貼 2
藏在FC中的企鵝愛情！程序員竟用游戲代碼秀恩愛

小施混剪 2025-10-02 18:29:45
1 跟貼 1
允許摸牌就不能碰，允許碰就可以胡牌，這是正常邏輯！

豆莢看生活 2025-10-01 11:09:22
0 跟貼 0
浙江縣市區(qū)“一把手”密集調整：又有兩個區(qū)迎來新任區(qū)委書記

澎湃新聞 2025-10-03 12:30:28
63 跟貼 63
將領大會后美上將申請退役曾掌管美軍三分之二核力量

紅星新聞 2025-10-03 14:59:24
3009 跟貼 3009
900多名特斯拉車主現(xiàn)場表演燈光秀一個指令就能控制所有網友：竟然還能這樣玩

視聽絲路 2025-10-03 16:43:00
20 跟貼 20
張一山諜戰(zhàn)劇遇冷，邏輯不通演技浮夸被質疑，和楊紫差距越來越大

影視地平線 2025-10-01 10:39:37
0 跟貼 0
2700名游客國慶涌進榮昌區(qū)政府食堂：一頓吃了550斤米飯，250斤鹵鵝

極目新聞 2025-10-01 15:40:10
5158 跟貼 5158

新智元

AI產業(yè)主平臺領航智能+時代

13553文章數(shù) 66189關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

本地

健康

軍事航空

手機 / 數(shù)碼

房產 / 家居

免訓練加速61倍！陳怡然團隊新作DPad：僅關注「彩票token」

OpenAI硬剛馬斯克：別用訴訟欺負我的人

特朗普：哈馬斯必須在美東時間5日18時前同意協(xié)議

特朗普：哈馬斯必須在美東時間5日18時前同意協(xié)議

四冠中鋒，比所有人更早開始新賽季

繼王晶、向太后 周杰再曝潛規(guī)則

國家出手！三大世界級城市群定了

元戎啟行9月合作車型 交付量突破3萬臺

態(tài)度原創(chuàng)

買房必看！十一廣州置業(yè)攻略，熱門項目優(yōu)惠提前曝光！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

讀港校想省錢，社恐輸在起跑線

內分泌科專家破解身高八大謠言

普京：某國準備進行核試驗

四冠中鋒，比所有人更早開始新賽季

繼王晶、向太后周杰再曝潛規(guī)則

元戎啟行9月合作車型交付量突破3萬臺

買房必看！十一廣州置業(yè)攻略，熱門項目優(yōu)惠提前曝光！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法