新智元報道
編輯:LRST
【新智元導讀】杜克大學團隊發(fā)現(xiàn),擴散大語言模型只需關注少量「中獎」token,就能在推理時把速度提升61-97倍,還能讓模型更懂格式、更聽話。新策略DPad不訓練也能零成本挑出關鍵信息,實現(xiàn)「少算多準」的雙贏。
在大型語言模型的優(yōu)化中,業(yè)界通常認為計算量與模型性能正相關。
然而,杜克大學陳怡然教授團隊的一項最新研究DPad,卻揭示了一個反直覺的現(xiàn)象:對于擴散大語言模型(dLLMs),通過一種「先驗丟棄」策略,主動減少其計算量,不僅能帶來高達61倍的推理加速,還能意外地增強模型語境學習的能力。
這一發(fā)現(xiàn)源于對dLLM內部一種「中獎彩票」(Lottery Ticket)現(xiàn)象的洞察。模型在生成文本時,其龐大的注意力網絡中似乎隱藏著一個極度稀疏但高效的「中獎組合」。
DPad的核心貢獻就在于,它無需訓練,便能在推理時動態(tài)地、近乎零成本地找出這個組合,從而實現(xiàn)速度與精度的雙重飛躍。
論文地址:https://arxiv.org/abs/2508.14148
代碼地址:https://github.com/Crys-Chen/DPad
論文作者團隊來自杜克大學CEI中心,由實習生陳欣驊、黃思韜及郭聰博士共同完成,指導教師為李海教授、陳怡然教授,其他作者還包括魏遲越、何銀濤、張健一。
獨特的注意力機制
dLLM的草稿紙
團隊發(fā)現(xiàn),dLLM的獨特之處在于雙向注意力,這使得它在生成文本時,會關注所有待生成的后文詞元(Suffix Token),并將它們用作規(guī)劃全文的「草稿紙」。
「草稿紙」機制使得模型能在Transformer的第n層往后文寫入信息,然后在第n+1層讀取后文信息,用于輔助前文的解碼。
圖1 「草稿紙機制」示意圖,左下角為前文往后文寫入信息,右上角為前文從后文讀取信息
反直覺的實驗
隨手一抓,都能中獎?
前文提到,dLLM在解碼前文時,會將大段的后文詞元作為草稿紙。
團隊進一步分析了模型對后文詞元的注意力分數(shù),發(fā)現(xiàn)模型對后文詞元的注意力隨著距離快速衰減,但還是會有一些零星「尖峰」。
說明后文詞元有強烈的稀疏性,僅存在少量比較重要的詞元。
這個發(fā)現(xiàn)完美契合了深度學習中著名的「彩票假說」(Lottery Ticket Hypothesis)。
受此啟發(fā),團隊提出了「擴散彩票假說」(Diffusion Lottery Tickets Hypothesis):在dLLM的后綴token中,存在一個稀疏的「中獎彩票」子集,只要能「抽中」它們,就能在大幅降低計算成本的同時,達到甚至超越完整模型的性能。
圖2 當前塊對后綴token的注意力分數(shù)圖??梢钥吹?,后文token存在部分尖峰
這也是正常詞元剪枝(Token Pruning)的邏輯——統(tǒng)計注意力分數(shù),確定不重要的詞元,然后將其刪除。
然而,DPad團隊并不滿足于此,他們進行了一項顛覆性的實驗:強行刪除那些距離很遠、但注意力得分很高的「尖峰」詞元。
結果出乎意料——模型的準確率幾乎毫無損失!
不同于自回歸模型,dLLM展現(xiàn)出了驚人的「自愈能力」,仿佛后文詞元的信息可以自由流動,當一個關鍵路徑被阻斷時,注意力會立刻轉移到鄰近的詞元上,形成新的信息通路。
圖3 「注意力遷移」現(xiàn)象,刪除「關鍵詞元」后,模型的注意力尖峰轉移到附近詞元
這個「注意力遷移」現(xiàn)象有力地證明:dLLM的全局規(guī)劃能力并非依賴于某些特定位置的「明星詞元」,而更像是一種分布式的、可替代的冗余系統(tǒng)。
研究人員并沒有必要花費大量的計算去確定「關鍵詞元」,直接先驗地剪枝,最終保有一套系統(tǒng)就行。
DPad的核心
從「事后剪枝」到「事前篩選」
基于上述發(fā)現(xiàn),DPad提出了一套全新的「事前篩選」邏輯。
不再讓模型「全力計算后才發(fā)現(xiàn)浪費」,而是在計算開始前就果斷地丟棄掉絕大部分冗余部分。
實現(xiàn)該目標的核心是兩大策略:
1.滑動窗口 (Sliding Window):將模型的「目光」強制聚焦在當前解碼位置附近的一個固定長度窗口內,從根本上杜絕了對遙遠未來的無效關注。
這好比作家在寫當前章節(jié)時,只詳細規(guī)劃緊鄰的幾章,而不是構思最后一章的具體措辭。
2.距離衰減丟棄 (Distance-decay Dropout):在窗口內部,也并非一視同仁。DPad采用一種隨距離遞減的概率來保留詞元,即「越近的草稿越詳細,越遠的草稿越潦草」。
這兩招簡單而有效,共同構成了一個動態(tài)的「中獎彩票」篩選器,讓模型在每一解碼步都只使用一個極度稀疏但高效的注意力子集。
圖4 (a)自回歸模型;(b) 傳統(tǒng)dLLM,需要關注所有后綴token;(c) DPad,僅關注附近少數(shù)經過篩選的后綴token
顛覆性的成果
速度與精確度的意外雙贏
DPad帶來的并非傳統(tǒng)意義上「犧牲精度換速度」的權衡,而是一場雙贏。
「嚴格匹配」準確率的大幅提升
在常規(guī)評測中,「靈活匹配」(Flexible-Match)只要求答案數(shù)值正確,而「嚴格匹配」(Strict-Match)則要求模型嚴格遵循范例的格式與推理步驟,是衡量模型「語境學習能力」的關鍵指標。
圖5 「靈活匹配」得分和「嚴格匹配」得分。原始模型(左)沒能按照「####」的格式輸出答案,沒能通過「嚴格匹配」;使用DPad(右)后模型成功「記得」按「####」輸出答案,通過「嚴格匹配」
圖6 DPad在LLaDA-Instruct上的效果
實驗顯示,原始的LLaDA-Instruct模型在GSM8K任務上嚴格匹配率僅為37.38%,因為它雖然能算對答案,卻無法很好地復刻范例格式。
而應用DPad后,通過濾除大量無關后文詞元的干擾,模型能更專注于學習prompt中的有效信息,嚴格匹配率躍升至63.84%。
這表明,DPad讓模型變得更「專注」,更能領會并執(zhí)行復雜指令。
圖7 DPad在LLaDA-1.5上的效果
圖8 DPad在Dream-Base上的效果
意料之中的驚人加速比
當模型不再需要為海量冗余信息耗費算力后,其推理速度得到了指數(shù)級解放。在短示例、長文本生成場景下,DPad的優(yōu)勢被發(fā)揮到極致:
圖9 在GSM8K(1024 tokens, 1-shot)任務上,LLaDA-1.5+Fast-dLLM+DPad實現(xiàn)了61.39倍的加速
圖10 在HumanEval(2048 tokens, 0-shot)任務上,Dream-Base+Fast-dLLM+DPad實現(xiàn)了97.32倍的加速
在LLaDA-1.5模型(1024 詞元輸出)上,DPad結合并行解碼等優(yōu)化后,實現(xiàn)了61.39倍的綜合加速。
在Dream模型(2048 詞元輸出)上,這一數(shù)字更是達到了97.32倍。
總結
DPad證明,對于dLLM而言,「少即是多」。
它通過一種巧妙的、免訓練的「事前篩選」機制,揭示并利用了dLLM中潛在的稀疏結構。
其帶來的不僅是接近兩個數(shù)量級的推理加速,更有對模型深層能力的意外增強。
這項工作為我們開辟了一條全新的優(yōu)化思路:未來的模型設計或許可以更大膽地探究稀疏性,讓dLLM在「化繁為簡」的道路上走得更遠。
參考資料:
https://arxiv.org/abs/2508.14148
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.