夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

免訓練加速61倍!陳怡然團隊新作DPad:僅關注「彩票token」

0
分享至


新智元報道

編輯:LRST

【新智元導讀】杜克大學團隊發(fā)現(xiàn),擴散大語言模型只需關注少量「中獎」token,就能在推理時把速度提升61-97倍,還能讓模型更懂格式、更聽話。新策略DPad不訓練也能零成本挑出關鍵信息,實現(xiàn)「少算多準」的雙贏。

在大型語言模型的優(yōu)化中,業(yè)界通常認為計算量與模型性能正相關。

然而,杜克大學陳怡然教授團隊的一項最新研究DPad,卻揭示了一個反直覺的現(xiàn)象:對于擴散大語言模型(dLLMs),通過一種「先驗丟棄」策略,主動減少其計算量,不僅能帶來高達61倍的推理加速,還能意外地增強模型語境學習的能力。

這一發(fā)現(xiàn)源于對dLLM內部一種「中獎彩票」(Lottery Ticket)現(xiàn)象的洞察。模型在生成文本時,其龐大的注意力網絡中似乎隱藏著一個極度稀疏但高效的「中獎組合」。

DPad的核心貢獻就在于,它無需訓練,便能在推理時動態(tài)地、近乎零成本地找出這個組合,從而實現(xiàn)速度與精度的雙重飛躍。


論文地址:https://arxiv.org/abs/2508.14148

代碼地址:https://github.com/Crys-Chen/DPad

論文作者團隊來自杜克大學CEI中心,由實習生陳欣驊、黃思韜及郭聰博士共同完成,指導教師為李海教授、陳怡然教授,其他作者還包括魏遲越、何銀濤、張健一。

獨特的注意力機制

dLLM的草稿紙

團隊發(fā)現(xiàn),dLLM的獨特之處在于雙向注意力,這使得它在生成文本時,會關注所有待生成的后文詞元(Suffix Token),并將它們用作規(guī)劃全文的「草稿紙」。

「草稿紙」機制使得模型能在Transformer的第n層往后文寫入信息,然后在第n+1層讀取后文信息,用于輔助前文的解碼。


圖1 「草稿紙機制」示意圖,左下角為前文往后文寫入信息,右上角為前文從后文讀取信息

反直覺的實驗

隨手一抓,都能中獎?

前文提到,dLLM在解碼前文時,會將大段的后文詞元作為草稿紙。

團隊進一步分析了模型對后文詞元的注意力分數(shù),發(fā)現(xiàn)模型對后文詞元的注意力隨著距離快速衰減,但還是會有一些零星「尖峰」。

說明后文詞元有強烈的稀疏性,僅存在少量比較重要的詞元。

這個發(fā)現(xiàn)完美契合了深度學習中著名的「彩票假說」(Lottery Ticket Hypothesis)。

受此啟發(fā),團隊提出了「擴散彩票假說」(Diffusion Lottery Tickets Hypothesis):在dLLM的后綴token中,存在一個稀疏的「中獎彩票」子集,只要能「抽中」它們,就能在大幅降低計算成本的同時,達到甚至超越完整模型的性能。


圖2 當前塊對后綴token的注意力分數(shù)圖??梢钥吹?,后文token存在部分尖峰

這也是正常詞元剪枝(Token Pruning)的邏輯——統(tǒng)計注意力分數(shù),確定不重要的詞元,然后將其刪除。

然而,DPad團隊并不滿足于此,他們進行了一項顛覆性的實驗:強行刪除那些距離很遠、但注意力得分很高的「尖峰」詞元。

結果出乎意料——模型的準確率幾乎毫無損失!

不同于自回歸模型,dLLM展現(xiàn)出了驚人的「自愈能力」,仿佛后文詞元的信息可以自由流動,當一個關鍵路徑被阻斷時,注意力會立刻轉移到鄰近的詞元上,形成新的信息通路。


圖3 「注意力遷移」現(xiàn)象,刪除「關鍵詞元」后,模型的注意力尖峰轉移到附近詞元

這個「注意力遷移」現(xiàn)象有力地證明:dLLM的全局規(guī)劃能力并非依賴于某些特定位置的「明星詞元」,而更像是一種分布式的、可替代的冗余系統(tǒng)。

研究人員并沒有必要花費大量的計算去確定「關鍵詞元」,直接先驗地剪枝,最終保有一套系統(tǒng)就行。

DPad的核心

從「事后剪枝」到「事前篩選」

基于上述發(fā)現(xiàn),DPad提出了一套全新的「事前篩選」邏輯。

不再讓模型「全力計算后才發(fā)現(xiàn)浪費」,而是在計算開始前就果斷地丟棄掉絕大部分冗余部分。

實現(xiàn)該目標的核心是兩大策略:

1.滑動窗口 (Sliding Window)將模型的「目光」強制聚焦在當前解碼位置附近的一個固定長度窗口內,從根本上杜絕了對遙遠未來的無效關注。

這好比作家在寫當前章節(jié)時,只詳細規(guī)劃緊鄰的幾章,而不是構思最后一章的具體措辭。

2.距離衰減丟棄 (Distance-decay Dropout)在窗口內部,也并非一視同仁。DPad采用一種隨距離遞減的概率來保留詞元,即「越近的草稿越詳細,越遠的草稿越潦草」。

這兩招簡單而有效,共同構成了一個動態(tài)的「中獎彩票」篩選器,讓模型在每一解碼步都只使用一個極度稀疏但高效的注意力子集。


圖4 (a)自回歸模型;(b) 傳統(tǒng)dLLM,需要關注所有后綴token;(c) DPad,僅關注附近少數(shù)經過篩選的后綴token

顛覆性的成果

速度與精確度的意外雙贏

DPad帶來的并非傳統(tǒng)意義上「犧牲精度換速度」的權衡,而是一場雙贏。

「嚴格匹配」準確率的大幅提升

在常規(guī)評測中,「靈活匹配」(Flexible-Match)只要求答案數(shù)值正確,而「嚴格匹配」(Strict-Match)則要求模型嚴格遵循范例的格式與推理步驟,是衡量模型「語境學習能力」的關鍵指標。


圖5 「靈活匹配」得分和「嚴格匹配」得分。原始模型(左)沒能按照「####」的格式輸出答案,沒能通過「嚴格匹配」;使用DPad(右)后模型成功「記得」按「####」輸出答案,通過「嚴格匹配」


圖6 DPad在LLaDA-Instruct上的效果

實驗顯示,原始的LLaDA-Instruct模型在GSM8K任務上嚴格匹配率僅為37.38%,因為它雖然能算對答案,卻無法很好地復刻范例格式。

而應用DPad后,通過濾除大量無關后文詞元的干擾,模型能更專注于學習prompt中的有效信息,嚴格匹配率躍升至63.84%。

這表明,DPad讓模型變得更「專注」,更能領會并執(zhí)行復雜指令。


圖7 DPad在LLaDA-1.5上的效果


圖8 DPad在Dream-Base上的效果

意料之中的驚人加速比

當模型不再需要為海量冗余信息耗費算力后,其推理速度得到了指數(shù)級解放。在短示例、長文本生成場景下,DPad的優(yōu)勢被發(fā)揮到極致:


圖9 在GSM8K(1024 tokens, 1-shot)任務上,LLaDA-1.5+Fast-dLLM+DPad實現(xiàn)了61.39倍的加速


圖10 在HumanEval(2048 tokens, 0-shot)任務上,Dream-Base+Fast-dLLM+DPad實現(xiàn)了97.32倍的加速

在LLaDA-1.5模型(1024 詞元輸出)上,DPad結合并行解碼等優(yōu)化后,實現(xiàn)了61.39倍的綜合加速。

在Dream模型(2048 詞元輸出)上,這一數(shù)字更是達到了97.32倍。

總結

DPad證明,對于dLLM而言,「少即是多」。

它通過一種巧妙的、免訓練的「事前篩選」機制,揭示并利用了dLLM中潛在的稀疏結構。

其帶來的不僅是接近兩個數(shù)量級的推理加速,更有對模型深層能力的意外增強。

這項工作為我們開辟了一條全新的優(yōu)化思路:未來的模型設計或許可以更大膽地探究稀疏性,讓dLLM在「化繁為簡」的道路上走得更遠。

參考資料:

https://arxiv.org/abs/2508.14148

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
妮可·基德曼正式提交離婚申請,結束19年婚姻,所有財產已分割完畢

妮可·基德曼正式提交離婚申請,結束19年婚姻,所有財產已分割完畢

揚子晚報
2025-10-01 12:09:57
去過國外才明白:為什么歐美都排斥手機付款,國人卻視為驕傲

去過國外才明白:為什么歐美都排斥手機付款,國人卻視為驕傲

詩意世界
2025-09-10 10:22:01
盤點中國足壇七大早衰希望之星,排在第一的差點成為英超球星

盤點中國足壇七大早衰希望之星,排在第一的差點成為英超球星

第一體育
2025-10-03 19:09:49
馬筱梅吃1500歐的西餐,塞納河邊溜達3小時,偶像劇都不敢這么寫

馬筱梅吃1500歐的西餐,塞納河邊溜達3小時,偶像劇都不敢這么寫

并不擅長圈粉的鐵任
2025-10-03 22:23:41
俄羅斯海關消息:查獲2700架中國制造無人機,中俄無人機背后的深層內幕是什么?

俄羅斯海關消息:查獲2700架中國制造無人機,中俄無人機背后的深層內幕是什么?

荷蘭豆愛健康
2025-10-04 05:24:01
關智斌與蔡卓妍,阿Sa越來越年輕了,關智斌有白發(fā),但腹肌很炸裂

關智斌與蔡卓妍,阿Sa越來越年輕了,關智斌有白發(fā),但腹肌很炸裂

老吳教育課堂
2025-10-02 16:19:41
三大艦隊不夠看了!中國一旦全力組建第四艦隊,駐地選哪最精妙

三大艦隊不夠看了!中國一旦全力組建第四艦隊,駐地選哪最精妙

起喜電影
2025-10-03 16:21:02
移民局釣魚執(zhí)法!夫妻綠卡面談,移民官借口復印將妻子誘捕,迅速被送至驅逐出境程序

移民局釣魚執(zhí)法!夫妻綠卡面談,移民官借口復印將妻子誘捕,迅速被送至驅逐出境程序

大洛杉磯LA
2025-10-04 03:48:21
陳震勞斯萊斯閃靈發(fā)生車禍,登熱搜第一,事發(fā)后仍發(fā)微博

陳震勞斯萊斯閃靈發(fā)生車禍,登熱搜第一,事發(fā)后仍發(fā)微博

超角度
2025-10-03 20:23:45
亞朵,擠滿偷偷開房的成年人

亞朵,擠滿偷偷開房的成年人

廣告案例精選
2025-10-03 15:00:51
新郎結婚!四個伴娘一個比一個漂亮,原因令人感動,情比劉關張。

新郎結婚!四個伴娘一個比一個漂亮,原因令人感動,情比劉關張。

艷姐的搞笑視頻
2025-09-20 16:41:22
中國大滿貫!男單4強出爐,國乒大黑馬出局,林詩棟剃光頭!

中國大滿貫!男單4強出爐,國乒大黑馬出局,林詩棟剃光頭!

熱血江湖舊
2025-10-04 05:47:27
中國才買11年就成雞肋,3.15億美元打水漂?6艘歐洲野牛用處何在

中國才買11年就成雞肋,3.15億美元打水漂?6艘歐洲野牛用處何在

云上烏托邦
2025-08-31 13:02:09
激烈!楊瀚森亮相開拓者隊內訓練,硬抗2米18美國大漢,拳拳到肉

激烈!楊瀚森亮相開拓者隊內訓練,硬抗2米18美國大漢,拳拳到肉

林小湜體育頻道
2025-10-03 16:09:50
伊朗總統(tǒng):必須遷都

伊朗總統(tǒng):必須遷都

澎湃新聞
2025-10-04 00:26:05
“英偉達親兒子” 簽大單:142億美元

“英偉達親兒子” 簽大單:142億美元

芯榜
2025-10-03 22:15:51
中國最“不靠譜”的專家,公然在央視忽悠,為何還能爆火多年?

中國最“不靠譜”的專家,公然在央視忽悠,為何還能爆火多年?

百態(tài)人間
2025-09-27 15:39:28
同樣是演喬妍,為何趙露思演成了爆款,而趙麗穎的影版卻差評不斷

同樣是演喬妍,為何趙露思演成了爆款,而趙麗穎的影版卻差評不斷

小椰的奶奶
2025-10-04 02:06:28
演員陸毅女兒貝兒稱老年妝也掩蓋不住爸爸的帥,沖上熱搜

演員陸毅女兒貝兒稱老年妝也掩蓋不住爸爸的帥,沖上熱搜

極目新聞
2025-10-02 12:42:24
停飛中國航班,拒絕中國游客,這個專和我國作對的小國,如今怎樣

停飛中國航班,拒絕中國游客,這個專和我國作對的小國,如今怎樣

阿鳧愛吐槽
2025-09-26 11:28:39
2025-10-04 07:28:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
13553文章數(shù) 66189關注度
往期回顧 全部

科技要聞

OpenAI硬剛馬斯克:別用訴訟欺負我的人

頭條要聞

特朗普:哈馬斯必須在美東時間5日18時前同意協(xié)議

頭條要聞

特朗普:哈馬斯必須在美東時間5日18時前同意協(xié)議

體育要聞

四冠中鋒,比所有人更早開始新賽季

娛樂要聞

繼王晶、向太后 周杰再曝潛規(guī)則

財經要聞

國家出手!三大世界級城市群定了

汽車要聞

元戎啟行9月合作車型 交付量突破3萬臺

態(tài)度原創(chuàng)

房產
藝術
本地
健康
軍事航空

房產要聞

買房必看!十一廣州置業(yè)攻略,熱門項目優(yōu)惠提前曝光!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

讀港校想省錢,社恐輸在起跑線

內分泌科專家破解身高八大謠言

軍事要聞

普京:某國準備進行核試驗

無障礙瀏覽 進入關懷版 又湿又紧又大又爽又a视频| 俺来也俺也去Av| 2018年亚洲欧美在线v| 亚洲AV秘 无码一区二区三蚂蚁| 性欧美在线| 亚洲综合另类小说色区一| 欧美性爱欧美成人在线| 亚洲精品视频网| 欧美色图视频在线观看| 欧美精品18videos性欧美| 人人摸人人澡人人| 成 人 黄 色 免费 网站无毒| 欧美40老熟妇| 午夜不卡欧美AAAAAA在线观看| 中文字幕日韩有码一区| 性色欲av无码毛片免费| 国产免费热热| 国产日韩精品欧美一区灰 | 无码乱入av| 日韩欧美猛交xxxxx无码| 亚洲午夜中文字幕| 丝袜足交网站在线观看| 成人精品视频99在线观看免费 | 欧美丰满少妇人妻精品| 香蕉久久国产超碰青草| 久久午夜无码鲁丝午夜精品| 热久久免费视频| 亚洲日韩精品一区二区二三区四区| 国产精品亚洲a∨天堂| 成人无码一区二区三区| 亚洲Av无码一区二区三区av| mm1313亚洲国产精品无吗| 日韩精品一区二区亚洲观看AV | 国产美女精品视频线免费播放| Xx肥妇扒开粉嫩久久久久久| 202丰满熟女妇大| 日韩在线视频观看免费网站| 东北老女人高潮大喊舒服死了| 老司机免费视频| 欧洲美女色女网| 91人妻人人澡人人爽精品|