夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

擴散語言模型九倍推理加速!KV Cache并非自回歸模型專屬

0
分享至

EPIC Lab團隊 投稿量子位 | 公眾號 QbitAI

首個用于加速擴散式大語言模型(diffusion-based Large Language Models, 簡稱 dLLMs)推理過程的免訓練方法。

上海交通大學EPIC Lab團隊提出了一種無需訓練、即插即用的高效推理緩存機制:dLLM-Cache。

其核心思想在于,在一個多步去噪過程中,復用相鄰時間步上變化較小的特征,僅更新那些變化較大的特征,從而實現(xiàn)了計算量的大幅降低,并保持了原有的生成質量。



圖1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和質量上的對比

dLLM-Cache具有幾個重要的亮點:

1. 訓練無關,即插即用。dLLM-Cache完全在推理過程中工作,無需修改模型參數(shù)或重訓練。dLLM-Cache可以在完全不損失模型輸出質量的前提下,帶來最高9.1倍的推理速度提升 。

2.通用于主流dLLM架構,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模態(tài)模型。

3. 在推理過程中,首次識別出了prompt部分的Transformer中間層特征(Key、Value、Attention output、FFN output)長期穩(wěn)定,而response部分僅有一小部分tokens的特征變化較大,為緩存特征并后續(xù)復用提供了理論基礎。

4. 獨創(chuàng)了以V-verify機制為核心的選擇更新策略。以Value向量的變化為選擇基準,成功識別出了response部分變化較大的那些tokens,通過僅更新這些特征,摒棄了高達75%的冗余計算。

本論文共同第一作者劉知遠和楊奕存是哈爾濱工業(yè)大學2022級本科生,目前在上海交通大學EPIC Lab進行科研實習,師從張林峰助理教授,主要研究方向為高效深度學習,此前曾在CVPR2025上收獲滿分論文。



接下來,我們一起來看看該研究的細節(jié)。

研究動機

基于擴散的大語言模型正成為語言生成領域最受關注的新范式之一。隨著模型架構的發(fā)展、去噪算法的優(yōu)化以及Masked Diffusion在語言建模中逐步展現(xiàn)出與自回歸模型不同的建模能力,這類模型正在逐步成為挑戰(zhàn) GPT 等主流模型的重要力量。

以LLaDA、Dream為代表的擴散語言模型,基于迭代去噪的生成過程,不再依賴嚴格的自回歸因果結構,天然支持雙向建模、全局依賴和反向推理等能力,已經(jīng)在“逆轉詛咒”、數(shù)學推理等任務上展現(xiàn)出領先性能。

然而,這種范式的優(yōu)勢也伴隨著巨大的代價。為了確保生成的質量,dLLMs在推理過程中通常需要執(zhí)行長達數(shù)百步的去噪迭代,每一步都需重新計算attention、FFN等所有層的特征,計算量相當于多次完整前向傳播。這為dLLMs的推理效率帶來了嚴重的瓶頸,制約了其實際部署。更重要的是,主流的加速手段如用于自回歸模型的KV Cache,由于不兼容雙向注意力架構,在dLLMs中完全失效。

與傳統(tǒng)的自回歸語言模型不同,dLLMs不再依賴順序生成下一個token,而是采用隨機遮蔽(mask) + 逐步還原的方式建模token分布,這種機制使得模型具備天然的雙向建模能力,理論上能夠更好地處理逆向邏輯、長距離依賴等任務。

LLaDA 等模型已經(jīng)在多個基準任務中超越主流ARMs,尤其在“逆轉詛咒”上明顯勝出。

然而,這種擴散式推理帶來一個嚴重的挑戰(zhàn):為了確保生成質量,dLLMs通常需要上百步的去噪迭代,每一步都需全量計算Attention、FFN等模塊,導致其推理速度相比ARMs慢一個數(shù)量級,落地成本高。同時,ARMs 通用的加速方法如KV-Cache因dLLMs的雙向注意力設計而無法兼容。這些造成了dLLMs在推理時既慢又缺乏加速手段的現(xiàn)象。這正是 dLLM-Cache所要破解的核心問題。

方法簡介

本文作者仔細研究了dLLMs推理的中間特征變化過程,發(fā)現(xiàn)如下關鍵現(xiàn)象:



圖2 dLLM中兩個相鄰去噪步驟之間的Key、Value、Attention Output和FFN Output的余弦相似度

Prompt tokens的特征在整個去噪過程中基本保持穩(wěn)定,每一步都重新計算這些特征是完全不必要且浪費計算資源的;

Response tokens多數(shù)變化很小,僅少部分變化劇烈,全量計算所有response tokens存在冗余。

由此,問題轉化為了如何高效識別出這些變化劇烈的response tokens。



圖3 Response tokens的K或V變化與其他特征變化的相關性

本文作者首創(chuàng)性得提出了V-verify機制。它的提出源于另一項重要的發(fā)現(xiàn):作者量化了response tokens的底層特征(Key, Value向量)的變化與其上層復雜特征(Attention Output, FFN Output)的變化之間的關系,結果顯示它們存在著極強的正相關性,皮爾遜相關系數(shù)最高可達0.944。

這意味著,一個token底層的Value向量是否發(fā)生變化,是其整體狀態(tài)是否發(fā)生改變的一個極佳的、且計算成本極低的“指示器”。

基于以上這些關鍵的觀察,本文作者提出了dLLM-Cache ,具體的框架設計如下:



圖4 dLLM-Cache方法整體pipeline

Prompt緩存:長間隔重用

對于prompt部分,作者設計了長間隔Prompt緩存,每隔Kp步(在實驗中一般設置為100)更新一次prompt的Key、Value、Attention Output、FFN Output,其余步驟全部復用先前結果。這樣避免了對穩(wěn)定不變的特征的重復計算,大幅減少了計算量

Response緩存:自適應部分更新

對生成目標response區(qū)域,由于response tokens的特征并不是一直保持穩(wěn)定不變的,作者設計了較短間隔的Response緩存,每隔Kr步(在實驗中一般設置為8左右)全量更新一次response的Key、Value、Attention Output、FFN Output,在其余的步驟,作者提出了基于V-verify的自適應緩存策略

  1. 在每個去噪步驟,首先計算所有response tokens最新的Value向量。
  2. 然后,通過計算新Value向量與緩存中舊Value向量的余弦相似度,將余弦相似度作為每個response tokens的一個“變化分”。
  3. 選出“變化分”最高(即相似度最低)的極少數(shù)tokens(例如,變化最劇烈的25%),將它們標記為“待更新” 。
  4. 最后,模型只對這些被標記的“待更新”tokens,進行完整的特征重計算。而其余75%的“穩(wěn)定”tokens,則繼續(xù)高效地從緩存中復用其特征

通過這種“長間隔”與“自適應”相結合的緩存策略,dLLM-Cache在Transformer的每一層都實現(xiàn)了計算量的極致優(yōu)化,且整個過程無需任何額外訓練,做到了真正的即插即用

3 實驗結果

本文在 LLaDA 8B和Dream 7B兩大代表性的開源dLLM的基礎版與指令微調版上,針對數(shù)學與科學、通用任務、代碼生成三大領域的8個主流基準測試,對dLLM-Cache的有效性進行了嚴苛的檢驗 。評估維度不僅包括推理速度(TPS)計算效率(FLOPs),更核心的是模型性能得分(Score),以確保加速不是以犧牲模型能力為代價

本文在LLaDA 8B的基礎版和指令微調版上都部署了dLLM-Cache,下圖的實驗結果充分展示了其強大的加速能力和卓越的生成質量保持。在幾乎所有的基準測試中,達到了5倍以上的加速效果,且在絕大部分情況下,生成質量都沒有降低,甚至有輕微的提升。特別是當面對LongBench任務時,prompt的穩(wěn)定性帶來了更顯著的加速效果,在HotpotQA上實現(xiàn)了高達9.1倍的無損加速



圖5 dLLM-Cache在LLaDA模型上的效果

為了進一步證明dLLM-Cache的通用性和魯棒性,作者將其無縫遷移至另一款架構略有不同的dLLM——Dream 7B上。下圖的實驗結果再次印證了dLLM-Cache方法的有效性,充分說明了其通用于主流dLLM架構



圖6 dLLM-Cache在Dream模型上的效果

作者還將dLLM和主流的基于ARM的LLM進行了對比,下圖展示了LLaDA 8B與LLaMA3 8B在GSM8K任務上的比較。結果顯示,原始的LLaDA在準確率上以近20個點的巨大優(yōu)勢領先于LLaMA3,但在推理速度上卻遠不及。然而,在使用了本文的dLLM-Cache之后,LLaDA的推理速度獲得了超過3.3倍的提升,首次超過了LLaMA3的推理速度。這一結果有力地證明,本文提出的dLLM-Cache能夠讓dLLMs在保持其顯著準確率優(yōu)勢的同時,獲得與ARMs相當競爭力的推理速度



圖7 使用dLLM-Cache的dLLM vs 使用KV-Cache的ARM

論文鏈接: https://github.com/maomaocun/dLLM-cache/blob/main/asset/paper.pdf
代碼已開源: https://github.com/maomaocun/dLLM-Cache

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
毛主席視察天津時想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個字

毛主席視察天津時想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個字

南書房
2025-09-28 23:01:03
鄭麗文不裝了?國臺辦回應武統(tǒng)后,鄭麗文表態(tài):絕不放棄武力保臺

鄭麗文不裝了?國臺辦回應武統(tǒng)后,鄭麗文表態(tài):絕不放棄武力保臺

阿校談史
2025-11-14 16:38:17
瑟瑟發(fā)抖!抖音女神王小雨賬戶7連跌后殺入農(nóng)行...

瑟瑟發(fā)抖!抖音女神王小雨賬戶7連跌后殺入農(nóng)行...

金石隨筆
2025-11-17 00:09:39
隨著葡萄牙9-1,挪威4-1意大利,世預賽最新積分榜:歐洲5隊直通

隨著葡萄牙9-1,挪威4-1意大利,世預賽最新積分榜:歐洲5隊直通

侃球熊弟
2025-11-16 23:56:49
央視改稱郭晶晶了,三字微變暗藏強烈信號,霍震霆果然全說對啦

央視改稱郭晶晶了,三字微變暗藏強烈信號,霍震霆果然全說對啦

草莓解說體育
2025-11-15 03:12:12
全運會王曼昱4-2孫穎莎,不和諧一幕再次出現(xiàn):球迷一邊倒惹爭議

全運會王曼昱4-2孫穎莎,不和諧一幕再次出現(xiàn):球迷一邊倒惹爭議

大秦壁虎白話體育
2025-11-17 00:37:46
央八《隱鋒》僅播1晚就被要求下架?理由:胡編亂造,漏洞百出

央八《隱鋒》僅播1晚就被要求下架?理由:胡編亂造,漏洞百出

詩意世界
2025-11-14 21:57:48
你見過最狠的人有多狠?網(wǎng)友:好家伙,這么狠的人超乎我的想象力

你見過最狠的人有多狠?網(wǎng)友:好家伙,這么狠的人超乎我的想象力

帶你感受人間冷暖
2025-11-02 00:15:03
分享解剖學知識,破除多年來的G點謠傳

分享解剖學知識,破除多年來的G點謠傳

遠方青木
2025-10-25 00:06:11
遼粵青年軍大戰(zhàn),廣東33分大勝,杜鋒看中之人17分,吳慶龍也沒轍

遼粵青年軍大戰(zhàn),廣東33分大勝,杜鋒看中之人17分,吳慶龍也沒轍

萌蘭聊個球
2025-11-16 22:06:23
一人一城!NBA現(xiàn)役實現(xiàn)該成就的概率:4人100%,兩人80%字母僅50%

一人一城!NBA現(xiàn)役實現(xiàn)該成就的概率:4人100%,兩人80%字母僅50%

籃球圈里的那些事
2025-11-14 18:18:05
3位副市長(擬)任市委常委

3位副市長(擬)任市委常委

上觀新聞
2025-11-16 16:05:04
上海多區(qū)出現(xiàn)!緊急提醒:破壞力強大,看到立即上報!

上海多區(qū)出現(xiàn)!緊急提醒:破壞力強大,看到立即上報!

環(huán)球網(wǎng)資訊
2025-11-16 21:13:14
國家出手!李梓萌騙人真相大白,幕后黑手被揪,受害者不止一人

國家出手!李梓萌騙人真相大白,幕后黑手被揪,受害者不止一人

許穋很機智
2025-10-19 13:34:42
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的8倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的8倍不止?

霹靂炮
2025-10-17 21:31:29
趙露思就這樣再出神圖!穿“老頭衫”練舞,這顏值是真實存在的?

趙露思就這樣再出神圖!穿“老頭衫”練舞,這顏值是真實存在的?

小椰的奶奶
2025-11-16 16:00:36
2026年1月起加國七汽油!中石化率先換油,國四國五車適合嗎?

2026年1月起加國七汽油!中石化率先換油,國四國五車適合嗎?

小李子體育
2025-11-17 05:58:02
“世界最大駕?!狈嚵耍憾麻L被捕、股價暴跌,30年神話崩塌!

“世界最大駕?!狈嚵耍憾麻L被捕、股價暴跌,30年神話崩塌!

青眼財經(jīng)
2025-11-09 20:09:54
印度人在廬山戲水?三名境外游客在廬山一水潭戲水,景區(qū)官方致歉:“事發(fā)4月份,景區(qū)正加強規(guī)范化管理”

印度人在廬山戲水?三名境外游客在廬山一水潭戲水,景區(qū)官方致歉:“事發(fā)4月份,景區(qū)正加強規(guī)范化管理”

觀威海
2025-11-15 10:10:03
東京餐廳廁所門:櫻花妹與黑人男友的“15分鐘激戰(zhàn)”,老板怒掛全網(wǎng)后結局神反轉!

東京餐廳廁所門:櫻花妹與黑人男友的“15分鐘激戰(zhàn)”,老板怒掛全網(wǎng)后結局神反轉!

日本物語
2025-11-16 20:33:33
2025-11-17 08:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11687文章數(shù) 176331關注度
往期回顧 全部

科技要聞

營銷話術反噬信任,雷軍不該只是一怒了之

頭條要聞

5名中國游客在巴厘島車禍死亡 傷者:司機一點傷沒有

頭條要聞

5名中國游客在巴厘島車禍死亡 傷者:司機一點傷沒有

體育要聞

最佳新秀候選!2028美國男籃有他一個位置

娛樂要聞

CEO爆料肖戰(zhàn)《藏海傳》狂賺幾十億!

財經(jīng)要聞

房源暗中調價 央企舉報廣州國資房企

汽車要聞

"冰彩沙"全配齊 紅旗HS6 PHEV預售17.88萬起

態(tài)度原創(chuàng)

藝術
健康
手機
教育
游戲

藝術要聞

Charles Chaplin:19世紀法國新洛可可風格畫家

血液科專家揭秘白血病七大誤區(qū)

手機要聞

iPhone Air并非年度更新產(chǎn)品 2026年很可能沒有iPhone Air 2

教育要聞

官宣!南京又多一所附屬中學!

《紀元117:羅馬和平》多人游戲問題大 育碧承諾修復

無障礙瀏覽 進入關懷版 人人爽人人片人人片AV| 无码熟妇人妻av影音先锋| 俄罗斯乱妇一区二区三区| 免费的毛片网站在线观看| 少妇极品熟妇人妻无码| 热久久精品免费视频| 欧美饥渴熟妇高潮喷水水| 小小拗女性bbwxxxx国产| 欧美精品一区二区精品久久| 精品国产亚洲第一区二区三区| 亚洲日韩中文字幕久热| 97久久精品午夜一区二区| 丰满大乳 国产精品| 国产偷国产偷亚洲清高| 波多野结衣高潮AV在线播放 | 亚洲av永久精品无码桃色| 天堂网在线最新版www| 亚洲国产综合另类视频| 精品国际久久久久999波多野| 无码久久精品国产亚洲AV| 亚洲一区 国产剧情| 国产福利视频一区二区| 国产精品成人VA在线播放| 亚洲人成网站b2k3cm| 国产一区二区三四区| 亚洲粉嫩美白在线| 国产无码丝足一区| 国产放荡av剧情演绎麻豆| 精卫波多野结衣被啪啪| 成人福利国产精品视频| 亚洲av综合av一区| 国产微拍一区二区三区四区| 人妻成人性片| 精品国产情侣高潮露脸在线| 成人在线视频一区| 国产精品白丝jk黑袜喷水视频| 国产精品自在线拍国产| 国产老女人av| 国产精品自在线拍亚洲另类| 亚洲爆乳www无码专区| 女人高潮抽搐喷液30分钟视频 |