夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

長文本生成迎來新突破:拓元智慧推出 DrDiff ,實現(xiàn)效率與質(zhì)量雙提升

0
分享至


DrDiff框架的核心思想是動態(tài)化,其創(chuàng)新性體現(xiàn)在三個緊密協(xié)同的技術(shù)組件上,宛如為模型裝上了智能調(diào)度中樞”。

作者丨可澤

拓元智慧團(tuán)隊聯(lián)合來自中山大學(xué)人機(jī)物智能融合實驗室、阿里巴巴集團(tuán)及Snap Inc的研究團(tuán)隊,針對了困擾業(yè)界已久的長文本生成中“效率”與“質(zhì)量”難以兼得的根本性挑戰(zhàn),開發(fā)出DrDiff(動態(tài)路由擴(kuò)散)框架(已被NLP 頂會 EMNLP 2025錄用接收)。該框架通過創(chuàng)新的動態(tài)資源調(diào)度機(jī)制,在保證生成內(nèi)容連貫性的同時,將計算復(fù)雜度降至線性,為AI輔助學(xué)術(shù)科研、長篇內(nèi)容創(chuàng)作、自動報告生成等應(yīng)用提供了有力的基礎(chǔ)支撐。


論文題目:

DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for

Breaking the Efficiency-Quality Trade-off

論文鏈接:
https://arxiv.org/pdf/2509.02785

論文通訊作者可澤博士:國家級青年人才、中山大學(xué)計算機(jī)學(xué)院副教授、博士生導(dǎo)師、拓元智慧高級算法總監(jiān),曾獲吳文俊人工智能自然科學(xué)獎二等,人工智能學(xué)會CAAI優(yōu)秀博士論文獎,國際著名學(xué)術(shù)評估機(jī)構(gòu)AI 2000年最有影響力學(xué)者提名獎。主要研究方向有因果驅(qū)動認(rèn)知的復(fù)雜推理、多智能體良好高階推理、多模態(tài)生產(chǎn)式AI、具身智能等。

01

研究背景:長文本生成的固有瓶頸

盡管大型語言模型(LLM)在各類任務(wù)上表現(xiàn)出色,但在生成超過數(shù)萬token的超長文本時,其性能會顯著下降。核心問題源于Transformer架構(gòu)固有的二次計算復(fù)雜度(O(n2)),導(dǎo)致處理長序列時計算資源消耗巨大?,F(xiàn)有解決方案,如稀疏注意力(如Longformer)或擴(kuò)散模型(如DiffuSeq),多采用固定模式的資源分配,無法靈活應(yīng)對文本中不同片段、不同生成階段的異質(zhì)性需求,從而導(dǎo)致:

  • 長程依賴衰減:模型難以維持遠(yuǎn)距離的語義連貫性,易出現(xiàn)內(nèi)容重復(fù)或邏輯斷裂。

  • 資源分配次優(yōu):對簡單和復(fù)雜文本片段“一視同仁”,造成算力浪費或關(guān)鍵部分計算不足。

  • 生成質(zhì)量隨長度退化:文本越長,模型越容易“遺忘”前文信息,質(zhì)量下降越明顯。

02

核心技術(shù)突破:動態(tài)智能的三大支柱

DrDiff框架的核心思想是“動態(tài)化”,其創(chuàng)新性體現(xiàn)在三個緊密協(xié)同的技術(shù)組件上,宛如為模型裝上了“智能調(diào)度中樞”:

1.分層稀疏注意力(HSA):自適應(yīng)的感受野切換

HSA機(jī)制徹底改變了固定注意力模式的思路。它根據(jù)實時輸入序列長度(N)動態(tài)構(gòu)建稀疏注意力掩碼:


  • 短文本N ≤ 512啟用密集注意力模式,捕獲全部細(xì)節(jié)。

  • 中等文本(512 < N ≤ 4K)切換至局部(窗口w=256)+ 稀疏膨脹(δ?) 組合模式,高效覆蓋中短程依賴。

  • 長文本(4K< N ≤ 8K)采用稀疏膨脹(δ? > δ?)+ 全局節(jié)點(G?) 模式,擴(kuò)大感受野。

  • 超長文本(N > 8K)啟用超長序列模式(M??K?),結(jié)合稀疏局部注意力和基于關(guān)鍵token比例(ρ=0.05)的全局注意力,理論上將復(fù)雜度降至線性O(shè)(n)。
    這種基于長度的分層策略,確保了無論文本多長,模型總能以最經(jīng)濟(jì)的計算成本激活最合適的注意力模式。

2.動態(tài)專家調(diào)度(DES):按需分配的計算資源

DrDiff在去噪網(wǎng)絡(luò)的前饋網(wǎng)絡(luò)(FFN)層集成了混合專家(MoE)架構(gòu)。其動態(tài)性體現(xiàn)在:

  • 專業(yè)化專家:不同專家可具有不同容量(如隱藏層維度為標(biāo)準(zhǔn)FFN的0.5倍)或不同結(jié)構(gòu)(如特定激活函數(shù)),甚至可在預(yù)訓(xùn)練時針對語法生成、主題內(nèi)容等子任務(wù)進(jìn)行輕微微調(diào),形成功能特化。

  • 智能路由:一個輕量級路由網(wǎng)絡(luò)(小型MLP)會分析經(jīng)過HSA處理后的隱藏狀態(tài),該狀態(tài)已編碼了當(dāng)前上下文的復(fù)雜度和特征。路由網(wǎng)絡(luò)據(jù)此生成門控權(quán)重,動態(tài)選擇Top-1或Top-2最合適的專家來處理當(dāng)前token。

  • 負(fù)載均衡:通過輔助損失函數(shù)確保所有專家都能得到充分訓(xùn)練,避免某些專家過載而其他專家閑置。這意味著簡單、重復(fù)的文本由“輕量級專家”快速處理,而復(fù)雜、關(guān)鍵的語義樞紐則分配給“重量級專家”深度計算,實現(xiàn)了前所未有的計算效率。

3.語義錨點狀態(tài)(SAS):引導(dǎo)擴(kuò)散路徑的“燈塔”

為優(yōu)化超長文本的生成路徑,DrDiff在去噪過程的特定中間時間步(如t? = T/4, T/2, 3T/4)引入語義錨點狀態(tài)(???)作為顯式引導(dǎo)。

  • 構(gòu)建方式:???可以是基于輸入文本Z?的核心語義摘要(通過預(yù)訓(xùn)練的輕量摘要模型獲得)所對應(yīng)的理想噪聲狀態(tài),也可以是通過對大量真實文本在t?時刻的噪聲狀態(tài)進(jìn)行聚類得到的典型簇中心。

  • 訓(xùn)練與推理:在訓(xùn)練時,除了標(biāo)準(zhǔn)的去噪損失,還增加了一個SAS引導(dǎo)損失(L_SAS),強(qiáng)制模型在關(guān)鍵時間步的預(yù)測狀態(tài)向預(yù)設(shè)的語義錨點靠近。這使得整個去噪軌跡更加平滑、目標(biāo)明確。

  • 加速推理:這種“燈塔”式的指引顯著降低了擴(kuò)散過程的隨機(jī)性和曲折度,使得DPM-Solver++等高效的ODE求解器能夠采用更大的步長,從而將采樣步數(shù)從訓(xùn)練時的2000步大幅減少至50步左右,實現(xiàn)了數(shù)量級般的生成加速。

03

權(quán)威評測結(jié)果:小模型,大能量

研究成果在多項標(biāo)準(zhǔn)基準(zhǔn)測試中得到了驗證:

  • 長文本理解(LongBench):參數(shù)量僅2.2億(220M)的DrDiff,取得了33.5%的綜合準(zhǔn)確率,性能超越了參數(shù)量高達(dá)700億(70B)的LLaMA-3.1-70B(32.1%)等大型模型。尤其在處理長序列(35.6%)、長對話(38.7%)長結(jié)構(gòu)化數(shù)據(jù)(34.6%)任務(wù)上展現(xiàn)出顯著優(yōu)勢。


  • 生成與問答任務(wù):在WikiHop、TriviaQA、HotpotQA等數(shù)據(jù)集上,DrDiff的綜合表現(xiàn)(平均分?jǐn)?shù)~80.7)與GPT-4o、Qwen2.5-72B等頂級閉源模型仍存差距,但顯著領(lǐng)先于Longformer、LLaMA系列同參數(shù)量級模型及DiffuSeq等擴(kuò)散基線,證明了其架構(gòu)的優(yōu)越性。


  • 效率驗證:實驗表明,在處理16K token的長序列時,DrDiff的訓(xùn)練時間比DiffuSeq減少56%,甚至比高度優(yōu)化的Longformer快9%-10%。


04

未來展望與意義

DrDiff的成功標(biāo)志著長文本生成進(jìn)入了“動態(tài)智能化”的新階段。其提出的動態(tài)路由、分層注意力和語義引導(dǎo)機(jī)制,為后續(xù)相關(guān)研究提供了寶貴的方向。團(tuán)隊計劃未來進(jìn)一步探索其在極長文本(>20K token)、多模態(tài)數(shù)據(jù)融合以及特定垂直領(lǐng)域(如科技、法律文獻(xiàn)生成)中的應(yīng)用,持續(xù)推動生成式AI的能力邊界。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
藍(lán)營春天來了,繼重用王金平后,鄭麗文完成兩件事,侯友宜再發(fā)聲

藍(lán)營春天來了,繼重用王金平后,鄭麗文完成兩件事,侯友宜再發(fā)聲

叮當(dāng)當(dāng)科技
2025-12-27 01:44:43
土豪誕生!中超勁旅買斷韓國球星,預(yù)算超3千萬!明年真要爭冠?

土豪誕生!中超勁旅買斷韓國球星,預(yù)算超3千萬!明年真要爭冠?

國足風(fēng)云
2025-12-26 14:09:14
2026身份證換證潮來了?官方提醒:3類人不用動,7種情況必須換

2026身份證換證潮來了?官方提醒:3類人不用動,7種情況必須換

復(fù)轉(zhuǎn)這些年
2025-12-26 19:38:24
狂輸24分,又23分慘?。臓幑跓衢T跌落,主帥甩鍋,你們真露餡了

狂輸24分,又23分慘敗!從爭冠熱門跌落,主帥甩鍋,你們真露餡了

老侃侃球
2025-12-27 03:30:03
優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

岐黃傳人孫大夫
2025-12-20 10:00:03
津媒:足協(xié)可能在2026年元旦之前給國足主帥邵佳一安排見面會

津媒:足協(xié)可能在2026年元旦之前給國足主帥邵佳一安排見面會

懂球帝
2025-12-26 08:47:05
臺灣只要有馬英九,朱立倫,洪秀珠,想實現(xiàn)和平統(tǒng)一,門都沒有。

臺灣只要有馬英九,朱立倫,洪秀珠,想實現(xiàn)和平統(tǒng)一,門都沒有。

百態(tài)人間
2025-12-26 16:35:51
已笑瘋!莫言發(fā)2025年終總結(jié),句句接地氣,評論區(qū)簡直笑不活

已笑瘋!莫言發(fā)2025年終總結(jié),句句接地氣,評論區(qū)簡直笑不活

徐幫陽
2025-12-25 20:51:55
C羅也挽救不了亞冠二級聯(lián)賽的人氣,僅8000多人觀看

C羅也挽救不了亞冠二級聯(lián)賽的人氣,僅8000多人觀看

星耀國際足壇
2025-12-26 23:15:56
澤連斯基圣誕致辭詛咒普京,克宮怒斥:粗魯無禮

澤連斯基圣誕致辭詛咒普京,克宮怒斥:粗魯無禮

揚(yáng)子晚報
2025-12-26 12:31:51
半年回本,900億規(guī)模!曾倒閉7萬家門店的暴利生意,如今又回來了

半年回本,900億規(guī)模!曾倒閉7萬家門店的暴利生意,如今又回來了

財經(jīng)八卦
2025-12-25 19:45:18
A股:財政部、發(fā)改委重磅發(fā)聲!市場突然突然跳水,調(diào)整開始了?

A股:財政部、發(fā)改委重磅發(fā)聲!市場突然突然跳水,調(diào)整開始了?

深析古今
2025-12-26 12:00:54
為什么我要祝你圣誕快樂?

為什么我要祝你圣誕快樂?

寰宇大觀察
2025-12-25 14:08:05
周大?;貞?yīng)黃金牛馬吊墜陰陽打工人

周大福回應(yīng)黃金牛馬吊墜陰陽打工人

界面新聞
2025-12-26 15:42:10
剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

剛復(fù)出就開演唱會,票價賣到1280,到底誰給的自信?

易同學(xué)愛談娛樂
2025-07-02 08:32:15
美國過年,中國第三架殲36升空,樣子又變了,已進(jìn)入下一階段

美國過年,中國第三架殲36升空,樣子又變了,已進(jìn)入下一階段

頭條爆料007
2025-12-26 17:46:35
2026年央視馬年春晚官宣,看完導(dǎo)演和擬邀名單,廁所都不敢去上了

2026年央視馬年春晚官宣,看完導(dǎo)演和擬邀名單,廁所都不敢去上了

包餃子ai剪輯
2025-12-11 11:52:28
王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

韓馳
2025-12-26 22:37:49
12月起開藥迎大變化!醫(yī)保局劃三條紅線,超量或需自費

12月起開藥迎大變化!醫(yī)保局劃三條紅線,超量或需自費

慧眼看世界哈哈
2025-12-26 13:31:14
大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

另子維愛讀史
2025-12-26 16:31:13
2025-12-27 03:59:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7026文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

態(tài)度原創(chuàng)

教育
時尚
游戲
家居
房產(chǎn)

教育要聞

不公布成績排名其實也不耽誤學(xué)生知道誰是優(yōu)秀生誰是差生!

我們?yōu)槭裁葱枰?jié)日穿搭?

PS6或兼容PS1-PS5全世代游戲!索尼新專利曝光

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

房產(chǎn)要聞

炸裂,三亞360億超級清單發(fā)布,又一批重大配套要來了!

無障礙瀏覽 進(jìn)入關(guān)懷版 天堂国产AV| 亚洲精品一级片a| 成人 无码 日韩| AV最新天堂资源在线| 国产99视频在线| 久久久久亚洲av无码专区网站 | 人妻视频网站快射视频| 人妻丰满熟妇A无码区| 手机免费在线看av| 蜜乳AV一区二区三区在线播放| 青草伊人久久综在合线亚洲| 苍井空无码影院| 国产精品自在拍在线播放| 欧美高清视频一区二区| 好吊妞988| 九九热在线精品视频| 国语憿情少妇无码av| 四虎成人精品永久在线视频| 紧爽舒服视频高清在线网址| 成人免费无遮挡在线播放| 国产成人精品三级麻豆| 韩国理伦片一区二区三区在线播放| 色七七桃色影院| 91九色丨PORNY丨蝌蚪| 午夜欧美理论2019理论| 欧美成人影院在线一区二区综合| 久久黄色av| 亚洲欧美日韩自偷自拍| 国产成人av在线免播放观看新| 国产一区国产二区在线视频| 国产精品自在线拍国产| 奇米精品视频一区二区三区| 午夜激情在线| 丰满少妇被猛烈进入高清| BrαZZers欧美一区二区| H在线日本欧美风| WWW.XX亚洲| 激情文学另类小说亚洲图片| 极品少妇无码AV在线| 被按摩师玩弄到潮喷| 国产成人性爱视频|