北大張銘教授團隊與DeepSeek梁文鋒團隊合作,在長上下文大語言模型高效建模領(lǐng)域取得突破性進展。
據(jù)國家自然科學(xué)基金委消息,在國家自然科學(xué)基金項目資助下,北京大學(xué)計算機學(xué)院張銘教授團隊與DeepSeek梁文鋒團隊合作,在長上下文大語言模型高效建模領(lǐng)域取得突破性進展,相關(guān)成果以“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”為題在自然語言處理領(lǐng)域頂級會議Association for Computational Linguistics(ACL)2025中發(fā)表,并被評為最佳論文(Best Paper Award)。張銘教授和梁文鋒先生為論文的共同通訊作者。
長上下文建模是下一代大型語言模型(LLM)的關(guān)鍵能力,但標準注意力機制的高計算開銷是重大挑戰(zhàn)。稀疏注意力雖然具有較強的發(fā)展前景,但現(xiàn)有方法常面臨理論優(yōu)勢難轉(zhuǎn)化為實際加速、以及缺乏端到端訓(xùn)練支持等問題,嚴重制約了長文本AI應(yīng)用的發(fā)展。針對這一問題,研究團隊創(chuàng)新性提出了一種全新的注意力機制——原生可訓(xùn)練稀疏注意力(Native Sparse Attention,NSA)。NSA的核心創(chuàng)新體現(xiàn)在兩個方面:首先是硬件對齊的算法與實現(xiàn),通過算術(shù)強度均衡設(shè)計和專用算子,顯著提升運行速度,將稀疏注意力理論優(yōu)勢轉(zhuǎn)化為實際加速;其次是原生可訓(xùn)練性,實現(xiàn)端到端訓(xùn)練模式,解決了稀疏注意力訓(xùn)練難題,在保持性能的同時大幅降低預(yù)訓(xùn)練計算開銷。
圖 原生可訓(xùn)練稀疏注意力機制(NSA)
實驗結(jié)果表明,基于NSA預(yù)訓(xùn)練的模型在通用基準、長上下文及指令推理任務(wù)上,均能保持甚至超越傳統(tǒng)注意力模型表現(xiàn)。在64k序列長度下,NSA在解碼、前向傳播與反向傳播階段均實現(xiàn)顯著加速。與Flash Attention對比,NSA在前向傳播速度提升可達9倍,反向傳播實現(xiàn)6倍加速,呈現(xiàn)“越長越優(yōu)”趨勢。
該研究不僅解決了稀疏注意力機制的實際應(yīng)用挑戰(zhàn),更為推動高效大型語言模型發(fā)展提供了新方向。該論文自今年2月公開以來已被谷歌學(xué)術(shù)引用近百次,研究成果已被DeepSeek、華為、字節(jié)跳動等多家領(lǐng)先的大模型企業(yè)實現(xiàn)或復(fù)現(xiàn),充分驗證了其技術(shù)的先進性和實用性。
北大張銘教授主要研究領(lǐng)域在文本挖掘、知識圖譜、圖神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)等方面,長期深耕數(shù)據(jù)科學(xué)領(lǐng)域,在信息檢索與推薦方面有突出貢獻,是我國數(shù)據(jù)及計算科學(xué)領(lǐng)域的知名學(xué)者。發(fā)表或合作發(fā)表學(xué)術(shù)論文超300多篇,出版多本在數(shù)據(jù)及計算領(lǐng)域有影響力的專著,其主講的“數(shù)據(jù)結(jié)構(gòu)與算法”,入選國家級和北京市級精品課程、國家級精品資源共享課程。她還擔(dān)任教育部計算機課程教指委委員,ACM教育專委會唯一中國理事。連續(xù)入選“全球2000位最具影響力AI學(xué)者”。
DeepSeek梁文鋒畢業(yè)于浙江大學(xué),獲得信息與電子工程學(xué)系學(xué)士和碩士學(xué)位,其作為通訊作者,與DeepSeek團隊共同完成的關(guān)于DeepSeek-R1推理模型的研究論文,成功登上國際權(quán)威期刊《自然(Nature)》封面。
主要來源:國家自然科學(xué)基金委員會 北京大學(xué)計算機學(xué)院
編輯:曉燕
指導(dǎo):辛文
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.