7月27日至8月1日,第63屆國際計算語言學年會 ACL 2025在奧地利維也納舉行。今年大會投稿量再創(chuàng)新高,總計收到超過8000篇投稿。
本次ACL共有4篇最佳論文,2篇最佳社會影響力論文,3篇最佳資源論文,3篇最佳主題論文,26篇杰出論文,以及TACL最佳論文,最佳Demo,時間檢驗獎等若干獎項。
根據(jù)現(xiàn)場官方的數(shù)據(jù),在所有論文的第一作者中,超過半數(shù)(51.3%)來自中國,美國作者數(shù)量緊隨中國之后居第二,占比為14.0%;韓國排名第三,占比為5.2%。
DeepSeek 梁文鋒 & 北大張銘等合作斬獲 ACL 2025 最佳論文!
2025 年 7 月 30 日,在奧地利維也納舉行的 ACL 2025 頒獎典禮上,DeepSeek梁文鋒、曾旺丁和北大張銘教授作為通訊作者發(fā)表的題為《Native Sparse Attention: Hardware - Aligned and Natively Trainable Sparse Attention》的研究論文榮獲最佳論文獎。
論文第一作者:北京大學計算機學院碩士生袁境陽(北京大學,導師為張銘教授),合作者包括高華佐(DeepSeek),代達勱(DeepSeek),羅鈞宇(北京大學)、肖之屏(華盛頓大學)等。
有猜測認為,該技術可能會被應用于下一代 DeepSeek - V4 以及 DeepSeek - R2 中,有望推動自然語言處理領域的發(fā)展。
該論文提出了原生稀疏注意力(NSA)機制,通過算法與硬件優(yōu)化相結(jié)合,實現(xiàn)了高效的長文本建模。NSA 采用動態(tài)分層稀疏策略,將粗粒度 token 壓縮與細粒度 token 選擇相結(jié)合,同時保持全局上下文感知和局部精確性。實驗顯示,NSA 在處理 64k 長度序列時,相較于全注意力機制,在解碼、前向傳播和后向傳播等方面實現(xiàn)了顯著加速,長文本處理速度最高提升 11.6 倍,且在通用基準測試中性能反超傳統(tǒng)全注意力模型。此外,NSA 還支持端到端訓練,能在不犧牲模型性能的前提下減少預訓練計算量。
長文本處理能力是新一代語言模型的關鍵需求,但傳統(tǒng)注意力機制帶來的巨大計算開銷一直是一個棘手的問題。在這種背景下,稀疏注意力機制展現(xiàn)出了提升計算效率同時又能保持模型性能的巨大潛力。
本文提出了一種名為NSA的創(chuàng)新性稀疏注意力機制,它能夠原生支持訓練,通過將算法創(chuàng)新與硬件優(yōu)化相結(jié)合,實現(xiàn)了高效的長文本處理。NSA采用了動態(tài)分層的稀疏策略:在保證全局信息獲取的同時,還能夠精確捕捉局部細節(jié),這得益于其巧妙結(jié)合了粗粒度的令牌壓縮和細粒度的令牌選擇。我們的主要創(chuàng)新點有兩個:一是通過精心設計的算法平衡了計算密度,并針對現(xiàn)代硬件做了專門優(yōu)化,顯著提升了運行速度;二是實現(xiàn)了端到端的訓練模式,在確保模型性能的前提下大幅降低了預訓練的計算量。
實驗結(jié)果顯示:采用NSA預訓練的模型在通用基準測試、長文本處理和指令推理等多個任務上,性能均達到或超過了使用完整注意力機制的模型。此外,在處理64k長度序列時,無論是decoding、前向傳播還是反向傳播,NSA都展現(xiàn)出了顯著的速度優(yōu)勢,充分證明了它在模型全生命周期中的高效性。
原生稀疏注意力(Native Sparse Attention,NSA)論文的Meta Review的OA分數(shù)為4.5分,已被推薦角逐最佳論文。
編輯、審核:大可
版權聲明:本文由“TOP大學來了”綜合自“北京大學、 ACL 2025”,文章轉(zhuǎn)摘只為學術傳播,如涉及侵權問題,請聯(lián)系我們,我們將及時修改或刪除。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.