夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大拿下2篇最佳論文,DeepSeek實(shí)習(xí)生立功,華人橫掃這場(chǎng)AI頂會(huì)

0
分享至


智東西
作者 陳駿達(dá)
編輯 李水青

智東西7月31日?qǐng)?bào)道,昨天,第63屆計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì)(ACL 2025)在奧地利召開(kāi)。作為自然語(yǔ)言處理領(lǐng)域最具學(xué)術(shù)影響力的會(huì)議之一,本屆ACL吸引了超過(guò)8300多篇論文的投稿,中國(guó)大陸科研人員在本屆ACL實(shí)現(xiàn)明顯突破。

最佳論文獎(jiǎng)是ACL最受關(guān)注的獎(jiǎng)項(xiàng),今年ACL共評(píng)選出4篇最佳論文,其中2篇來(lái)自中國(guó)大陸,分別由北大、DeepSeek和華盛頓大學(xué)聯(lián)合團(tuán)隊(duì),以及北大-靈初智能聯(lián)合實(shí)驗(yàn)室摘得。

DeepSeek等機(jī)構(gòu)的獲獎(jiǎng)?wù)撐囊?strong>原生稀疏注意力(NSA)為主題,第一作者為袁境陽(yáng)。袁境陽(yáng)在DeepSeek實(shí)習(xí)期間提出了NSA模型,現(xiàn)在在北京大學(xué)計(jì)算機(jī)學(xué)院攻讀博士學(xué)位。DeepSeek創(chuàng)始人兼CEO梁文鋒也出現(xiàn)在作者名單中。

NSA可用于超快速的長(zhǎng)上下文訓(xùn)練與推理,以性價(jià)比極高的方式,罕見(jiàn)地在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)推場(chǎng)景中均實(shí)現(xiàn)速度的明顯提升,特別是在解碼階段實(shí)現(xiàn)了高達(dá)11.6倍的提升。


論文鏈接:https://aclanthology.org/2025.acl-long.1126/

北大-靈初智能聯(lián)合實(shí)驗(yàn)室首席科學(xué)家楊耀東博士團(tuán)隊(duì)的獲獎(jiǎng)?wù)撐?,則揭示了大模型參數(shù)結(jié)構(gòu)中存在的一種彈性機(jī)制,并可能導(dǎo)致模型在后訓(xùn)練階段產(chǎn)生抗拒對(duì)齊的行為。這一發(fā)現(xiàn)對(duì)AI治理和安全問(wèn)題很有啟發(fā)意義。


論文鏈接:https://aclanthology.org/2025.acl-long.1141/

其余2篇最佳論文來(lái)自美國(guó)、德國(guó)。斯坦福大學(xué)、康奈爾大學(xué)(科技校區(qū))聯(lián)合團(tuán)隊(duì)在獲獎(jiǎng)?wù)撐闹刑峁┝艘惶自u(píng)估算法公平性的基準(zhǔn)測(cè)試,并發(fā)現(xiàn)現(xiàn)有促進(jìn)算法公平性的手段存在誤區(qū),如果盲目使用可能會(huì)適得其反。


論文鏈接:https://aclanthology.org/2025.acl-long.341.pdf

由德國(guó)CISPA亥姆霍茲信息安全中心、TCS Research以及微軟三家機(jī)構(gòu)合作的獲獎(jiǎng)?wù)撐?,則聚焦于大型語(yǔ)言模型在自主決策中的采樣偏差——揭示其背后由“描述性常態(tài)”與“規(guī)定性理想”共同塑造的啟發(fā)式機(jī)制,并通過(guò)公共衛(wèi)生與經(jīng)濟(jì)趨勢(shì)等現(xiàn)實(shí)案例,論證這種向理想值偏移的現(xiàn)象如何在實(shí)際應(yīng)用中導(dǎo)致顯著偏差與倫理風(fēng)險(xiǎn)。


論文鏈接:https://aclanthology.org/2025.acl-long.1454/

ACL官方數(shù)據(jù)顯示,2025年,所有投稿論文中的第一作者中,有51.3%來(lái)自中國(guó)大陸,與去年30.6%的比例實(shí)現(xiàn)了明顯增長(zhǎng);今年所有作者中,中國(guó)大陸作者的比例也達(dá)到51%。過(guò)去兩年,美國(guó)在第一作者數(shù)量上均位居第二,不過(guò)比例已經(jīng)從2024年的29.6%下降至2025年的14.0%。

以下是本屆ACL中兩篇來(lái)自中國(guó)大陸的最佳論文的核心內(nèi)容梳理:

一、DeepSeek聯(lián)手北大:新型稀疏注意力機(jī)制,讓模型解碼狂飆11.6倍

北京大學(xué)、DeepSeek和華盛頓大學(xué)聯(lián)合團(tuán)隊(duì)(后簡(jiǎn)稱聯(lián)合團(tuán)隊(duì))的獲獎(jiǎng)?wù)撐娜麨椤对∈枳⒁饬Γ好嫦蛴布?duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)》,曾于今年2月份作為DeepSeek-R1開(kāi)源的系列技術(shù)報(bào)告之一發(fā)布。

什么是稀疏注意力?與傳統(tǒng)注意力機(jī)制相比,稀疏注意力方法能通過(guò)選擇性計(jì)算關(guān)鍵的查詢鍵對(duì)來(lái)減少計(jì)算開(kāi)銷。不過(guò),現(xiàn)有許多稀疏注意力方法在實(shí)際推理中未能顯著降低延遲,還無(wú)法適應(yīng)現(xiàn)代高效的解碼架構(gòu),也缺乏對(duì)訓(xùn)練階段的支持。

聯(lián)合團(tuán)隊(duì)希望解決現(xiàn)有稀疏注意力的兩大問(wèn)題,一是事后稀疏化導(dǎo)致的性能退化,二是現(xiàn)有稀疏方法在長(zhǎng)序列訓(xùn)練的效率短板。

NSA的核心思想是通過(guò)動(dòng)態(tài)分層稀疏策略,結(jié)合粗粒度的token壓縮和細(xì)粒度的token選擇,保留全局上下文感知能力和局部精確性。

在NSA機(jī)制中,模型會(huì)同時(shí)使用三種不同的注意力方式來(lái)處理輸入文本,每種方式都有它自己的擅長(zhǎng)領(lǐng)域:

(1)壓縮注意力

這個(gè)分支把輸入的信息聚合成塊,捕捉粗粒度的語(yǔ)義信息,也就是對(duì)輸入內(nèi)容的關(guān)鍵信息進(jìn)行總結(jié)提煉。壓縮注意力可以減少計(jì)算的工作量,但會(huì)損失細(xì)節(jié)。

(2)選擇性注意力

為了避免壓縮時(shí)遺漏重要內(nèi)容,NSA新增了選擇性注意力機(jī)制。這一機(jī)制給每一塊信息打個(gè)“重要程度”的分?jǐn)?shù),并選擇最關(guān)鍵的信息進(jìn)行更細(xì)致的計(jì)算。這樣既能保留關(guān)鍵細(xì)節(jié),又不會(huì)讓計(jì)算變得太復(fù)雜。

(3)滑動(dòng)窗口注意力

這個(gè)分支負(fù)責(zé)處理文本中臨近的詞之間的關(guān)系。它會(huì)在固定大小的窗口內(nèi)計(jì)算注意力,比如只看當(dāng)前詞前后的幾個(gè)詞,這樣可以更好地理解局部上下文。這個(gè)機(jī)制能防止模型太過(guò)依賴前兩個(gè)機(jī)制,而忽視鄰近詞之間的聯(lián)系。

整體來(lái)看,NSA通過(guò)這三種注意力機(jī)制互相配合,一方面節(jié)省計(jì)算資源,一方面又能兼顧全局語(yǔ)義和關(guān)鍵細(xì)節(jié)。


▲NSA架構(gòu)概覽

為測(cè)試NSA機(jī)制的實(shí)際效果,聯(lián)合團(tuán)隊(duì)在同一模型的基礎(chǔ)上,分別使用了不同的注意力機(jī)制,比如傳統(tǒng)的全注意力機(jī)制、NSA機(jī)制等,并在多個(gè)測(cè)試任務(wù)上進(jìn)行比較。

使用NSA機(jī)制的模型在9個(gè)測(cè)試中獲得了7項(xiàng)最佳成績(jī),整體表現(xiàn)超過(guò)了其它所有方法,包括全注意力。尤其是在邏輯推理、問(wèn)答等任務(wù)上,采用NSA機(jī)制的模型表現(xiàn)較好,這說(shuō)明它能排除掉不重要的信息,把注意力集中在真正關(guān)鍵的部分。

除了質(zhì)量方面的提升,NSA還帶來(lái)效率方面的優(yōu)勢(shì)。聯(lián)合團(tuán)隊(duì)在8張A100顯卡上做了測(cè)試,他們發(fā)現(xiàn):

(1)在64k長(zhǎng)度的文本輸入下,NSA的前向計(jì)算速度是全注意力的9倍;

(2)反向計(jì)算速度是全注意力的6倍

(3)在解碼時(shí),NSA將速度提升至原有的11.6倍

這些提速的關(guān)鍵在于NSA對(duì)硬件更友好,比如,其內(nèi)存訪問(wèn)是按“塊”來(lái)走的,最大化了張量核心的利用率,而且內(nèi)部調(diào)度機(jī)制減少了不必要的計(jì)算負(fù)擔(dān)。

二、北大-靈初智能團(tuán)隊(duì):探索模型對(duì)齊困境,“彈性”機(jī)制或成開(kāi)源模型隱憂

北大-靈初智能聯(lián)合實(shí)驗(yàn)室首席科學(xué)家楊耀東博士團(tuán)隊(duì)(后簡(jiǎn)稱該團(tuán)隊(duì))的獲獎(jiǎng)?wù)撐娜麨椤墩Z(yǔ)言模型抗拒對(duì)齊:來(lái)自數(shù)據(jù)壓縮的證據(jù)(Language Models Resist Alignment: Evidence From Data Compression)》。這一研究揭示了一個(gè)關(guān)鍵問(wèn)題:大語(yǔ)言模型在對(duì)齊時(shí)其實(shí)會(huì)反抗。

該團(tuán)隊(duì)發(fā)現(xiàn),盡管我們可以通過(guò)各類對(duì)齊方式讓模型變得更“安全”、更“符合人類價(jià)值觀”,模型本身其實(shí)傾向于回到它原來(lái)預(yù)訓(xùn)練時(shí)學(xué)到的原始分布。就像一個(gè)彈簧被拉伸后又想回到原始狀態(tài),這種行為被稱為“彈性”。


這種彈性體現(xiàn)在兩個(gè)方面:

(1)抵抗(Resistance):模型不太愿意改變自己,仍然保留原來(lái)的分布特征;

(2)反彈(Rebound):對(duì)模型對(duì)齊越深,它反彈回原始狀態(tài)的速度反而越快——如果用反方向訓(xùn)練(比如取消之前的對(duì)齊過(guò)程),它很快就會(huì)打回原形。

研究還發(fā)現(xiàn),這種行為可以用壓縮率變化來(lái)衡量——也就是說(shuō),模型對(duì)不同數(shù)據(jù)集的學(xué)習(xí)壓縮程度變化,與數(shù)據(jù)量大小成反比。

為了進(jìn)一步解釋這種行為,該團(tuán)隊(duì)構(gòu)建了一個(gè)理論模型:語(yǔ)言模型訓(xùn)練和對(duì)齊過(guò)程其實(shí)是一種信息壓縮過(guò)程。他們基于“壓縮定理”(compression theorem)和“壓縮協(xié)議”(compression protocol),從信息論的角度來(lái)分析模型為什么會(huì)產(chǎn)生“彈性”——這為理解為什么對(duì)齊不穩(wěn)定提供了數(shù)學(xué)框架。

最后,該團(tuán)隊(duì)通過(guò)一系列實(shí)驗(yàn),驗(yàn)證了這一現(xiàn)象在不同的大模型中都存在。這說(shuō)明“彈性”并不是個(gè)別模型的特例,而是語(yǔ)言模型訓(xùn)練過(guò)程中一種普遍的內(nèi)在機(jī)制。

因此,要想實(shí)現(xiàn)真正穩(wěn)固的對(duì)齊,不能只停留在表層的微調(diào),而必須深入理解并對(duì)抗這種由壓縮機(jī)制引發(fā)的反對(duì)齊傾向。

該團(tuán)隊(duì)還基于模型彈性機(jī)制,提出了對(duì)開(kāi)源策略的思考。

一方面,開(kāi)源模型權(quán)重有助于研究者快速發(fā)現(xiàn)漏洞、推動(dòng)大規(guī)模對(duì)齊與安全研究;另一方面,模型彈性也意味著,即便是通過(guò)審計(jì)和安全微調(diào)的模型,如果被公開(kāi),一旦出現(xiàn)更先進(jìn)的反對(duì)齊手段,這些模型也可能很容易被重置到未對(duì)齊狀態(tài),大大降低模型“越獄”的門檻,破壞原有的安全機(jī)制,帶來(lái)現(xiàn)實(shí)風(fēng)險(xiǎn)。

結(jié)語(yǔ):華人AI研究者集體崛起,安全成為ACL熱點(diǎn)議題

除了中國(guó)大陸團(tuán)隊(duì)在最佳論文獎(jiǎng)上的杰出表現(xiàn),ACL 2025還見(jiàn)證了華人AI研究者的集體崛起。

本屆ACL評(píng)選出26篇杰出論文,這是重要性僅次于最佳論文的獎(jiǎng)項(xiàng)。這26篇論文中,有13篇論文的第一作者為華人,占比達(dá)50%。這也顯示出,華人AI研究者在全球范圍內(nèi)的學(xué)術(shù)影響力,正不斷擴(kuò)大。

值得一提是,ACL的獲獎(jiǎng)?wù)撐闹?,有大量以AI安全、監(jiān)督、對(duì)齊等為主題,學(xué)術(shù)界對(duì)這些重要議題的關(guān)注,給產(chǎn)業(yè)界的AI研究提供了極為有益的補(bǔ)充。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
限時(shí)售價(jià)25.99萬(wàn)元起,它是今年最值得買的燃油轎車?

限時(shí)售價(jià)25.99萬(wàn)元起,它是今年最值得買的燃油轎車?

優(yōu)視汽車
2025-08-01 22:57:53
61歲央企董事長(zhǎng)突然去世:最后露面照嚴(yán)重脫相,知情者披露隱情

61歲央企董事長(zhǎng)突然去世:最后露面照嚴(yán)重脫相,知情者披露隱情

博士觀察
2025-08-03 20:00:30
網(wǎng)友爆料買華為手機(jī)要「簽字畫押」:系部分軟件功能缺陷不全

網(wǎng)友爆料買華為手機(jī)要「簽字畫押」:系部分軟件功能缺陷不全

鞭牛士
2025-08-02 18:49:07
中超又一個(gè)扎哈維:400萬(wàn)歐新外援5場(chǎng)已獨(dú)造8球太超值!

中超又一個(gè)扎哈維:400萬(wàn)歐新外援5場(chǎng)已獨(dú)造8球太超值!

邱澤云
2025-08-03 23:10:15
成功衛(wèi)冕!全國(guó)田徑錦標(biāo)賽女子100米決賽:名將梁小靜11秒19奪冠

成功衛(wèi)冕!全國(guó)田徑錦標(biāo)賽女子100米決賽:名將梁小靜11秒19奪冠

直播吧
2025-08-03 22:30:07
中俄海參崴聯(lián)合軍演   香港李嘉誠(chéng)加速撤離

中俄海參崴聯(lián)合軍演 香港李嘉誠(chéng)加速撤離

跟著老李看世界
2025-08-01 15:45:23
老戲骨朱龍廣去世!曾出演《西游記》如來(lái)佛祖,六小齡童發(fā)文悼念

老戲骨朱龍廣去世!曾出演《西游記》如來(lái)佛祖,六小齡童發(fā)文悼念

萌神木木
2025-08-03 15:30:10
先租后買,尤文圖斯敲定9500萬(wàn)中鋒!已談妥個(gè)人協(xié)議,大巴黎開(kāi)心

先租后買,尤文圖斯敲定9500萬(wàn)中鋒!已談妥個(gè)人協(xié)議,大巴黎開(kāi)心

萬(wàn)花筒體育球球
2025-08-03 21:56:03
WNBA飛翼官宣1換3交易:23年榜眼將聯(lián)手李月汝 送出主力卡林頓

WNBA飛翼官宣1換3交易:23年榜眼將聯(lián)手李月汝 送出主力卡林頓

醉臥浮生
2025-08-03 22:06:05
華為芯片大案14人全判刑!偷走9億研發(fā)成果,公司被強(qiáng)制解散

華為芯片大案14人全判刑!偷走9億研發(fā)成果,公司被強(qiáng)制解散

阿傖說(shuō)事
2025-08-03 07:27:38
全員社保,小微企業(yè)和個(gè)體戶怎么走,房產(chǎn)中介老板天都塌了!

全員社保,小微企業(yè)和個(gè)體戶怎么走,房產(chǎn)中介老板天都塌了!

恪守原則和底線
2025-08-04 05:20:10
突發(fā)!南京知名民辦破產(chǎn)清算!

突發(fā)!南京知名民辦破產(chǎn)清算!

南京擇校
2025-08-03 22:16:01
54歲卡車司機(jī)被“蒸熟”在駕駛艙!3天后車門一開(kāi),在場(chǎng)人全吐了

54歲卡車司機(jī)被“蒸熟”在駕駛艙!3天后車門一開(kāi),在場(chǎng)人全吐了

趣味萌寵的日常
2025-08-02 06:37:40
武大事件發(fā)酵,武大回應(yīng):楊某媛可能制造校運(yùn)敗壞的拐點(diǎn)

武大事件發(fā)酵,武大回應(yīng):楊某媛可能制造校運(yùn)敗壞的拐點(diǎn)

阿傖說(shuō)事
2025-08-01 07:46:13
楊某某又一煙霧彈被扒開(kāi)!她是武大經(jīng)管學(xué)院本碩,高考考了618分

楊某某又一煙霧彈被扒開(kāi)!她是武大經(jīng)管學(xué)院本碩,高考考了618分

火山詩(shī)話
2025-08-02 18:20:01
遼寧丹東鳳凰山景區(qū)一游客墜崖不幸身亡

遼寧丹東鳳凰山景區(qū)一游客墜崖不幸身亡

新京報(bào)
2025-08-03 17:54:05
油價(jià)調(diào)整消息:今天8月2日,全國(guó)加油站調(diào)整后92、95汽油新售價(jià)

油價(jià)調(diào)整消息:今天8月2日,全國(guó)加油站調(diào)整后92、95汽油新售價(jià)

小李子體育
2025-08-04 06:23:15
一地新增2892例!杭州疾控重要提醒

一地新增2892例!杭州疾控重要提醒

FM93浙江交通之聲
2025-08-03 22:18:19
官宣,敲定!9換1大獲成功!尼克斯超級(jí)進(jìn)化,字母哥還在向錢看啊

官宣,敲定!9換1大獲成功!尼克斯超級(jí)進(jìn)化,字母哥還在向錢看啊

張家大院趣說(shuō)天下事
2025-08-03 08:05:03
律師解讀:武大肖同學(xué)能贏純屬運(yùn)氣好,但凡換一個(gè)人基本輸定了

律師解讀:武大肖同學(xué)能贏純屬運(yùn)氣好,但凡換一個(gè)人基本輸定了

甜檸聊史
2025-08-01 11:44:55
2025-08-04 07:32:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10248文章數(shù) 116815關(guān)注度
往期回顧 全部

科技要聞

乘龍卡車內(nèi)涵喊話:"活著,才有資格談理想"

頭條要聞

男子疑坐一米高欄桿翻落后墜崖身亡 妻子親眼目睹全程

頭條要聞

男子疑坐一米高欄桿翻落后墜崖身亡 妻子親眼目睹全程

體育要聞

12歲小孩姐:3個(gè)世界第四,全部刷新PB

娛樂(lè)要聞

老戲骨朱龍廣去世!六小齡童發(fā)文悼念

財(cái)經(jīng)要聞

杜建英子女在美國(guó)或另有信托

汽車要聞

東風(fēng)奕派eπ008六座版售價(jià)18.86萬(wàn)元起

態(tài)度原創(chuàng)

時(shí)尚
本地
家居
房產(chǎn)
公開(kāi)課

這件衣服終于火了!今夏流行的優(yōu)雅藝術(shù)風(fēng)離不開(kāi)它

本地新聞

換個(gè)城市過(guò)夏天|躲進(jìn)雅安過(guò)幾天大熊貓式慢生活

家居要聞

法式浪漫 空間動(dòng)靜分離

房產(chǎn)要聞

勁爆!海南又又又搶地了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产一区二区三区在线播放高清不卡无码| 精品国内在视频线2019| 国产69精品久久久久乱码| 后入人妻一区| 香蕉久久一区二区不卡无毒影院| 99九九99九九视频精品| 免费久久99精品国产自在现线| 国产精品久久久久久亚洲影视公司| 日韩国产精品视频在放| 亚洲第一区无码专区| 国产成人啪精品午夜网站| 久久久久久亚洲av无码专区| 欧美成人国产精品高潮| 久视频Www| 亚洲国产精品久久久久秋霞影院| 精品国产一区二区在线车| 国产偷国产偷亚洲清高| 神马久久理论片| 亚洲AV秘 无码一区二区三区一 | 全免费a级毛片免费看无码 | tai9太久成人免费| 国偷自产一区二区三区无字幕| 国产九九99久久99大香伊| 久久无码少妇| 正在播放国产真实哭都没用| 欧美精品久久久久久精品爆乳| 成人在线免费观看视频一区| 影音先锋久久久久av综合网成人| 亚洲AV三级片网站| 九色国产丨白丝PORNY| 德国性猛交XXXXHD| 一二三区高清无码| 毛片精品免费视频| 国产综合有码无码中文字幕 | 无码av网站| 色亚洲乱伦f| 天天综合色激情| 国产传媒视频| 无码av一区二区大桥久未| 亚洲高清中文字幕在线看不卡 | 欧美精产国品一二三类产品特点|