夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

EMNLP2025 | 通研院揭秘MoE可解釋性,提升Context忠實(shí)性!

0
分享至



論文發(fā)表于EMNLP2025主會(huì),核心作者為北京通用人工智能研究院(通研院)研究工程師白駿、劉洋,以及通計(jì)劃武漢大學(xué)聯(lián)培一年級(jí)博士生童銘顥,通訊作者為通研院語言交互實(shí)驗(yàn)室研究員賈子夏,實(shí)驗(yàn)室主任鄭子隆。


MoE 遇上機(jī)制可解釋性:

鮮為人知的探索之旅

在大模型研究領(lǐng)域,做混合專家模型(MoE)的團(tuán)隊(duì)很多,但專注機(jī)制可解釋性(Mechanistic Interpretability)的卻寥寥無幾 —— 而將二者深度結(jié)合,從底層機(jī)制理解復(fù)雜推理過程的工作,更是鳳毛麟角。

這條路為何少有人走?原因不難理解:

  • 實(shí)用性存疑—— 可解釋性研究常被質(zhì)疑缺乏應(yīng)用價(jià)值;
  • 技術(shù)門檻高—— 要穿透表層解釋(如 CoT),理解模型內(nèi)部的“暗箱操作”,本就極具挑戰(zhàn);加入 MoE 的路由機(jī)制后,因果追蹤和歸因分析的難度陡增;
  • 非主流共識(shí)—— 相比之下,強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)等黑箱訓(xùn)練方法正大行其道,其成果相對(duì)來得更快更穩(wěn)。

但即便如此,這片未開墾的大陸仍值得探索。當(dāng)這些問題逐漸被揭開,我們不僅能解釋 MoE 的行為,更能設(shè)計(jì)、干預(yù)、優(yōu)化它的思維結(jié)構(gòu),讓我們從“調(diào)參煉丹”走向“理解與創(chuàng)造”。

于是,本文針對(duì)性地提出了面向稀疏模型的機(jī)制可解釋性方法「Router Lens & CEFT」,聚焦于語言模型的上下文忠實(shí)性(Context Faithfulness)問題。目前,該研究已被EMNLP 2025接收。受 MoE 中專家特化現(xiàn)象的啟發(fā),我們提出了Router Lens(路由透鏡),用于識(shí)別那些真正善于利用上下文信息的專家。研究發(fā)現(xiàn),這些專家能夠逐步放大對(duì)關(guān)鍵信息的關(guān)注,并引導(dǎo)模型做出正確的決策。

更令人興奮的是,基于這一機(jī)制洞察,我們開發(fā)了CEFT(上下文忠實(shí)專家微調(diào))方法 —— 僅對(duì)識(shí)別出的關(guān)鍵專家進(jìn)行輕量化微調(diào)。實(shí)驗(yàn)表明,CEFT 在多個(gè)基準(zhǔn)測(cè)試中能以更高效率達(dá)到甚至超越全參數(shù)微調(diào)的效果,同時(shí)顯著緩解了模型訓(xùn)練中常見的災(zāi)難性遺忘問題。

這是一次將對(duì) MoE 的機(jī)制理解轉(zhuǎn)化為實(shí)際收益的嘗試。讓我們一起看看,當(dāng)可解釋性不再只是“知其然”,而是指向“用其然”時(shí),會(huì)發(fā)生什么。



論文標(biāo)題:

Understanding and Leveraging the Expert Specialization of Context Faithfulness in Mixture-of-Experts LLMs

論文地址:

https://arxiv.org/abs/2508.19594

代碼地址:

https://github.com/bigai-nlco/RouterLens

什么是上下文忠實(shí)性?

在依賴上下文的任務(wù)中,如檢索增強(qiáng)生成,模型生成的回答有多靠譜,往往取決于它是否真正依賴提供給它的上下文信息。如圖1所示,所謂上下文忠實(shí)性,就是指模型在生成回復(fù)時(shí),嚴(yán)格以給定上下文為依據(jù),不產(chǎn)生與上下文無關(guān)的幻覺信息。



圖1. 忠于上下文的 LLM 回復(fù)示例。

MoE 中是否存在上下文忠實(shí)專家?

近年來,MoE逐漸成為大模型的主流架構(gòu)選擇。與傳統(tǒng)的稠密激活模型不同,MoE 通過路由網(wǎng)絡(luò)(Router)動(dòng)態(tài)選擇部分專家網(wǎng)絡(luò)(Expert)參與計(jì)算,不僅大幅提升了參數(shù)利用效率,同時(shí)也為模型的模塊化訓(xùn)練與能力分化開辟了新的空間。

已有研究發(fā)現(xiàn),經(jīng)過充分訓(xùn)練的 MoE 模型會(huì)分化出擅長(zhǎng)不同任務(wù)的專家網(wǎng)絡(luò),這一現(xiàn)象被稱為專家特化(Expert Specialization)。由此,我們想進(jìn)一步探究:在這些專家之中,是否存在擅長(zhǎng)利用上下文信息的專家(圖2)?即上下文忠實(shí)專家(Context-Faithful Experts)?



圖2. MoE 中的部分專家可能更擅長(zhǎng)利用上下文信息。

為解決這一問題,本文提出 MoE 特定專家的探測(cè)方法 RouterLens。我們假設(shè):在上下文依賴任務(wù)中被更頻繁激活的專家更善于利用上下文信息。然而,MoE 預(yù)訓(xùn)練中的負(fù)載均衡約束削弱了路由行為與專家特化能力間的可解釋性,使得僅憑激活頻率難以準(zhǔn)確識(shí)別特定能力的專家。

為此,RouterLens 先在上下文依賴任務(wù)上進(jìn)行輕量級(jí)路由微調(diào)(Router Tuning),以校正路由行為,使專家激活能更真實(shí)地反映不同專家的上下文利用能力差異。隨后,統(tǒng)計(jì)各專家的激活次數(shù),并認(rèn)定 Top-K 專家為上下文忠實(shí)專家(圖 3 )。



圖3. RouterLens 鑒定專家的過程

結(jié)論 1:MoE 中確實(shí)存在上下文忠實(shí)專家

本文在 SQuAD、NQ 等上下文依賴任務(wù)上驗(yàn)證了 MoE 模型中上下文忠實(shí)專家的存在性。表 1 顯示,經(jīng)過路由微調(diào)后,模型在所有任務(wù)上的表現(xiàn)均顯著提升,這說明僅調(diào)整專家激活行為即可增強(qiáng)上下文利用能力,證明了上下文忠實(shí)專家的存在。



表1 MoE 模型在路由微調(diào)(Router Tuning)前后的表現(xiàn)對(duì)比

結(jié)論 2:RouterLens 鑒定出的確為上下文忠實(shí)專家

那么,RouterLens 鑒定出的專家是否具備更強(qiáng)的上下文忠實(shí)性?為驗(yàn)證這一點(diǎn),我們還進(jìn)行了屏蔽干預(yù)實(shí)驗(yàn):在模型推理時(shí)屏蔽 RouterLens 鑒定的專家(CE masked),并與屏蔽原始路由激活的專家(OE masked)進(jìn)行對(duì)比。

如圖 4 所示,屏蔽 RouterLens 識(shí)別的專家后,模型性能顯著下降,甚至低于未微調(diào)的基礎(chǔ)模型,證明這些專家在上下文任務(wù)中的關(guān)鍵作用。相比之下,屏蔽原始激活專家的性能下降較小,進(jìn)一步表明負(fù)載均衡訓(xùn)練削弱了路由與專家真實(shí)能力的對(duì)應(yīng)關(guān)系。



圖4. 基礎(chǔ)模型(Base)、路由微調(diào)模型(RT),以及在路由微調(diào)模型上分別屏蔽原始激活專家(RT w/ OE masked)與屏蔽 RouterLens 鑒定專家(RT w/ CE masked)后的性能對(duì)比。

結(jié)論 3:不同任務(wù)下的上下文忠實(shí)專家各不相同。

本文還分析了上下文忠實(shí)專家在不同任務(wù)間的分布特征,將各樣本在所有層中專家激活頻率拼接成特征向量并經(jīng) t-SNE 可視化。結(jié)果(圖 5)顯示,不同任務(wù)形成明顯聚類,說明模型能根據(jù)任務(wù)需求自適應(yīng)激活不同的上下文忠實(shí)專家。



圖5. MoE 模型中上下文忠實(shí)專家激活模式的t-SNE可視化結(jié)果。

雖然上下文忠實(shí)專家是任務(wù)特定的,但調(diào)優(yōu)后的路由網(wǎng)絡(luò)能否泛化至新任務(wù)呢?論文將某數(shù)據(jù)集上調(diào)優(yōu)的路由網(wǎng)絡(luò)應(yīng)用于其他數(shù)據(jù)集。結(jié)果(圖 6)顯示,模型在未見任務(wù)上仍顯著優(yōu)于原始模型,表明路由調(diào)優(yōu)學(xué)到了具備泛化性的上下文忠實(shí)專家激活能力。



圖6. 微調(diào)后路由網(wǎng)絡(luò)的跨任務(wù)遷移性能。每個(gè)單元格表示相對(duì)于基準(zhǔn)模型的 EM 得分絕對(duì)提升值,其中模型在第i行對(duì)應(yīng)的數(shù)據(jù)集上訓(xùn)練,并在第 j 列對(duì)應(yīng)的數(shù)據(jù)集上進(jìn)行評(píng)估。

上下文忠實(shí)專家是如何工作的?

那么,上下文忠實(shí)專家是如何幫助 MoE 利用上下文的呢?直觀上它們像一個(gè)信息樞紐,負(fù)責(zé)捕捉并整合輸入中的上下文,從而提升下游推理與生成的效果。但要驗(yàn)證這一點(diǎn),還需更細(xì)致地分析它們?cè)谟?jì)算流中的具體作用。

結(jié)論 4:上下文忠實(shí)專家能夠增強(qiáng)對(duì)上下文信息的注意力

通常,自注意力被認(rèn)為決定模型對(duì)上下文的感知。本文通過上下文注意力增益和答案注意力增益評(píng)估上下文忠實(shí)專家的作用。結(jié)果(圖 7)顯示,路由微調(diào)后的模型在中、深層顯著增強(qiáng)了對(duì)上下文和答案 Token 的注意力。



圖7. 在 NQ-Swap 測(cè)試集上,路由微調(diào)模型相較于基礎(chǔ)模型在各層上的上下文注意力增益(CAG)和答案注意力增益(AAG)的變化趨勢(shì)。

這種逐層的注意力增強(qiáng)現(xiàn)象反映出一種逐步思考的過程。如圖8所示,中層的上下文忠實(shí)專家?guī)椭P褪紫仍谡麄€(gè)上下文中擴(kuò)大注意力范圍(相當(dāng)于對(duì)信息進(jìn)行“掃描”),以識(shí)別潛在的相關(guān)內(nèi)容;而在更深層中,模型則會(huì)逐步收縮注意力焦點(diǎn),集中關(guān)注于上下文中最關(guān)鍵的片段(即答案 “1964”)。



圖8. OLMoE-1B-7B 模型在 NQ-Swap 測(cè)試樣本上由上下文忠實(shí)專家?guī)淼淖⒁饬υ鲆妗?/p>

結(jié)論 5:上下文專家能夠逐步校正模型的內(nèi)在決策路徑

此外,我們還使用答案概率增益來分析上下文忠實(shí)專家對(duì)模型決策的影響。結(jié)果(圖 9)顯示,路由微調(diào)后模型在深層對(duì)正確答案的預(yù)測(cè)概率顯著提升,表明這些專家通過強(qiáng)化對(duì)關(guān)鍵上下文與答案 Token 的注意力,提升了模型的信息整合與判斷能力。



圖9. 在 NQ-Swap 測(cè)試集上,路由微調(diào)模型相較于基礎(chǔ)模型在各層答案概率增益(APG)的變化趨勢(shì)。

我們?cè)撊绾卫蒙舷挛闹覍?shí)專家?

在明確上下文忠實(shí)專家的作用機(jī)制后,我們進(jìn)一步提出利用它們提升模型性能的思路:將有限計(jì)算資源優(yōu)先分配給上下文忠實(shí)專家,而非訓(xùn)練所有參數(shù),從而實(shí)現(xiàn)高效優(yōu)化?;诖耍岢錾舷挛闹覍?shí)專家微調(diào)(CEFT),首先通過 RouterLens 識(shí)別各層的上下文忠實(shí)專家,然后僅微調(diào)這些專家,保持其余參數(shù)的凍結(jié)(算法 1)。



算法1. 上下文忠實(shí)專家微調(diào)

結(jié)論 6:僅微調(diào)上下文忠實(shí)專家能夠匹配甚至超越全量微調(diào)

如表2所示,對(duì)比了 CEFT 與全量微調(diào)(FFT)的表現(xiàn)??梢杂^察到,在所有 MoE 模型和基準(zhǔn)上,CEFT 一致地表現(xiàn)出與 FFT 持平甚至更優(yōu)的表現(xiàn),顯示了其在利用上下文信息提升任務(wù)表現(xiàn)的有效性。



表2. 全量微調(diào)(FFT)與上下文忠實(shí)專家微調(diào)(CEFT)的表現(xiàn)對(duì)比。

值得注意的是,該表現(xiàn)是在顯著減少訓(xùn)練參數(shù)量的情況下實(shí)現(xiàn)的。如圖10所示,OLMoE-1B-7B 模型在全量微調(diào)下需要訓(xùn)練 69 億參數(shù),而 CEFT 僅需5億參數(shù),實(shí)現(xiàn)了13.8倍的縮減。



圖10. 全量微調(diào)(FFT)與上下文忠實(shí)專家微調(diào)(CEFT)的可訓(xùn)練參數(shù)量對(duì)比。

參數(shù)量顯著減少不僅提升計(jì)算效率,也減輕了災(zāi)難性遺忘。表 3 顯示,在 MMLU 上,路由微調(diào)(RT)、全量微調(diào)(FFT)和上下文忠實(shí)專家微調(diào)(CEFT)的性能下降與可訓(xùn)練參數(shù)量大致成正比,而 CEFT 對(duì)遺忘的抗性明顯優(yōu)于 FFT。



表3. MoE 模型在經(jīng)過不同訓(xùn)練之后在 MMLU 基準(zhǔn)上的表現(xiàn)。

展望

隨著 MoE 模型的廣泛應(yīng)用,RouterLens 還可被用于更多的研究。

首先,RouterLens 可用于識(shí)別與分析更多類型的專家,如推理、證明或編程專家。

其次,它還能定位表現(xiàn)不佳或易誤導(dǎo)的專家,實(shí)現(xiàn) MoE 的 “Debugging”。

最后,將 RouterLens 與 SAE 等機(jī)制可解釋性技術(shù)結(jié)合,可深入理解專家行為與知識(shí)分布,提升模型的可解釋性與可控性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
X欲最強(qiáng)的星座,沒有之一!

X欲最強(qiáng)的星座,沒有之一!

同道大叔
2025-11-15 22:01:52
霍思燕這件衣服太寬松了吧,練個(gè)瑜伽都快走光了,是故意的吧

霍思燕這件衣服太寬松了吧,練個(gè)瑜伽都快走光了,是故意的吧

情感大頭說說
2025-10-26 03:25:09
德約科維奇再次打破一項(xiàng)紀(jì)錄,超越費(fèi)德勒和納達(dá)爾!

德約科維奇再次打破一項(xiàng)紀(jì)錄,超越費(fèi)德勒和納達(dá)爾!

網(wǎng)球之家
2025-11-18 22:40:06
大玉兒最近有點(diǎn)忙,這廂要和多爾袞生順治,那邊要和洪承疇生康熙

大玉兒最近有點(diǎn)忙,這廂要和多爾袞生順治,那邊要和洪承疇生康熙

有歷史
2025-11-18 07:03:57
林北虧麻了!荒野求生14人全部進(jìn)決賽,喝雞湯住別墅,每人2萬元

林北虧麻了!荒野求生14人全部進(jìn)決賽,喝雞湯住別墅,每人2萬元

甜檸聊史
2025-11-18 20:02:08
隨著中國(guó)香港1-2出局+印度墊底,亞洲杯24強(qiáng)定20席:國(guó)足早早晉級(jí)

隨著中國(guó)香港1-2出局+印度墊底,亞洲杯24強(qiáng)定20席:國(guó)足早早晉級(jí)

侃球熊弟
2025-11-19 03:22:46
小米法務(wù)稱雷軍不懂結(jié)構(gòu),發(fā)的微博不算數(shù)

小米法務(wù)稱雷軍不懂結(jié)構(gòu),發(fā)的微博不算數(shù)

新浪財(cái)經(jīng)
2025-11-18 19:25:11
余承東公布華為Mate X7真機(jī) 網(wǎng)友直呼:“柒”’開得勝

余承東公布華為Mate X7真機(jī) 網(wǎng)友直呼:“柒”’開得勝

財(cái)聞
2025-11-18 10:30:54
為啥第三次世界大戰(zhàn),遲遲沒爆發(fā)?溫鐵軍給出背脊發(fā)涼的解釋!

為啥第三次世界大戰(zhàn),遲遲沒爆發(fā)?溫鐵軍給出背脊發(fā)涼的解釋!

沈言論
2025-11-17 16:30:03
哇,這臉蛋極致又高級(jí),這要是在古代,妥妥的貴妃

哇,這臉蛋極致又高級(jí),這要是在古代,妥妥的貴妃

草莓解說體育
2025-11-16 00:45:56
在美失聯(lián)超3周的女留學(xué)生已找到,父親為女兒報(bào)平安

在美失聯(lián)超3周的女留學(xué)生已找到,父親為女兒報(bào)平安

現(xiàn)代快報(bào)
2025-11-18 23:40:05
急尋!23歲中國(guó)女生在波士頓失聯(lián)三周:她的最后一條短信停在十月

急尋!23歲中國(guó)女生在波士頓失聯(lián)三周:她的最后一條短信停在十月

留學(xué)生日?qǐng)?bào)
2025-11-18 07:43:16
美國(guó)解密檔案:中國(guó)在中越戰(zhàn)爭(zhēng)的收獲瞞過全世界,到底賺到了什么

美國(guó)解密檔案:中國(guó)在中越戰(zhàn)爭(zhēng)的收獲瞞過全世界,到底賺到了什么

科普啟示錄小強(qiáng)哥
2025-11-17 10:19:45
行程全劇終,沈伯洋返回臺(tái)灣,下飛機(jī)后緊閉雙眼,解放軍四面圍島

行程全劇終,沈伯洋返回臺(tái)灣,下飛機(jī)后緊閉雙眼,解放軍四面圍島

知鑒明史
2025-11-17 18:27:10
生活中的這些暗示你懂多少?網(wǎng)友:警察一句話,讓我免受牢獄之災(zāi)

生活中的這些暗示你懂多少?網(wǎng)友:警察一句話,讓我免受牢獄之災(zāi)

夜深愛雜談
2025-11-18 21:28:34
每人獎(jiǎng)勵(lì)6000元!四川66283名!

每人獎(jiǎng)勵(lì)6000元!四川66283名!

人力資源報(bào)
2025-11-18 16:33:03
審批通過!重慶新一批演唱會(huì)來啦!

審批通過!重慶新一批演唱會(huì)來啦!

觀星賞月
2025-11-19 00:24:40
“取消雙休”登上熱搜!行內(nèi)人警告:公務(wù)員不是焦點(diǎn),你在劫難逃

“取消雙休”登上熱搜!行內(nèi)人警告:公務(wù)員不是焦點(diǎn),你在劫難逃

行走的知識(shí)庫
2025-11-18 09:15:22
小孩到底幾歲才有正常審美?網(wǎng)友:這些小朋友上輩子過得不好!

小孩到底幾歲才有正常審美?網(wǎng)友:這些小朋友上輩子過得不好!

解讀熱點(diǎn)事件
2025-11-16 00:05:03
霍啟剛弟弟大婚,郭晶晶晚宴為其整理頭發(fā),親媽朱玲玲獨(dú)自出席

霍啟剛弟弟大婚,郭晶晶晚宴為其整理頭發(fā),親媽朱玲玲獨(dú)自出席

鄉(xiāng)野小珥
2025-11-19 05:06:56
2025-11-19 08:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11747文章數(shù) 142507關(guān)注度
往期回顧 全部

科技要聞

一夜封神,Gemini 3讓谷歌找回“碾壓感”

頭條要聞

女生借款13萬被惡意壘高至1260萬 抵押950萬房產(chǎn)還債

頭條要聞

女生借款13萬被惡意壘高至1260萬 抵押950萬房產(chǎn)還債

體育要聞

結(jié)束最后一次對(duì)決,陳夢(mèng)和朱雨玲笑著相擁

娛樂要聞

宋佳奪影后動(dòng)了誰的奶酪

財(cái)經(jīng)要聞

中美機(jī)器人爆發(fā)了一場(chǎng)論戰(zhàn)

汽車要聞

硬核配置旗艦氣場(chǎng) 嵐圖泰山售37.99萬起

態(tài)度原創(chuàng)

本地
時(shí)尚
親子
公開課
軍事航空

本地新聞

這檔古早綜藝,怎么就成了年輕人的哆啦A夢(mèng)?

秋天穿衣暫時(shí)沒靈感?趕緊看看這27套穿搭,舒適自然又大方

親子要聞

規(guī)律跑步訓(xùn)練的孩子更少感冒

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中方代表:日本毫無資格要求成為安理會(huì)常任理事國(guó)

無障礙瀏覽 進(jìn)入關(guān)懷版 日韩国产综合精选| 一本一本久久A久久精品综合不卡| 亚洲av乱码一区二区三区香蕉| 国产免费福利在线视频| 久久综合色av| 51国产偷自视频区视频| 九九热精品视频在线免费| 国产在线视频第一页| 思思99思思久久最新精品| 国产无套无码AⅤ在线观看| 大陆熟妇丰满多毛xxxx| 久久精品国产亚洲一区二区三区 | 一边吃奶一边摸做爽视频| 人人干人人抽| 抠逼一区二区三区| av无码久久久精品免费| 国產精品久久久久久久| 亚洲女人天堂成人av在线| 日本激情五月婷婷| 在线观看亚洲精品福利片| 免费a级毛片无码免费视频app| 天堂在线观看毛片免费视频| 精选AV奶水天堂一区二区| 亚洲有码专区| 人妻熟妇乱又伦精品视频app| 人人妻人人澡人人DVD| 国产剧情传媒在线观看av| 亚欧伦片99久久| 欧美性爱88886666黄网站导航| 九九综合九色综合网站| 丰满老熟女一区二区| 国产00高中生在线无套进入| 亚洲丰满熟女一区二区蜜桃| 色婷婷亚洲色图| 人妻互伦无码| 久久成人国产精品| 日本成熟少妇激情视频免费看 | 国产最大成人亚洲精品| 猫咪av最新永久地址发布页| 三级小说狠狠操| 无码人妻aⅴ一区二区三区蜜桃 |