夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

LLM工業(yè)級自進化:北郵與騰訊AI Lab提出MoE-CL架構,解決大模型持續(xù)學習核心痛點

0
分享至

在工業(yè)級大語言模型(LLM)應用中,動態(tài)適配任務與保留既有能力的 “自進化” 需求日益迫切。真實場景中,不同領域語言模式差異顯著,LLM 需在學習新場景合規(guī)規(guī)則的同時,不丟失舊場景的判斷能力。這正是大模型自進化核心訴求,即 “自主優(yōu)化跨任務知識整合,適應動態(tài)環(huán)境而無需大量外部干預”。

為解決此問題,北郵百家 AI 團隊與騰訊 AI Lab 團隊提出參數高效的對抗性混合專家架構 MoE-CL,專門用于 LLM 的自進化持續(xù)指令微調。其核心設計在于 “解耦 LoRA 專家” 與 “GAN 對抗降噪” 的結合:為每個任務配置專屬 LoRA 專家以保留任務特定知識,避免參數更新相互干擾;同時設置共享 LoRA 專家,通過生成對抗網絡(GAN)中的任務感知鑒別器抑制無關噪聲,確??缛蝿罩R高效且精準傳遞,最終實現(xiàn) “知識保留” 與 “跨任務泛化” 的平衡,這也是 LLM 自進化的核心邏輯。

從實驗效果來看,MoE-CL 的自進化能力已在實際場景與基準測試中得到驗證。在騰訊真實業(yè)務場景 A/B 測試中,它將人工介入成本降低 15.3%;在公開 MTL5 跨域基準與工業(yè)級 Tencent3 基準測試中,其平均準確率優(yōu)于現(xiàn)有主流方法,且在不同任務訓練順序下保持穩(wěn)定,證明其無需人工調整即可適配任務動態(tài)變化。


  • 論文標題: Self-Evolving LLMs via Continual Instruction Tuning

  • 論文鏈接: https://arxiv.org/abs/2509.18133

  • 代碼倉庫:https://github.com/BAI-LAB/MoE-CL

01 引言

在數字經濟蓬勃發(fā)展的當下,海量文本數據如潮水般涌入互聯(lián)網平臺。例如,新聞資訊的快速更新、電商平臺的海量評論等多源異構數據每日激增,面臨跨領域、高時效、強精度的多重挑戰(zhàn)。若采用傳統(tǒng)方案,為每種文本類型單獨訓練模型,將消耗巨大的計算資源與人力成本;而使用單一模型處理全領域文本,又因數據分布差異導致性能失衡,難以滿足業(yè)務需求。在此背景下,亟需一種既能高效處理新任務,又能保留舊任務知識的通用技術方案。為此,我們提出 MoE-CL 大模型混合專家(MoE)持續(xù)學習架構,致力于打破傳統(tǒng)方法的局限,以實現(xiàn)多領域文本任務的高效協(xié)同處理。使得大模型具備自進化能力:動態(tài)適應訓練數據,自主優(yōu)化跨任務知識整合。

02 方法

混合專家持續(xù)學習(MoE-CL)框架聚焦多任務學習中的知識積累與任務適應難題。其核心采用 Transformer 塊的 LoRA 增強技術,重點優(yōu)化前饋神經網絡(FFN)層,通過引入低秩矩陣降低參數更新量與計算成本,同時提升學習效率。

MoE-CL 將 LoRA 專家分為任務特定與任務共享兩類:前者專攻特定任務知識,后者提取跨任務通用信息。結合生成對抗網絡(GAN)分離任務特定與共享信息,確保模型獲取高質量共享知識。

架構上,N 層 LoRA 增強的 Transformer 塊級聯(lián)提取信息,最終由門控網絡融合兩類信息,為任務預測提供支撐。這種設計使模型既能滿足任務特異性需求,又能利用任務共性,實現(xiàn)高效持續(xù)學習。



圖 1:MoE-CL 的整體框架。MoE-CL 通過采用帶有任務感知判別器的對抗性 MoE-LoRA 架構,緩解了災難性遺忘問題。MoE-CL 主要由兩部分組成,任務感知判別器優(yōu)化和指令調整優(yōu)化。

2.1 任務感知判別器優(yōu)化

任務感知判別器作為 MoE-CL 框架中的關鍵組件,其核心功能是識別任務標簽。在 Transformer 塊中,設第 i 個前饋層的輸入向量為 ,針對任務 t,MoE-CL 通過 LoRA 技術分別生成任務共享表示 與任務特定表示 ,具體計算如下:


其中, 為 LoRA 模塊的運算函數,作用于大語言模型中已凍結的參數; 和 分別對應任務共享 LoRA 專家與任務 t 專屬 LoRA 專家的可學習參數,實現(xiàn)知識的分離與共享。

基于上述表示,任務感知判別器通過 softmax 函數 預測任務標簽 :

其中, 為任務分類器的學習參數,通過訓練優(yōu)化以提升標簽預測準確性。

在生成對抗網絡(GAN)模塊中,為確保任務共享信息的質量,模型通過交叉熵損失函數 計算預測標簽 與真實標簽之間的差異,從而構建損失函數 :

通過最小化 ,模型能夠有效分離任務特定信息與共享信息,促使任務共享專家學習到更具泛化性的知識,進而提升 MoE-CL 框架在多任務場景下的性能表現(xiàn)。

2.2 指令調整優(yōu)化

指令微調階段,MoE-CL 通過加權組合任務共享表示 與任務特定表示 進行任務 t 的預測。二者經門控網絡 自動生成的權重系數 進行線性插值,得到 Transformer 模塊第 i 層的輸出向量:

輸入多層感知器后輸出預測結果 ,結合真實標簽通過交叉熵函數 計算預測損失 。

為強化任務共享信息的泛化能力,MoE-CL 將生成對抗損失 與預測損失融合,形成最終優(yōu)化目標:

其中,超參數 α∈(0,1) 用于平衡兩種損失權重。通過最小化 ,模型在保留任務特異性知識的同時,最大化跨任務知識遷移效果。

03 實驗

我們在 MTL5 和 Tencent3 兩個評測基準上進行了實驗,并將我們的方法與幾種具有代表性的持續(xù)學習方法進行比較,以展示 MoE-CL 的有效性。

3.1 主實驗結果

MTL5 和 Tencent3 評測基準上的實驗結果如圖 2,3 所示,有以下結論:


Tencent3 評測基準上的實驗結果,使用騰訊混元作為基座模型。粗體和斜體表示根據主要評估指標準確率的最優(yōu)和次優(yōu)。

  1. 泛化能力與穩(wěn)定性突出:相比所有基線方法,MoE-CL 平均準確率顯著提升,且方差極小,在復雜任務中展現(xiàn)出優(yōu)異的泛化能力與穩(wěn)定性;

  2. 知識遷移優(yōu)勢顯著:MoE-CL 在正反向遷移上表現(xiàn)穩(wěn)定,較 MoCL 更不易受后續(xù)任務影響,驗證了生成對抗網絡集成至混合 LoRA 專家網絡的有效性;

  3. 魯棒性表現(xiàn)出色:面對不同任務序列順序,MoE-CL 通過分離共享與特定任務專家的架構設計,在 MTL5 和 Tencent3 基準測試中展現(xiàn)出極強的魯棒性 ,遠超其他基線方法。

3.2 驗證生成對抗網絡的有效性

為驗證對抗性 MoE-LoRA 架構對災難性遺忘的抑制效果,本文構建了不含生成對抗網絡(GAN)的 MoE-CL 對比版本。實驗結果(圖 4)顯示,含 GAN 的 MoE 專家架構在持續(xù)學習任務中平均性能顯著優(yōu)于無 GAN 版本。這是因為 GAN 能夠精準將特定任務信息分配至對應低秩適配器專家,有效規(guī)避任務間知識干擾,尤其在反向遷移(BwT)指標上表現(xiàn)突出,有力證明了 GAN 在防止災難性遺忘方面的關鍵作用。


圖 4:生成對抗網絡對 MoE-CL 的影響。三個指標都是數值越大表明性能越好。

3.3 離線 A/B 測試

在騰訊真實文本分類任務中,模型依據置信度得分自動判定內容樣本類別:超出閾值的樣本被直接標記為合規(guī)(白樣本)或不合規(guī)(黑樣本),無需人工介入。剔除率作為核心評估指標,直觀反映自動分類樣本占比,剔除率越高,意味著人工成本越低。

為驗證 MoE-CL 的實際應用價值,研究團隊開展離線 A/B 測試,對比其與生產算法的剔除率表現(xiàn)。實驗數據(圖 5)顯示,在任務 A 和任務 B 場景下,MoE-CL 均實現(xiàn)顯著突破。其中,任務 A 場景中 MoE-CL 剔除率高達 28.8%,較基線算法提升 15.3%,直接降低了同等比例的人工介入工作量,切實為業(yè)務場景帶來降本增效的商業(yè)價值。


通過剔除率衡量的離線 A/B 測試。

04 總結

混合專家持續(xù)學習框架 MoE-CL 通過三大核心設計破局:專屬任務專家防止災難性遺忘,任務共享專家促進跨任務知識遷移,生成對抗網絡保障共享信息質量。三者協(xié)同運作,使模型高效適應新任務,實現(xiàn)大模型持續(xù)學習中的自進化。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
解清帥今日大婚:八抬大轎禮金收不停,新娘陪嫁20萬,一臉旺夫相

解清帥今日大婚:八抬大轎禮金收不停,新娘陪嫁20萬,一臉旺夫相

鋭娛之樂
2025-10-12 19:09:10
姆巴佩:C羅一直是我的榜樣,他也是皇馬當之無愧第一人

姆巴佩:C羅一直是我的榜樣,他也是皇馬當之無愧第一人

雷速體育
2025-10-12 19:59:26
飯后黃金半小時:做這件事,血糖、血管、體重都感謝你

飯后黃金半小時:做這件事,血糖、血管、體重都感謝你

貓大夫醫(yī)學科普
2025-10-12 06:47:41
國民黨選舉會上三位候選人齊發(fā)聲,“圍剿”鄭麗文,情況有些不對

國民黨選舉會上三位候選人齊發(fā)聲,“圍剿”鄭麗文,情況有些不對

墨蘭史書
2025-10-12 11:35:03
世預賽附加賽:首支出局隊誕生!歸化20人白搭,3連敗無緣世界杯

世預賽附加賽:首支出局隊誕生!歸化20人白搭,3連敗無緣世界杯

球場沒跑道
2025-10-12 23:41:53
在帕瓦羅蒂生日這一天,在上海唱他生前最愛的歌

在帕瓦羅蒂生日這一天,在上海唱他生前最愛的歌

農村娛樂光哥
2025-10-11 10:00:20
終于懂了為啥這么多大佬都待見楊冪!

終于懂了為啥這么多大佬都待見楊冪!

小光侃娛樂
2025-09-28 14:30:03
大伯替我爸養(yǎng)我16年,現(xiàn)在我年薪800萬,大伯來借錢 我:一分沒有

大伯替我爸養(yǎng)我16年,現(xiàn)在我年薪800萬,大伯來借錢 我:一分沒有

戶外小阿隋
2025-10-13 05:44:17
涉密單位人員竊取專用裝備數百件網售被判刑 國家安全機關披露案情

涉密單位人員竊取專用裝備數百件網售被判刑 國家安全機關披露案情

環(huán)球網資訊
2025-10-13 06:57:18
新疆首府為何設在烏魯木齊,而不是條件更好的庫爾勒、喀什或伊犁

新疆首府為何設在烏魯木齊,而不是條件更好的庫爾勒、喀什或伊犁

大千世界觀
2025-08-19 17:16:22
朱元璋賜死大臣,問他10歲兒子:你可恨朕?孩童的一番話救了父親

朱元璋賜死大臣,問他10歲兒子:你可恨朕?孩童的一番話救了父親

白云故事
2025-10-08 07:45:03
“全面拆遷”開始了?2025年三類房子或通通拆,補償方式不一樣

“全面拆遷”開始了?2025年三類房子或通通拆,補償方式不一樣

巢客HOME
2025-10-11 08:50:03
激烈!全場狂罰72球!東部勁旅4戰(zhàn)全敗,新星24+10成遮羞布

激烈!全場狂罰72球!東部勁旅4戰(zhàn)全敗,新星24+10成遮羞布

體壇小李
2025-10-13 09:14:27
終于見到莎莎了,在香港轉機,跟哥是一前一后,兩人這距離好安心

終于見到莎莎了,在香港轉機,跟哥是一前一后,兩人這距離好安心

黃小仙的搞笑視頻
2025-10-11 10:40:27
齊溪自曝二胎惹爭議,被質疑高齡追生拼兒子,再婚王傳君生倆女兒

齊溪自曝二胎惹爭議,被質疑高齡追生拼兒子,再婚王傳君生倆女兒

萌神木木
2025-10-12 15:57:16
網紅來杭州直播,西湖邊攔阻路人觀看不雅視頻,還尾隨未成年男生!被判七個月

網紅來杭州直播,西湖邊攔阻路人觀看不雅視頻,還尾隨未成年男生!被判七個月

都市快報橙柿互動
2025-10-12 14:56:20
他若不死,改寫300年歷史

他若不死,改寫300年歷史

我是歷史其實挺有趣
2025-10-12 09:25:56
1946年,傅作義寫信向毛主席叫囂:如果中共勝利,我給你當小秘書

1946年,傅作義寫信向毛主席叫囂:如果中共勝利,我給你當小秘書

大運河時空
2025-10-11 23:51:56
通脹之下你的錢正在 “蒸發(fā)”!這3種資產才是普通人最好的保護傘

通脹之下你的錢正在 “蒸發(fā)”!這3種資產才是普通人最好的保護傘

小白鴿財經
2025-10-10 09:16:17
吳石死后,陳誠敢跟蔣介石硬頂保全家,周至柔簽字后偷藏底稿

吳石死后,陳誠敢跟蔣介石硬頂保全家,周至柔簽字后偷藏底稿

文史微鑒
2025-10-13 08:47:26
2025-10-13 10:03:00
算法與數學之美 incentive-icons
算法與數學之美
分享知識,交流思想
5157文章數 64593關注度
往期回顧 全部

科技要聞

海外子公司被荷蘭凍結 聞泰科技:堅決反對

頭條要聞

美防長稱外國要在美國本土建軍事基地 惹怒特朗普擁躉

頭條要聞

美防長稱外國要在美國本土建軍事基地 惹怒特朗普擁躉

體育要聞

表兄弟決賽相遇,他們在上海創(chuàng)造黑馬奇跡

娛樂要聞

娜扎被搶休息室,網友扒出疑似林允

財經要聞

三大指數均大幅低開 創(chuàng)業(yè)板指跌4.44%

汽車要聞

1.5T動力/尺寸越級 國民家轎第5代帝豪首秀亮相

態(tài)度原創(chuàng)

游戲
教育
時尚
健康
家居

無人觸及 《33號遠征隊》總監(jiān)稱還有彩蛋沒人發(fā)現(xiàn)

教育要聞

高考地理必考的16種地貌

60歲阿姨靠穿搭火了!“簡約款”穿出高級感,自然老去也很美

內分泌科專家破解身高八大謠言

家居要聞

空間藝術 星河宇宙之旅

無障礙瀏覽 進入關懷版 亚洲国产精品无码一区绿茶Av| 日韩人妻无码精品-专区| 一区在线免费| 韩国三级中国三级人妇| 欧美国产日产一区二区| 亚洲男同志网站| 色七七桃色综合| 色综合天天操| 传媒久久尤物伊人| 1313午夜精品理论片| 中年熟妇的大黑p| 亚洲精品国产自在现线看| 亚洲 中文字幕 日韩 无码| 久久久久久亚洲精品成人| 欧美熟妇揷揷揷| 国产av中文字幕精品| 少妇水多12p| 日韩精品 在线一区二区| 久久国产精品久久一区| 天堂avv。| 国语自产偷拍精品视频偷| 日本99久久久久久久久人妻斩| 亚韩精品中文字幕无码视频| www.蜜桃av.com| 久久婷成人网| 东京热一精品无码av| 在教室伦流澡到高潮H| 亚洲中文字幕av无码区| 8xbo视频| 一边呻吟一边吞精的少妇| 成人在线| 国产精口品美女乱子伦高潮| 国产后式a一视频| 国产好爽…又高潮了毛片| 4438xx亚洲最大五色丁香| 午间影院免费一区二区在线播放| 国产真人无码作爱视频免费| 国产又a又黄又潮娇喘视频| 亚洲av男人电影天堂| 久久久久久久久久久久久久久久久久 | 囯产精品久久久久久久|