在工業(yè)級大語言模型(LLM)應用中,動態(tài)適配任務與保留既有能力的 “自進化” 需求日益迫切。真實場景中,不同領域語言模式差異顯著,LLM 需在學習新場景合規(guī)規(guī)則的同時,不丟失舊場景的判斷能力。這正是大模型自進化核心訴求,即 “自主優(yōu)化跨任務知識整合,適應動態(tài)環(huán)境而無需大量外部干預”。
為解決此問題,北郵百家 AI 團隊與騰訊 AI Lab 團隊提出參數高效的對抗性混合專家架構 MoE-CL,專門用于 LLM 的自進化持續(xù)指令微調。其核心設計在于 “解耦 LoRA 專家” 與 “GAN 對抗降噪” 的結合:為每個任務配置專屬 LoRA 專家以保留任務特定知識,避免參數更新相互干擾;同時設置共享 LoRA 專家,通過生成對抗網絡(GAN)中的任務感知鑒別器抑制無關噪聲,確??缛蝿罩R高效且精準傳遞,最終實現(xiàn) “知識保留” 與 “跨任務泛化” 的平衡,這也是 LLM 自進化的核心邏輯。
從實驗效果來看,MoE-CL 的自進化能力已在實際場景與基準測試中得到驗證。在騰訊真實業(yè)務場景 A/B 測試中,它將人工介入成本降低 15.3%;在公開 MTL5 跨域基準與工業(yè)級 Tencent3 基準測試中,其平均準確率優(yōu)于現(xiàn)有主流方法,且在不同任務訓練順序下保持穩(wěn)定,證明其無需人工調整即可適配任務動態(tài)變化。
論文標題: Self-Evolving LLMs via Continual Instruction Tuning
論文鏈接: https://arxiv.org/abs/2509.18133
代碼倉庫:https://github.com/BAI-LAB/MoE-CL
01 引言
在數字經濟蓬勃發(fā)展的當下,海量文本數據如潮水般涌入互聯(lián)網平臺。例如,新聞資訊的快速更新、電商平臺的海量評論等多源異構數據每日激增,面臨跨領域、高時效、強精度的多重挑戰(zhàn)。若采用傳統(tǒng)方案,為每種文本類型單獨訓練模型,將消耗巨大的計算資源與人力成本;而使用單一模型處理全領域文本,又因數據分布差異導致性能失衡,難以滿足業(yè)務需求。在此背景下,亟需一種既能高效處理新任務,又能保留舊任務知識的通用技術方案。為此,我們提出 MoE-CL 大模型混合專家(MoE)持續(xù)學習架構,致力于打破傳統(tǒng)方法的局限,以實現(xiàn)多領域文本任務的高效協(xié)同處理。使得大模型具備自進化能力:動態(tài)適應訓練數據,自主優(yōu)化跨任務知識整合。
02 方法
混合專家持續(xù)學習(MoE-CL)框架聚焦多任務學習中的知識積累與任務適應難題。其核心采用 Transformer 塊的 LoRA 增強技術,重點優(yōu)化前饋神經網絡(FFN)層,通過引入低秩矩陣降低參數更新量與計算成本,同時提升學習效率。
MoE-CL 將 LoRA 專家分為任務特定與任務共享兩類:前者專攻特定任務知識,后者提取跨任務通用信息。結合生成對抗網絡(GAN)分離任務特定與共享信息,確保模型獲取高質量共享知識。
架構上,N 層 LoRA 增強的 Transformer 塊級聯(lián)提取信息,最終由門控網絡融合兩類信息,為任務預測提供支撐。這種設計使模型既能滿足任務特異性需求,又能利用任務共性,實現(xiàn)高效持續(xù)學習。
圖 1:MoE-CL 的整體框架。MoE-CL 通過采用帶有任務感知判別器的對抗性 MoE-LoRA 架構,緩解了災難性遺忘問題。MoE-CL 主要由兩部分組成,任務感知判別器優(yōu)化和指令調整優(yōu)化。
2.1 任務感知判別器優(yōu)化
任務感知判別器作為 MoE-CL 框架中的關鍵組件,其核心功能是識別任務標簽。在 Transformer 塊中,設第 i 個前饋層的輸入向量為 ,針對任務 t,MoE-CL 通過 LoRA 技術分別生成任務共享表示 與任務特定表示 ,具體計算如下:
其中, 為 LoRA 模塊的運算函數,作用于大語言模型中已凍結的參數; 和 分別對應任務共享 LoRA 專家與任務 t 專屬 LoRA 專家的可學習參數,實現(xiàn)知識的分離與共享。
基于上述表示,任務感知判別器通過 softmax 函數 預測任務標簽 :
其中, 為任務分類器的學習參數,通過訓練優(yōu)化以提升標簽預測準確性。
在生成對抗網絡(GAN)模塊中,為確保任務共享信息的質量,模型通過交叉熵損失函數 計算預測標簽 與真實標簽之間的差異,從而構建損失函數 :
通過最小化 ,模型能夠有效分離任務特定信息與共享信息,促使任務共享專家學習到更具泛化性的知識,進而提升 MoE-CL 框架在多任務場景下的性能表現(xiàn)。
2.2 指令調整優(yōu)化
指令微調階段,MoE-CL 通過加權組合任務共享表示 與任務特定表示 進行任務 t 的預測。二者經門控網絡 自動生成的權重系數 進行線性插值,得到 Transformer 模塊第 i 層的輸出向量:
輸入多層感知器后輸出預測結果 ,結合真實標簽通過交叉熵函數 計算預測損失 。
為強化任務共享信息的泛化能力,MoE-CL 將生成對抗損失 與預測損失融合,形成最終優(yōu)化目標:
其中,超參數 α∈(0,1) 用于平衡兩種損失權重。通過最小化 ,模型在保留任務特異性知識的同時,最大化跨任務知識遷移效果。
03 實驗
我們在 MTL5 和 Tencent3 兩個評測基準上進行了實驗,并將我們的方法與幾種具有代表性的持續(xù)學習方法進行比較,以展示 MoE-CL 的有效性。
3.1 主實驗結果
MTL5 和 Tencent3 評測基準上的實驗結果如圖 2,3 所示,有以下結論:
Tencent3 評測基準上的實驗結果,使用騰訊混元作為基座模型。粗體和斜體表示根據主要評估指標準確率的最優(yōu)和次優(yōu)。
泛化能力與穩(wěn)定性突出:相比所有基線方法,MoE-CL 平均準確率顯著提升,且方差極小,在復雜任務中展現(xiàn)出優(yōu)異的泛化能力與穩(wěn)定性;
知識遷移優(yōu)勢顯著:MoE-CL 在正反向遷移上表現(xiàn)穩(wěn)定,較 MoCL 更不易受后續(xù)任務影響,驗證了生成對抗網絡集成至混合 LoRA 專家網絡的有效性;
魯棒性表現(xiàn)出色:面對不同任務序列順序,MoE-CL 通過分離共享與特定任務專家的架構設計,在 MTL5 和 Tencent3 基準測試中展現(xiàn)出極強的魯棒性 ,遠超其他基線方法。
3.2 驗證生成對抗網絡的有效性
為驗證對抗性 MoE-LoRA 架構對災難性遺忘的抑制效果,本文構建了不含生成對抗網絡(GAN)的 MoE-CL 對比版本。實驗結果(圖 4)顯示,含 GAN 的 MoE 專家架構在持續(xù)學習任務中平均性能顯著優(yōu)于無 GAN 版本。這是因為 GAN 能夠精準將特定任務信息分配至對應低秩適配器專家,有效規(guī)避任務間知識干擾,尤其在反向遷移(BwT)指標上表現(xiàn)突出,有力證明了 GAN 在防止災難性遺忘方面的關鍵作用。
圖 4:生成對抗網絡對 MoE-CL 的影響。三個指標都是數值越大表明性能越好。
3.3 離線 A/B 測試
在騰訊真實文本分類任務中,模型依據置信度得分自動判定內容樣本類別:超出閾值的樣本被直接標記為合規(guī)(白樣本)或不合規(guī)(黑樣本),無需人工介入。剔除率作為核心評估指標,直觀反映自動分類樣本占比,剔除率越高,意味著人工成本越低。
為驗證 MoE-CL 的實際應用價值,研究團隊開展離線 A/B 測試,對比其與生產算法的剔除率表現(xiàn)。實驗數據(圖 5)顯示,在任務 A 和任務 B 場景下,MoE-CL 均實現(xiàn)顯著突破。其中,任務 A 場景中 MoE-CL 剔除率高達 28.8%,較基線算法提升 15.3%,直接降低了同等比例的人工介入工作量,切實為業(yè)務場景帶來降本增效的商業(yè)價值。
通過剔除率衡量的離線 A/B 測試。
04 總結
混合專家持續(xù)學習框架 MoE-CL 通過三大核心設計破局:專屬任務專家防止災難性遺忘,任務共享專家促進跨任務知識遷移,生成對抗網絡保障共享信息質量。三者協(xié)同運作,使模型高效適應新任務,實現(xiàn)大模型持續(xù)學習中的自進化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.