夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全新Hybrid-MoE架構(gòu)用于增強通用大模型低資源代碼能力

0
分享至



大語言模型(LLM)雖已展現(xiàn)出卓越的代碼生成潛力,卻依然面臨著一道艱巨的挑戰(zhàn):如何在有限的計算資源約束下,同步提升對多種編程語言的理解與生成能力,同時不損害其在主流語言上的性能?

為此,中國移動九天團(tuán)隊創(chuàng)新性地提出了 Hybrid MoE 架構(gòu) ——MultiPL-MoE,該方案的核心在于耦合兩個層次的專家選擇機制進(jìn)行優(yōu)化:在 Token 層級,采用配備共享專家及新穎門控權(quán)重歸一化方法的稀疏 MoE,以實現(xiàn)與段落層級專家的高效協(xié)同;在 Segment 層級,則創(chuàng)新性地引入滑動窗口劃分與專家選擇路由策略,使模型能夠精準(zhǔn)捕捉不同編程語言的語法結(jié)構(gòu)與深層上下文模式。目前,該項研究已被 EMNLP 2025 接收。



  • 論文標(biāo)題:MultiPL-MoE: Multi-Programming-Lingual Extension of Large Language Models through Hybrid Mixture-of-Experts
  • 論文鏈接:https://arxiv.org/abs/2508.19268
  • 代碼鏈接:https://github.com/Eduwad/MultiPL-MoE

背景

現(xiàn)有的通用大模型在代碼生成方面已經(jīng)展示出卓越的能力,然而大量研究表明這些大模型在高資源編程語言(如:Python)與低資源編程語言上(如:Rust)上存在顯著的性能差異,后者無論是在線資源還是訓(xùn)練數(shù)據(jù)集均相對匱乏。對多語言代碼生成能力日益增長的需求,促使人們致力于將廣泛的編程語言知識注入 LLM。然而,現(xiàn)有的研究主要存在以下兩種問題:

1. 使用多種編程語言的數(shù)據(jù)對基座模型進(jìn)行繼續(xù)訓(xùn)練,但存在計算開銷極為龐大的問題;

2. 通過特定高質(zhì)量低資源數(shù)據(jù)對基座模型進(jìn)行微調(diào)以提升特定編程語言性能,但會引發(fā)基座模型原有代碼能力的嚴(yán)重災(zāi)難性遺忘問題。

因此,我們創(chuàng)新性地提出了一種 Hybrid MoE 結(jié)構(gòu),即 token-level MoE 和 segment-level MoE 相結(jié)合的 MoE 架構(gòu)。Token-level MoE 采用典型的 sparse upcycling MoE 結(jié)構(gòu),Segment-level MoE 則利用滑動窗口獲得多個分段并搭配采用專家選擇 top-k 個分段的專家選擇路由的策略。實驗結(jié)果證明了 MultiPL-MoE 的有效性。

方法

1. MoE 定義





2. MultiPL-MoE

MultiPL-MoE 的提出以優(yōu)化 token-level 和 segment-level 的專家選擇。Token-level MoE 是一種傳統(tǒng)的 token 選擇路由,結(jié)合了共享專家和一種新的路由權(quán)重歸一化方法,以解決后期與 segment-level MoE 融合時的規(guī)模不匹配問題。對于 segment-level MoE,我們采用專家選擇路由機制,將輸入作為上下文連貫的分段,使專家能夠捕捉語法結(jié)構(gòu)和一些篇章級的特征。



圖 1 MutilPL-MoE 的整體架構(gòu)

2.1 Token-level MoE





2.2 Segment-level MoE













最后,融合 token-level MoE 和 segment-level MoE 的第 l 層輸出為:



2.3 損失函數(shù)

通過將 next token prediction loss 與 load balance loss 相結(jié)合來訓(xùn)練混合 MoE。

(1) next token prediction loss



(2) load balance loss



最終的優(yōu)化目標(biāo)為:



實驗結(jié)果

實驗結(jié)果表明,MultiPL-MoE 在跨語言泛化方面取得了顯著進(jìn)步。MultiPL-MoE 在 HumanEval 和 MBPP 的兩個基準(zhǔn)測試中均實現(xiàn)了一致的性能,即顯著增強了模型在低資源編程語言上的性能,同時有效緩解了高資源編程語言中的災(zāi)難性遺忘。同時,我們也注意到,除基礎(chǔ)模型 Qwen1.5 外,基線模型、MultiPL-MoE 的 MBPP Python 語言上都表現(xiàn)出持續(xù)較低的性能,遠(yuǎn)遠(yuǎn)低于其他語言。



圖 2 不同 Baseline 及 MultiPL-MoE 在 6 種編程語言上的實驗結(jié)果。其中,Python,Java,C++ 代表高資源語言,Rust,Go,Ruby 代表低資源語言。

結(jié)語

本文提出了一種混合式多語言學(xué)習(xí)模型 (MoE)——MultiPL-MoE,它同時包含 token-level MoE 和 segment-level MoE。MultiPL-MoE 引入共享專家來捕捉 token 之間的知識共性,并在句段 (segment) 之間獲取句段間的語義和邏輯信息。在兩個不同的基準(zhǔn)測試集上進(jìn)行的大量實證研究證明了 MultiPL-MoE 是一種在預(yù)訓(xùn)練后階段擴展低源碼編程語言的有效方法。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
荷蘭正式宣布!荷蘭管制范圍擴大,敏感領(lǐng)域的新合作都一刀切禁止

荷蘭正式宣布!荷蘭管制范圍擴大,敏感領(lǐng)域的新合作都一刀切禁止

百態(tài)人間
2025-11-04 16:00:18
還會跳下去嗎?全紅嬋愣了好一會:再說吧,應(yīng)該吧,現(xiàn)在還不知道

還會跳下去嗎?全紅嬋愣了好一會:再說吧,應(yīng)該吧,現(xiàn)在還不知道

風(fēng)過鄉(xiāng)
2025-11-06 22:09:03
11月再窮也能富,逆襲翻身,這 3 大生肖,轉(zhuǎn)運致富

11月再窮也能富,逆襲翻身,這 3 大生肖,轉(zhuǎn)運致富

人閒情事
2025-11-06 16:28:25
近4場獨造8球!巴薩超新星強勢崛起 奧爾莫淪為鐵板凳

近4場獨造8球!巴薩超新星強勢崛起 奧爾莫淪為鐵板凳

球事百科吖
2025-11-06 18:11:12
張玉寧半場閃擊!轟亞2處子球,反超巴坎布,獨居隊史射手榜次席

張玉寧半場閃擊!轟亞2處子球,反超巴坎布,獨居隊史射手榜次席

奧拜爾
2025-11-06 21:23:36
克宮呼吁北約傾聽普京發(fā)言以理解俄方立場

克宮呼吁北約傾聽普京發(fā)言以理解俄方立場

國際在線
2025-11-06 23:25:07
李云迪再陷桃色風(fēng)波,女主照片被扒疑似有兩人視頻流出

李云迪再陷桃色風(fēng)波,女主照片被扒疑似有兩人視頻流出

挪威森林
2025-11-02 12:56:16
江蘇電力回應(yīng)張凌赫曾想求職:公子可愿至吾處體驗一日

江蘇電力回應(yīng)張凌赫曾想求職:公子可愿至吾處體驗一日

趣味萌寵的日常
2025-11-06 10:42:04
戴口罩的美女清純靚麗,白色V領(lǐng)T恤搭粉色瑜伽褲,時尚清新有朝氣

戴口罩的美女清純靚麗,白色V領(lǐng)T恤搭粉色瑜伽褲,時尚清新有朝氣

小喬古裝漢服
2025-11-05 14:31:17
老婆出軌后,對方的妻子找到我,你老婆跟我老公好上了

老婆出軌后,對方的妻子找到我,你老婆跟我老公好上了

詭譎怪談
2025-11-04 21:09:44
立冬不補陽,一年白忙,今日立冬,別忘吃這4樣,清補護(hù)陽增免疫

立冬不補陽,一年白忙,今日立冬,別忘吃這4樣,清補護(hù)陽增免疫

小茉莉美食記
2025-11-07 01:40:03
離開的何止是鄭智化

離開的何止是鄭智化

老唐有話說
2025-11-04 18:37:23
浙大才子周一超被執(zhí)行注射死刑,被按執(zhí)行床時,他卻突然號啕大哭

浙大才子周一超被執(zhí)行注射死刑,被按執(zhí)行床時,他卻突然號啕大哭

紅豆講堂
2024-10-21 09:30:24
勢危!愈萬軍隊被包圍,俄羅斯拿下戰(zhàn)略重鎮(zhèn)紅軍城會怎樣?

勢危!愈萬軍隊被包圍,俄羅斯拿下戰(zhàn)略重鎮(zhèn)紅軍城會怎樣?

文雅筆墨
2025-11-07 00:24:00
內(nèi)陸首個國家級新區(qū)升格為行政區(qū),兩江新區(qū)坐擁36家上市公司,位居重慶第一

內(nèi)陸首個國家級新區(qū)升格為行政區(qū),兩江新區(qū)坐擁36家上市公司,位居重慶第一

時代周報
2025-11-06 22:20:06
不識時務(wù)!鄭麗文終于露出了狐貍尾巴!統(tǒng)一能寄望國民黨嗎?

不識時務(wù)!鄭麗文終于露出了狐貍尾巴!統(tǒng)一能寄望國民黨嗎?

阿柒的訊
2025-11-05 22:05:25
女子在診所拍下感人一幕,妻子輸液時,像個孩子一樣靠在丈夫懷里!

女子在診所拍下感人一幕,妻子輸液時,像個孩子一樣靠在丈夫懷里!

張曉磊
2025-11-03 09:51:21
世界突然醒悟,中國打越南時的軍事實力就是世界的頂流了!

世界突然醒悟,中國打越南時的軍事實力就是世界的頂流了!

百態(tài)人間
2025-11-03 16:34:06
網(wǎng)友反映杭州一學(xué)校門口管理問題,教育部門:第一時間開展調(diào)查,要求立即整改

網(wǎng)友反映杭州一學(xué)校門口管理問題,教育部門:第一時間開展調(diào)查,要求立即整改

FM93浙江交通之聲
2025-11-06 22:53:28
紐約劇變!34歲穆斯林市長崛起,中產(chǎn)與華人票倉集體失聲

紐約劇變!34歲穆斯林市長崛起,中產(chǎn)與華人票倉集體失聲

華人生活網(wǎng)
2025-11-06 03:16:42
2025-11-07 04:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11665文章數(shù) 142499關(guān)注度
往期回顧 全部

科技要聞

小鵬機器人里藏真人?何小鵬發(fā)一鏡到底視頻

頭條要聞

美參議員提議:政府不“開門”國會議員就停薪

頭條要聞

美參議員提議:政府不“開門”國會議員就停薪

體育要聞

送走兩位全明星,公牛成了東部第一

娛樂要聞

“黑料纏身”的白百何 誰給她的勇氣?

財經(jīng)要聞

南銀法巴加速發(fā)展背后:資金饑渴癥待解

汽車要聞

是我眼花了么?怎么大猩猩都來參加新車發(fā)布了?

態(tài)度原創(chuàng)

旅游
本地
親子
公開課
軍事航空

旅游要聞

11月6日最佳情報|濟南郎茂山日出美如畫,三媳婦山奇峰峻美!

本地新聞

這屆干飯人,已經(jīng)把博物館吃成了食堂

親子要聞

寶寶愛用大合集丨愿將一切美好獻(xiàn)上

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國發(fā)射洲際彈道導(dǎo)彈 俄方回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 久久久久成人精品无码中文字幕| 一夲道人妻久久| 国产高清二区| 久久久久久91亚洲精品中文字幕| 国产成人精品三上悠亚| 亚洲伊人五月丁香激情| AV伊人久久| 国产午夜精品一区理论片| 亚洲日韩在线A视频在线观看| 国产无码一线| 日韩精品内射视频免费观看| 国产精品www污污污| 国产自创无码AV情景剧| 一二三四在线视频观看社区| 江苏极品少妇性爱| www.啊~啊嗯com| 亚洲 小说 欧美 另类 社区| 国产肉丝足交 | 无码久久精品| 最新亚洲人成无码www| 国产精品一区二区三区网AV| 亚洲无码一区二区三区四区五区六区| 欧美人和黑人牲交网站上线| 九九久久99综合一区二区| 亚洲成av人片在线观看www| 日产乱码一二三四五| 66m66丝袜| 东京道一本热中文字幕| 国产乱剧情二区| 亚洲AV永久精品无码桃色| 尤妮丝国产爆乳久久丫| 93人妻人人揉人人澡人人| 熟妇人妻av中文字幕老熟妇| 成码无人av片在线电影网站| 久久久久亚洲AV无码网影音先锋| 欧美日韩午夜群交多人轮换| 免费的三片播放器| 国产精品一二三区视频| 久日亚洲av| 亚洲色成人网站www永久| 男人吃奶捏奶很爽视频免费|