公司情報(bào)專家《財(cái)經(jīng)涂鴉》獲悉,9月11日,在2025Inclusion·外灘大會(huì)上,螞蟻集團(tuán)與中國(guó)人民大學(xué)聯(lián)合發(fā)布業(yè)界首個(gè)原生MoE架構(gòu)的擴(kuò)散語言模型(dLLM)“LLaDA-MoE”。
據(jù)介紹,這款新模型通過非自回歸的掩碼擴(kuò)散機(jī)制,首次通過原生訓(xùn)練的MoE在大規(guī)模語言模型中實(shí)現(xiàn)了與Qwen2.5相當(dāng)?shù)恼Z言智能(如上下文學(xué)習(xí)、指令遵循、代碼和數(shù)學(xué)推理等),挑戰(zhàn)了“語言模型必須自回歸”的主流認(rèn)知。
實(shí)現(xiàn)數(shù)據(jù)顯示,LLaDA-MoE模型性能效果在代碼、數(shù)學(xué)、Agent等任務(wù)上領(lǐng)先于LLaDA1.0/1.5和Dream-7B等擴(kuò)散語言模型,接近或超越了自回歸模型Qwen2.5-3B-Instruct,僅激活1.4B 參數(shù)即可實(shí)現(xiàn)等效3B稠密模型的性能。
“LLaDA-MoE模型驗(yàn)證了工業(yè)級(jí)大規(guī)模訓(xùn)練的擴(kuò)展性和穩(wěn)定性,意味我們?cè)诎裠LLM訓(xùn)擴(kuò)到更大規(guī)模的路上又往前走了一步?!蔽浵伡瘓F(tuán)通用人工智能研究中心主任、西湖大學(xué)特聘研究員、西湖心辰創(chuàng)始人藍(lán)振忠在發(fā)布現(xiàn)場(chǎng)表示。
據(jù)中國(guó)人民大學(xué)高瓴人工智能學(xué)院副教授李崇軒介紹,兩年過去,AI大模型能力突飛猛進(jìn),但存在一些問題始終沒有得到本質(zhì)上的解決。
“究其原因,這是當(dāng)前大模型普遍采用的自回歸生成范式所造成的——模型天然是單向建模的,從前往后依次生成下一個(gè)token。這導(dǎo)致它們難以捕tokens之間的雙向依賴關(guān)系?!?/p>
面對(duì)這些問題,螞蟻和人大聯(lián)合研究團(tuán)隊(duì)首次MoE架構(gòu)上推出了原生的擴(kuò)散語言模型LLaDA-MoE。
藍(lán)振忠還表示,“我們將于近期向全球完全開源模型權(quán)重和自研推理框架,與社區(qū)共同推動(dòng) AGI新一輪突破。”
據(jù)了解,螞蟻與人大團(tuán)隊(duì)攻關(guān)3個(gè)月,在LLaDA-1.0基礎(chǔ)上重寫訓(xùn)練代碼,并且基于螞蟻?zhàn)匝蟹植际娇蚣?ATorch提供EP并行等一系列并行加速技術(shù),基于螞蟻Ling2.0基礎(chǔ)模型的訓(xùn)練數(shù)據(jù),在負(fù)載均衡、噪聲采樣漂移等核心難題上取得突破,最終采用7B-A1B(總7B、激活1.4B)的MOE架構(gòu)完成約20T數(shù)據(jù)的高效訓(xùn)練。
在螞蟻?zhàn)匝械慕y(tǒng)一評(píng)測(cè)框架下,LLaDA-MoE在HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17項(xiàng)基準(zhǔn)上平均提升8.4%,領(lǐng)先LLaDA-1.5達(dá)到13.2%,與Qwen2.5-3B-Instruct打平。實(shí)驗(yàn)再次驗(yàn)證“MoE 放大器”定律在 dLLM 領(lǐng)域同樣成立,為后續(xù) 10B–100B 稀疏模型提供可行路徑。
據(jù)藍(lán)振忠介紹,除模型權(quán)重外,螞蟻還將同步開源針對(duì)dLLM 行特性深度優(yōu)化的推理引擎。相比NVIDIA官方fast-dLLM,該引擎實(shí)現(xiàn)了顯著加速。相關(guān)代碼與技術(shù)報(bào)告將于近期在 GitHub 及 Hugging Face 社區(qū)同步發(fā)布。
藍(lán)振忠還透露,螞蟻將持續(xù)投入包括基于dLLM的AGI領(lǐng)域,下一階段將聯(lián)合學(xué)界和全球AI社區(qū)共同推動(dòng)AGI新的突破?!白曰貧w不是終點(diǎn),擴(kuò)散模型同樣可以成為通向AGI的主干道?!彼{(lán)振忠如是說。
作者:蘇打
編輯:tuya
出品:財(cái)經(jīng)涂鴉(ID:caijingtuya)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.