機(jī)器之心報(bào)道
編輯:張倩
擴(kuò)散語言模型(Diffusion Language Models,DLM)一直以來都令研究者頗感興趣,因?yàn)榕c必須按從左到右順序生成的自回歸模型(Autoregressive, AR)不同,DLM 能實(shí)現(xiàn)并行生成,這在理論上可以實(shí)現(xiàn)更快的生成速度,也能讓模型基于前后文更好地理解生成語境。
然而,盡管其潛力巨大,DLM 的訓(xùn)練仍然充滿挑戰(zhàn),主要原因是它在 scaling 上的效率相對低于 AR 模型。例如,直接訓(xùn)練 DLM 需要在有限的數(shù)據(jù)集上進(jìn)行更多次迭代,才能超越直接訓(xùn)練的 AR 模型。此外,AR 模型還擁有顯著的「先發(fā)優(yōu)勢」—— 包括成熟的訓(xùn)練基礎(chǔ)設(shè)施、穩(wěn)定的訓(xùn)練配方以及廣泛的從業(yè)者經(jīng)驗(yàn)積累。
為了克服這些難點(diǎn),來自 Radical Numerics(一個(gè)新的 AI 初創(chuàng))的研究團(tuán)隊(duì)選擇了另一條路:在現(xiàn)有自回歸模型的基礎(chǔ)上進(jìn)行改造,讓它具備擴(kuò)散語言模型的能力
他們剛剛發(fā)布的RND1-Base(Radical Numerics Diffusion)是迄今為止規(guī)模最大的開源擴(kuò)散語言模型。其生成效果如下:
這是一個(gè)實(shí)驗(yàn)性的30B 參數(shù)稀疏 MoE 模型,其中有3B 激活參數(shù),由一個(gè)預(yù)訓(xùn)練的 AR 模型(Qwen3-30BA3B)轉(zhuǎn)換而來,并在持續(xù)預(yù)訓(xùn)練中累積訓(xùn)練500B 個(gè) token,以實(shí)現(xiàn)完整的擴(kuò)散行為。作者同步開源了模型、訓(xùn)練配方、推理代碼以及樣例輸出。
- 技術(shù)報(bào)告:Training Diffusion Language Models at Scale using Autoregressive Models
- 報(bào)告鏈接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
- 代碼鏈接:https://github.com/RadicalNumerics/RND1
- HuggingFace 鏈接:https://huggingface.co/radicalnumerics/RND1-Base-0910
這項(xiàng)研究的主要貢獻(xiàn)包括:
- 系統(tǒng)性研究了大規(guī)模 A2D(Autoregressive-to-Diffusion)轉(zhuǎn)換過程中的關(guān)鍵因素,如初始化策略、層級學(xué)習(xí)率和臨界批大小。
- 識別出能夠?qū)崿F(xiàn)可擴(kuò)展性與穩(wěn)定性的關(guān)鍵因素,并證明當(dāng)這些因素與成熟的自回歸預(yù)訓(xùn)練方法結(jié)合時(shí),簡單的技術(shù)組合也能催生可擴(kuò)展的 DLM。
- 推出了迄今為止最大的基礎(chǔ)擴(kuò)散語言模型RND1-30B,展示了將自回歸預(yù)訓(xùn)練經(jīng)驗(yàn)科學(xué)化轉(zhuǎn)換后可在多項(xiàng)基準(zhǔn)測試中取得卓越表現(xiàn)。
具體來說,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代碼生成(MBPP)等通用基準(zhǔn)測試中測試了 RND1。結(jié)果顯示,它在所有評測中均穩(wěn)定超越現(xiàn)有 Dream-7B 和 LLaDA-8B,同時(shí)保持了其自回歸基礎(chǔ)模型的強(qiáng)大性能。
這些結(jié)果表明,將擴(kuò)散語言模型規(guī)模擴(kuò)展到 80 億參數(shù)以上不僅可行,而且切實(shí)有效。A2D 轉(zhuǎn)換可能是訓(xùn)練 DLM 更優(yōu)的策略。RND1 也是首個(gè)在此規(guī)模上成功展示擴(kuò)散模型訓(xùn)練的開源項(xiàng)目。
不過,需要指出的是,研究者并未將 RND1 與 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 進(jìn)行對比。從部分指標(biāo)來看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表現(xiàn)。兩個(gè)模型哪個(gè)更強(qiáng)還需要進(jìn)一步 PK。
圖源:https://arxiv.org/pdf/2509.24389
簡單持續(xù)預(yù)訓(xùn)練(SCP)
從一個(gè)自回歸檢查點(diǎn)訓(xùn)練擴(kuò)散語言模型,會(huì)引出兩個(gè)核心問題:
第一,如何在一個(gè)原本僅支持因果注意力(causal attention)的架構(gòu)中引入雙向上下文?
第二,如何在轉(zhuǎn)換過程中保留 AR 模型從數(shù)萬億 token 預(yù)訓(xùn)練中獲得的語言與事實(shí)知識?
早期研究提出了多階段復(fù)雜流程,例如注意力掩碼退火(attention mask annealing),通過逐步放松因果掩碼實(shí)現(xiàn)雙向注意力;或嫁接法(grafting),即系統(tǒng)性修改模型結(jié)構(gòu),用雙向注意力替換因果注意力。
這些方法在小規(guī)模模型上有效,但往往引入額外設(shè)計(jì)選擇(如掩碼變化策略、退火 / 嫁接調(diào)度),難以穩(wěn)定地推廣至大規(guī)模。
相較之下,作者發(fā)現(xiàn)了一種更簡單的方法 ——簡單持續(xù)預(yù)訓(xùn)練(SCP),能夠達(dá)到與這些復(fù)雜 A2D 轉(zhuǎn)換流程相當(dāng)?shù)男阅堋?/p>
其配方極為直接:
- 從一個(gè)強(qiáng)大的 AR 檢查點(diǎn)開始;
- 在初始化時(shí)將因果掩碼替換為雙向掩碼;
- 在掩碼擴(kuò)散目標(biāo)下繼續(xù)預(yù)訓(xùn)練,并采用學(xué)習(xí)率預(yù)熱。
通過層級學(xué)習(xí)率保留 AR 預(yù)訓(xùn)練知識
A2D 轉(zhuǎn)換面臨的主要風(fēng)險(xiǎn)之一是災(zāi)難性遺忘:模型可能在轉(zhuǎn)換過程中丟失原有的事實(shí)知識。 既有研究表明,Transformer 類語言模型中的知識(尤其是事實(shí)關(guān)聯(lián))主要編碼在FFN/MLP 層中 。基于這一認(rèn)識,他們在不同參數(shù)組間采用了分層學(xué)習(xí)率策略:
在轉(zhuǎn)換期間,注意力層使用更高的學(xué)習(xí)率以便快速適應(yīng)雙向上下文,而非注意力層(如 MLP 與嵌入層)使用較低學(xué)習(xí)率,以最大程度保留 AR 預(yù)訓(xùn)練知識。
A2D 轉(zhuǎn)換在大 batch size 訓(xùn)練下表現(xiàn)更佳
自回歸訓(xùn)練與擴(kuò)散訓(xùn)練的一個(gè)細(xì)微但關(guān)鍵的區(qū)別在于:每個(gè)批次提供的監(jiān)督信號量不同。 在 AR 模型中,每個(gè) token 都會(huì)參與損失計(jì)算;而在擴(kuò)散訓(xùn)練中,只有序列中被掩蓋的位置會(huì)參與監(jiān)督。在標(biāo)準(zhǔn)掩碼擴(kuò)散目標(biāo)下,平均掩碼比例約為 50%,也就是說只有一半的 token 參與學(xué)習(xí)。 這種較弱的學(xué)習(xí)信號意味著,用于 scale batch size 和學(xué)習(xí)率的標(biāo)準(zhǔn)自回歸啟發(fā)式方法不一定適用于擴(kuò)散訓(xùn)練。
為更好理解這一點(diǎn),作者估計(jì)了臨界批大?。–ritical Batch Size, CBS)—— 即當(dāng)數(shù)據(jù)并行度繼續(xù)增大時(shí),損失改進(jìn)收益開始遞減的閾值。按照其他論文中的方法,他們通過分支訓(xùn)練實(shí)驗(yàn)來實(shí)證確定該點(diǎn)。
從一個(gè)在 SCP 配方下已訓(xùn)練 600 億 token 的 40 億參數(shù)模型檢查點(diǎn)出發(fā),作者啟動(dòng)了四個(gè)僅在全局批量大小上不同的并行訓(xùn)練分支。他們調(diào)整學(xué)習(xí)率、保持優(yōu)化器設(shè)置與權(quán)重衰減不變,并在 token 空間上對齊預(yù)熱與衰減調(diào)度。每個(gè)分支再訓(xùn)練額外 50 億 token。
實(shí)驗(yàn)結(jié)果表明,在40 億參數(shù)規(guī)模下,隨著批量增大,擴(kuò)散損失持續(xù)單調(diào)下降,直到約 800 萬 token 仍有收益。換句話說,擴(kuò)散語言模型在持續(xù)預(yù)訓(xùn)練階段能夠有效利用更大的 batch size—— 這對大規(guī)模訓(xùn)練是一個(gè)積極信號。
為什么要改造自回歸模型?
RND1 展示了如何在不推倒重來的情況下,高效探索新架構(gòu)與新訓(xùn)練范式。
這種效率體現(xiàn)了 Radical Numerics 核心理念的本質(zhì) ——構(gòu)建一個(gè)能夠遞歸自我改進(jìn)的自動(dòng)化 AI 研究平臺,讓 AI 系統(tǒng)幫助設(shè)計(jì)和優(yōu)化下一代 AI。
通過自動(dòng)化實(shí)驗(yàn)循環(huán),他們能夠更快地遍歷搜索空間,驗(yàn)證更大膽的想法。RND1 正是這一理念的首個(gè)具體成果之一。
Radical Numerics 的創(chuàng)始成員來自 DeepMind、Meta、Liquid、Stanford 等頂級機(jī)構(gòu),偏好混合架構(gòu)、Hyena 和 Evo 等技術(shù)。在一個(gè)社交媒體帖子中,公司創(chuàng)始人之一 Michael Poli 闡述了他們的信念和愿景。
感興趣的讀者可以查閱更多資料了解該公司。
參考鏈接:https://www.radicalnumerics.ai/blog/rnd1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.