夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Qwen3 變身擴(kuò)散語言模型?不從零訓(xùn)練也能跑,30B參數(shù)創(chuàng)紀(jì)錄

0
分享至



機(jī)器之心報(bào)道

編輯:張倩

擴(kuò)散語言模型(Diffusion Language Models,DLM)一直以來都令研究者頗感興趣,因?yàn)榕c必須按從左到右順序生成的自回歸模型(Autoregressive, AR)不同,DLM 能實(shí)現(xiàn)并行生成,這在理論上可以實(shí)現(xiàn)更快的生成速度,也能讓模型基于前后文更好地理解生成語境。

然而,盡管其潛力巨大,DLM 的訓(xùn)練仍然充滿挑戰(zhàn),主要原因是它在 scaling 上的效率相對低于 AR 模型。例如,直接訓(xùn)練 DLM 需要在有限的數(shù)據(jù)集上進(jìn)行更多次迭代,才能超越直接訓(xùn)練的 AR 模型。此外,AR 模型還擁有顯著的「先發(fā)優(yōu)勢」—— 包括成熟的訓(xùn)練基礎(chǔ)設(shè)施、穩(wěn)定的訓(xùn)練配方以及廣泛的從業(yè)者經(jīng)驗(yàn)積累。

為了克服這些難點(diǎn),來自 Radical Numerics(一個(gè)新的 AI 初創(chuàng))的研究團(tuán)隊(duì)選擇了另一條路:在現(xiàn)有自回歸模型的基礎(chǔ)上進(jìn)行改造,讓它具備擴(kuò)散語言模型的能力



他們剛剛發(fā)布的RND1-Base(Radical Numerics Diffusion)是迄今為止規(guī)模最大的開源擴(kuò)散語言模型。其生成效果如下:



這是一個(gè)實(shí)驗(yàn)性的30B 參數(shù)稀疏 MoE 模型,其中有3B 激活參數(shù),由一個(gè)預(yù)訓(xùn)練的 AR 模型(Qwen3-30BA3B)轉(zhuǎn)換而來,并在持續(xù)預(yù)訓(xùn)練中累積訓(xùn)練500B 個(gè) token,以實(shí)現(xiàn)完整的擴(kuò)散行為。作者同步開源了模型、訓(xùn)練配方、推理代碼以及樣例輸出。



  • 技術(shù)報(bào)告:Training Diffusion Language Models at Scale using Autoregressive Models
  • 報(bào)告鏈接:https://www.radicalnumerics.ai/assets/rnd1_report.pdf
  • 代碼鏈接:https://github.com/RadicalNumerics/RND1
  • HuggingFace 鏈接:https://huggingface.co/radicalnumerics/RND1-Base-0910

這項(xiàng)研究的主要貢獻(xiàn)包括:

  • 系統(tǒng)性研究了大規(guī)模 A2D(Autoregressive-to-Diffusion)轉(zhuǎn)換過程中的關(guān)鍵因素,如初始化策略、層級學(xué)習(xí)率和臨界批大小。
  • 識別出能夠?qū)崿F(xiàn)可擴(kuò)展性與穩(wěn)定性的關(guān)鍵因素,并證明當(dāng)這些因素與成熟的自回歸預(yù)訓(xùn)練方法結(jié)合時(shí),簡單的技術(shù)組合也能催生可擴(kuò)展的 DLM。
  • 推出了迄今為止最大的基礎(chǔ)擴(kuò)散語言模型RND1-30B,展示了將自回歸預(yù)訓(xùn)練經(jīng)驗(yàn)科學(xué)化轉(zhuǎn)換后可在多項(xiàng)基準(zhǔn)測試中取得卓越表現(xiàn)。

具體來說,研究者在推理(MMLU、ARC-C、RACE、BBH)、STEM(GSM8K)以及代碼生成(MBPP)等通用基準(zhǔn)測試中測試了 RND1。結(jié)果顯示,它在所有評測中均穩(wěn)定超越現(xiàn)有 Dream-7B 和 LLaDA-8B,同時(shí)保持了其自回歸基礎(chǔ)模型的強(qiáng)大性能。



這些結(jié)果表明,將擴(kuò)散語言模型規(guī)模擴(kuò)展到 80 億參數(shù)以上不僅可行,而且切實(shí)有效。A2D 轉(zhuǎn)換可能是訓(xùn)練 DLM 更優(yōu)的策略。RND1 也是首個(gè)在此規(guī)模上成功展示擴(kuò)散模型訓(xùn)練的開源項(xiàng)目。

不過,需要指出的是,研究者并未將 RND1 與 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 進(jìn)行對比。從部分指標(biāo)來看,RND1 并未超越 LLaDA-MoE-7B-A1B 的表現(xiàn)。兩個(gè)模型哪個(gè)更強(qiáng)還需要進(jìn)一步 PK。



圖源:https://arxiv.org/pdf/2509.24389

簡單持續(xù)預(yù)訓(xùn)練(SCP)

從一個(gè)自回歸檢查點(diǎn)訓(xùn)練擴(kuò)散語言模型,會(huì)引出兩個(gè)核心問題:

第一,如何在一個(gè)原本僅支持因果注意力(causal attention)的架構(gòu)中引入雙向上下文?

第二,如何在轉(zhuǎn)換過程中保留 AR 模型從數(shù)萬億 token 預(yù)訓(xùn)練中獲得的語言與事實(shí)知識?

早期研究提出了多階段復(fù)雜流程,例如注意力掩碼退火(attention mask annealing),通過逐步放松因果掩碼實(shí)現(xiàn)雙向注意力;或嫁接法(grafting),即系統(tǒng)性修改模型結(jié)構(gòu),用雙向注意力替換因果注意力。

這些方法在小規(guī)模模型上有效,但往往引入額外設(shè)計(jì)選擇(如掩碼變化策略、退火 / 嫁接調(diào)度),難以穩(wěn)定地推廣至大規(guī)模。

相較之下,作者發(fā)現(xiàn)了一種更簡單的方法 ——簡單持續(xù)預(yù)訓(xùn)練(SCP),能夠達(dá)到與這些復(fù)雜 A2D 轉(zhuǎn)換流程相當(dāng)?shù)男阅堋?/p>

其配方極為直接:

  • 從一個(gè)強(qiáng)大的 AR 檢查點(diǎn)開始;
  • 在初始化時(shí)將因果掩碼替換為雙向掩碼;
  • 在掩碼擴(kuò)散目標(biāo)下繼續(xù)預(yù)訓(xùn)練,并采用學(xué)習(xí)率預(yù)熱。

通過層級學(xué)習(xí)率保留 AR 預(yù)訓(xùn)練知識

A2D 轉(zhuǎn)換面臨的主要風(fēng)險(xiǎn)之一是災(zāi)難性遺忘:模型可能在轉(zhuǎn)換過程中丟失原有的事實(shí)知識。 既有研究表明,Transformer 類語言模型中的知識(尤其是事實(shí)關(guān)聯(lián))主要編碼在FFN/MLP 層中 。基于這一認(rèn)識,他們在不同參數(shù)組間采用了分層學(xué)習(xí)率策略:

在轉(zhuǎn)換期間,注意力層使用更高的學(xué)習(xí)率以便快速適應(yīng)雙向上下文,而非注意力層(如 MLP 與嵌入層)使用較低學(xué)習(xí)率,以最大程度保留 AR 預(yù)訓(xùn)練知識。

A2D 轉(zhuǎn)換在大 batch size 訓(xùn)練下表現(xiàn)更佳

自回歸訓(xùn)練與擴(kuò)散訓(xùn)練的一個(gè)細(xì)微但關(guān)鍵的區(qū)別在于:每個(gè)批次提供的監(jiān)督信號量不同。 在 AR 模型中,每個(gè) token 都會(huì)參與損失計(jì)算;而在擴(kuò)散訓(xùn)練中,只有序列中被掩蓋的位置會(huì)參與監(jiān)督。在標(biāo)準(zhǔn)掩碼擴(kuò)散目標(biāo)下,平均掩碼比例約為 50%,也就是說只有一半的 token 參與學(xué)習(xí)。 這種較弱的學(xué)習(xí)信號意味著,用于 scale batch size 和學(xué)習(xí)率的標(biāo)準(zhǔn)自回歸啟發(fā)式方法不一定適用于擴(kuò)散訓(xùn)練。

為更好理解這一點(diǎn),作者估計(jì)了臨界批大?。–ritical Batch Size, CBS)—— 即當(dāng)數(shù)據(jù)并行度繼續(xù)增大時(shí),損失改進(jìn)收益開始遞減的閾值。按照其他論文中的方法,他們通過分支訓(xùn)練實(shí)驗(yàn)來實(shí)證確定該點(diǎn)。

從一個(gè)在 SCP 配方下已訓(xùn)練 600 億 token 的 40 億參數(shù)模型檢查點(diǎn)出發(fā),作者啟動(dòng)了四個(gè)僅在全局批量大小上不同的并行訓(xùn)練分支。他們調(diào)整學(xué)習(xí)率、保持優(yōu)化器設(shè)置與權(quán)重衰減不變,并在 token 空間上對齊預(yù)熱與衰減調(diào)度。每個(gè)分支再訓(xùn)練額外 50 億 token。

實(shí)驗(yàn)結(jié)果表明,在40 億參數(shù)規(guī)模下,隨著批量增大,擴(kuò)散損失持續(xù)單調(diào)下降,直到約 800 萬 token 仍有收益。換句話說,擴(kuò)散語言模型在持續(xù)預(yù)訓(xùn)練階段能夠有效利用更大的 batch size—— 這對大規(guī)模訓(xùn)練是一個(gè)積極信號。



為什么要改造自回歸模型?

RND1 展示了如何在不推倒重來的情況下,高效探索新架構(gòu)與新訓(xùn)練范式。

這種效率體現(xiàn)了 Radical Numerics 核心理念的本質(zhì) ——構(gòu)建一個(gè)能夠遞歸自我改進(jìn)的自動(dòng)化 AI 研究平臺,讓 AI 系統(tǒng)幫助設(shè)計(jì)和優(yōu)化下一代 AI。

通過自動(dòng)化實(shí)驗(yàn)循環(huán),他們能夠更快地遍歷搜索空間,驗(yàn)證更大膽的想法。RND1 正是這一理念的首個(gè)具體成果之一。



Radical Numerics 的創(chuàng)始成員來自 DeepMind、Meta、Liquid、Stanford 等頂級機(jī)構(gòu),偏好混合架構(gòu)、Hyena 和 Evo 等技術(shù)。在一個(gè)社交媒體帖子中,公司創(chuàng)始人之一 Michael Poli 闡述了他們的信念和愿景。



感興趣的讀者可以查閱更多資料了解該公司。

參考鏈接:https://www.radicalnumerics.ai/blog/rnd1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
196:148,高市敗選已定?日本黨魁向中國示好,東京還有大雷沒爆

196:148,高市敗選已定?日本黨魁向中國示好,東京還有大雷沒爆

南宗歷史
2025-10-13 11:09:57
全運(yùn)會(huì)10米氣步槍神仙打架!浙江隊(duì)韓佳予摘金,黃雨婷僅獲第8名

全運(yùn)會(huì)10米氣步槍神仙打架!浙江隊(duì)韓佳予摘金,黃雨婷僅獲第8名

全景體育V
2025-10-13 15:18:04
縱覽熱點(diǎn)|貴州黔南州一珠寶店價(jià)值百萬黃金被盜?店方:900多克黃金被竊,價(jià)值90余萬;警方:嫌疑人已落網(wǎng)

縱覽熱點(diǎn)|貴州黔南州一珠寶店價(jià)值百萬黃金被盜?店方:900多克黃金被竊,價(jià)值90余萬;警方:嫌疑人已落網(wǎng)

縱覽新聞
2025-10-13 20:22:09
秋天“造血果”大量上市!女性多吃,脾胃舒服了,氣血也足起來!

秋天“造血果”大量上市!女性多吃,脾胃舒服了,氣血也足起來!

江江食研社
2025-10-12 20:30:03
寧波一特斯拉銷售員試駕展示車輛功能撞上橋墩,致車內(nèi)4名客戶受傷?回應(yīng):店長在處理

寧波一特斯拉銷售員試駕展示車輛功能撞上橋墩,致車內(nèi)4名客戶受傷?回應(yīng):店長在處理

瀟湘晨報(bào)
2025-10-13 17:03:39
《科學(xué)》重磅!最新研究發(fā)現(xiàn)長壽關(guān)鍵基因,我真可以再活500年?

《科學(xué)》重磅!最新研究發(fā)現(xiàn)長壽關(guān)鍵基因,我真可以再活500年?

徐德文科學(xué)頻道
2025-10-11 21:14:35
真激烈!掘金102-94擊敗快船,這一戰(zhàn),我不得不承認(rèn)6個(gè)現(xiàn)實(shí)

真激烈!掘金102-94擊敗快船,這一戰(zhàn),我不得不承認(rèn)6個(gè)現(xiàn)實(shí)

毒舌NBA
2025-10-13 12:07:29
反轉(zhuǎn)來了,中方否認(rèn)禁止出口,特朗普改對華限制令,美企將被淘汰

反轉(zhuǎn)來了,中方否認(rèn)禁止出口,特朗普改對華限制令,美企將被淘汰

吳欣純Deborah
2025-10-12 19:00:07
廣州氣溫即將驟降至“1字頭”!何時(shí)能領(lǐng)“秋季體驗(yàn)卡”?

廣州氣溫即將驟降至“1字頭”!何時(shí)能領(lǐng)“秋季體驗(yàn)卡”?

極目新聞
2025-10-13 20:55:18
20年以上才結(jié)果!廣東男子18年前種下約1000畝,如今只有2棵結(jié)果

20年以上才結(jié)果!廣東男子18年前種下約1000畝,如今只有2棵結(jié)果

攬星河的筆記
2025-10-13 18:37:28
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
哈馬斯創(chuàng)始人馬爾祖克對記者說:去死吧!哈馬斯可能提前釋放人質(zhì)

哈馬斯創(chuàng)始人馬爾祖克對記者說:去死吧!哈馬斯可能提前釋放人質(zhì)

老王說正義
2025-10-13 00:07:20
領(lǐng)益智造:預(yù)計(jì)2025年前三季度凈利潤為18.9億元~21.2億元,同比增長34.1%~50.42%

領(lǐng)益智造:預(yù)計(jì)2025年前三季度凈利潤為18.9億元~21.2億元,同比增長34.1%~50.42%

每日經(jīng)濟(jì)新聞
2025-10-13 18:58:05
鄭麗文尷尬了,中方警告后,高市早苗放棄例行參拜靖國神社

鄭麗文尷尬了,中方警告后,高市早苗放棄例行參拜靖國神社

議紀(jì)史
2025-10-12 20:05:03
許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

詩意世界
2025-09-26 10:31:06
51歲貝嫂打臉現(xiàn)場!每年虧損1億,強(qiáng)撐有錢人設(shè),用盡了所有力氣

51歲貝嫂打臉現(xiàn)場!每年虧損1億,強(qiáng)撐有錢人設(shè),用盡了所有力氣

觀察鑒娛
2025-10-12 17:10:35
省安委會(huì)掛牌督辦!深圳大鵬一產(chǎn)業(yè)園發(fā)生一起事故,3人死亡

省安委會(huì)掛牌督辦!深圳大鵬一產(chǎn)業(yè)園發(fā)生一起事故,3人死亡

南方都市報(bào)
2025-10-11 20:55:22
格魯吉亞抖出真相

格魯吉亞抖出真相

求實(shí)處
2025-10-12 19:26:05
張本宇開心極了!不是一雙兒女亞錦賽大獲全勝,而是因?yàn)檫@兩點(diǎn)!

張本宇開心極了!不是一雙兒女亞錦賽大獲全勝,而是因?yàn)檫@兩點(diǎn)!

田先生籃球
2025-10-13 08:49:27
為打造全球最大臀部,她常年做高風(fēng)險(xiǎn)手術(shù),從美女整成了半人馬.... 這??

為打造全球最大臀部,她常年做高風(fēng)險(xiǎn)手術(shù),從美女整成了半人馬.... 這??

英國那些事兒
2025-10-12 23:11:23
2025-10-13 21:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11450文章數(shù) 142478關(guān)注度
往期回顧 全部

科技要聞

楊強(qiáng)院士:AGI真正到來時(shí) 人與AI將和諧共生

頭條要聞

大疆降價(jià) 影石CEO致歉:曬訂單證明可獲無門檻代金券

頭條要聞

大疆降價(jià) 影石CEO致歉:曬訂單證明可獲無門檻代金券

體育要聞

29+12后24+10:韋爾生涯第二年沖MIP

娛樂要聞

王詩齡16歲生日:李湘王岳倫同框

財(cái)經(jīng)要聞

2025諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng):創(chuàng)新、毀滅與增長

汽車要聞

小米SU7高速碰撞后起火 事發(fā)前速度或超200km/h

態(tài)度原創(chuàng)

親子
手機(jī)
數(shù)碼
游戲
公開課

親子要聞

誰懂這一刻的含金量!

手機(jī)要聞

vivo X300 Pro 專業(yè)影像手柄套裝公布:699 元起,10 月底開售

數(shù)碼要聞

追覓洗地機(jī),霸榜!

官方震怒,贊助商撤離!LPL的遮羞布,被亞洲邀請賽徹底扯下了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 免费在线成人网| 午夜免费1000| 无码人妻一区二区三区在线视频 | 国模冰莲自慰肥美胞极品人体图| 亚洲一卡久久4卡5卡6卡7卡| 久久精品99国产精品亚洲| 亚洲国产精品久久久天堂麻豆宅男| 校花高潮抽搐冒白浆视频| 毛线女人18毛片一区二区| 久热这里只有精品99国产6| 亚洲人成电影网站色| 国产亚洲精品久久久网站好莱| 欧美熟妇xxxxx欧美老妇不卡| N老视频Chinese| 亚洲AV无码一区二区记者| 国产传媒剧情av在线| 亚洲 精品 综合 精品 自拍| 国产日本一区| 亚洲 成人 小说 校园 激情| 在线中文一区字幕对白| 看毛片免费播放| 国产熟女白浆精品视频2| 精品深夜av无码一区二区| 亚洲国产精品无码久久九色| 日本强奸性电影网站| 欧美性大战久久久久久久四虎| 人妻中文字幕亚洲精品| 一道本无码dVd| 四虎永久在线精品8848A| 91av视频网站| 在线亚洲人成电影网站色www| 久久综合婷婷国产二区高清| 亚洲午夜精品日韩乱码| 国产欧美va天堂在线观看视频 | AV一区老女人| 亚洲人成网站77777在线观看| 九九热这里只有| yw尤物爆乳网站点击进入| 4399理论片午午伦夜理片| 蜜臀av国产精品久久久久| 97久久精品|