上海AI Lab混合擴(kuò)散語言模型SDAR：突破6600 tgs開源擴(kuò)散語言模型

2025-11-03 18:33:12　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

程爽，上海人工智能實(shí)驗(yàn)室和浙江大學(xué)聯(lián)培博士生一年級；卞一涵，美國馬里蘭大學(xué)碩士生二年級，上海人工智能實(shí)驗(yàn)室實(shí)習(xí)生；劉大衛(wèi)，上海人工智能實(shí)驗(yàn)室和上海交通大學(xué)聯(lián)培博士生一年級；齊弼卿，上海人工智能實(shí)驗(yàn)室研究員（指導(dǎo)老師）

大模型推理速度慢、成本高，已成為限制其廣泛應(yīng)用的核心瓶頸。其根源在于自回歸（AR）模型「逐字生成」的串行模式。

近日，上海人工智能實(shí)驗(yàn)室針對該難題提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。

該方法通過「訓(xùn)練-推理解耦」的巧妙設(shè)計(jì)，無縫融合了AR 模型的高性能與擴(kuò)散模型的并行推理優(yōu)勢，能以極低成本將任意AR 模型「改造」為并行解碼模型。

論文標(biāo)題：SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
論文鏈接：https://arxiv.org/abs/2510.06303
代碼地址：https://github.com/JetAstra/SDAR
推理引擎：https://github.com/InternLM/lmdeploy
模型地址：https://huggingface.co/collections/JetLM/sdar

實(shí)驗(yàn)證明，SDAR 不僅在多個基準(zhǔn)上與原版AR 模型性能持平甚至超越，還能帶來數(shù)倍的真實(shí)推理加速。更令人驚喜的是，SDAR 在復(fù)雜的科學(xué)推理任務(wù)上展現(xiàn)出巨大潛力。在與采用相同配置訓(xùn)練的 AR 基線模型進(jìn)行公平對比時，SDAR 在 ChemBench 等基準(zhǔn)上最高取得了12.3個百分點(diǎn)的性能優(yōu)勢。

在科學(xué)推理能力上，SDAR 實(shí)現(xiàn)了對 AR 基線模型的超越。與使用完全相同配置訓(xùn)練的 AR 版本進(jìn)行公平對比，SDAR-30B-A3B-Sci 模型在 ChemBench（化學(xué)）和 GPQA-diamond（谷歌研究員水平科學(xué)問答）兩大基準(zhǔn)上，得分分別從 60.5 提升至 72.8 和從 61.2 提升至 66.7，取得了 12.3 和 5.5 個百分點(diǎn)的顯著優(yōu)勢。這一結(jié)果有力地表明，其局部雙向注意力機(jī)制對于精準(zhǔn)理解化學(xué)式等結(jié)構(gòu)化知識至關(guān)重要。

目前，該團(tuán)隊(duì)已全面開源從1.7B 到 30B的全系列SDAR 模型、高效推理引擎及迄今最強(qiáng)的開源擴(kuò)散類推理模型 SDAR-30B-A3B-Sci。

大模型推理的「速度困境」：

自回歸與擴(kuò)散模型的兩難抉擇

GPT 系列模型問世以來，自回歸（Autoregressive, AR）范式便成為主流。它通過「從左到右、逐詞預(yù)測」的方式生成文本，完美契合了自然語言的順序結(jié)構(gòu)，這也是AR 模型效果出眾的根本原因。然而，這種嚴(yán)格的順序依賴，也帶來了兩大與生俱來的挑戰(zhàn)：

推理速度瓶頸：生成下一詞元（token）必須等待前一詞元完成，完全串行的機(jī)制導(dǎo)致推理延遲高、服務(wù)成本居高不下，模型規(guī)模越大，問題越嚴(yán)峻。
局部視野與不可逆生成的雙重缺陷：AR模型線性的生成路徑不僅帶來了局部視野局限，難以整體理解化學(xué)分子式等結(jié)構(gòu)化知識；更致命的是它缺乏自我修正（Self-Correction）能力。每個詞元的生成都是一個不可逆的「最終決策」，一旦出錯便無法挽回，導(dǎo)致錯誤累積。這與擴(kuò)散模型等范式形成了鮮明對比，后者理論上支持迭代優(yōu)化和全局修正，這正是它們被視為攻克復(fù)雜推理任務(wù)的關(guān)鍵潛力所在，也是業(yè)界探索非自回歸路徑的核心驅(qū)動力。

為打破僵局，研究者們將目光投向了潛力巨大的擴(kuò)散模型（Diffusion Models）。其中的掩碼擴(kuò)散語言模型（MDLM）將整個序列視為一個整體，通過「從模糊到清晰」的迭代去噪方式并行生成，理論上能一舉解決AR 模型的速度瓶頸。

但實(shí)踐中，MDLM 面臨兩大難題：

訓(xùn)練效率低下：ELBO 優(yōu)化目標(biāo)相比標(biāo)準(zhǔn)NLL 收斂更慢，導(dǎo)致性能不佳。值得注意的是，該工作首次對二者的訓(xùn)練效率進(jìn)行了公平對比，實(shí)驗(yàn)證實(shí)，在同等算力下，MDLM 與 AR 模型的性能存在顯著差距。
推理成本高昂：由于缺乏類似AR 模型的 KV 緩存機(jī)制，MDLM 在推理時每一步都需要處理整個序列，導(dǎo)致計(jì)算復(fù)雜度高，實(shí)際部署依然昂貴。

「混合模型」雖然嘗試結(jié)合二者，塊內(nèi)并行、塊間自回歸，但其特殊的訓(xùn)練目標(biāo)函數(shù)依賴復(fù)雜的注意力掩碼，導(dǎo)致訓(xùn)練開銷幾乎翻倍，令人望而卻步。

另辟蹊徑：

SDAR 如何通過「訓(xùn)練-推理解耦」實(shí)現(xiàn)雙贏

面對這一困境，上海AI 實(shí)驗(yàn)室的研究團(tuán)隊(duì)重新審視問題本質(zhì)，提出了一個顛覆性的思路：為什么要在同一個階段解決所有問題？SDAR 范式的核心就是「解耦」（Decoupling）：

訓(xùn)練階段：擁抱高效的 AR 范式。完全沿用成熟、穩(wěn)定、高效的AR 模型進(jìn)行預(yù)訓(xùn)練。這確保了模型在一個強(qiáng)大的基礎(chǔ)上起步，擁有與頂尖AR 模型同等水平的知識和能力。
推理階段：輕量級適配，解鎖并行解碼。在 AR 預(yù)訓(xùn)練后，引入一個短暫且成本極低的「適配」階段，教會模型以「塊」為單位進(jìn)行并行擴(kuò)散式生成。

這個過程，可以理解為：先培養(yǎng)出一位精通單字書法的大家（強(qiáng)大的AR 模型），然后只用極短時間教會他「連筆揮毫」（塊狀并行生成）的技巧。其原有的書法功底（模型性能）絲毫未損，但創(chuàng)作速度（推理效率）卻得到了質(zhì)的飛躍。

通過這種「訓(xùn)練-適配」分離的設(shè)計(jì)，SDAR 完美保留了 AR 模型的全部優(yōu)點(diǎn)——強(qiáng)大的性能、高效的優(yōu)化、KV 緩存、可變長度生成等，同時精準(zhǔn)地「嫁接」了擴(kuò)散模型最核心的優(yōu)勢——并行解碼帶來的推理加速。

實(shí)驗(yàn)見真章：

性能、速度與成本的規(guī)?；?yàn)證

為了驗(yàn)證SDAR 的實(shí)際效果，研究團(tuán)隊(duì)進(jìn)行了一系列嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)，旨在回答三個核心問題：SDAR 性能與同級AR 模型相比如何？并行加速效果如何？改造現(xiàn)有AR 模型的成本高嗎？

關(guān)鍵發(fā)現(xiàn)：

低成本適配，性能齊平甚至超越：任何主流AR 模型都能通過低成本適配轉(zhuǎn)為SDAR，并在下游任務(wù)中達(dá)到與原版AR 相當(dāng)甚至更高的性能。
模型越大，并行效率越高：更大的SDAR 模型能容忍更大的并行塊（block size），在不犧牲性能的前提下實(shí)現(xiàn)更高的加速比。
精度驅(qū)動效率：在 SDAR 中，模型能力的提升（更自信的預(yù)測）會直接轉(zhuǎn)化為更快的解碼速度，形成「越強(qiáng)越快」的良性循環(huán)。

性能不妥協(xié)：與 AR 基線全面對標(biāo)

研究人員基于Qwen3 系列1.7B、4B、8B-dense 和 30B-A3B MoE 模型，通過「繼續(xù)預(yù)訓(xùn)練 (CPT) + 指令微調(diào) (SFT)」的兩階段流程，訓(xùn)練出SDAR-Chat 系列模型，并與采用完全相同流程訓(xùn)練的AR-Chat 基線進(jìn)行全面對比。

圖注：SDAR-Chat 和 AR-Chat 的嚴(yán)格比較

如上表所示，SDAR 在規(guī)?；瘮U(kuò)展時，性能與AR 模型同步增長。在30B 規(guī)模下，SDAR-Chat 在18 個基準(zhǔn)中的 11 個上持平或超越了其AR 版本，證明了該范式的有效性與可擴(kuò)展性。

成本極低：高效的「即插即用」式適配

與需要 580B token 進(jìn)行從頭訓(xùn)練的Dream 等工作相比，SDAR 僅用 50B token的開源數(shù)據(jù)進(jìn)行繼續(xù)預(yù)訓(xùn)練，就能達(dá)到與AR 基線相當(dāng)?shù)男阅堋＿@證明了「解耦」思想的正確性：強(qiáng)大的 AR 預(yù)訓(xùn)練已為模型打下堅(jiān)實(shí)基礎(chǔ)，后續(xù)的塊狀擴(kuò)散適配僅是一個短暫的「對齊目標(biāo)」過程。這意味著社區(qū)能以極低的成本，將任何開源AR 模型輕松轉(zhuǎn)換為高效的SDAR 模型

加速顯著：真實(shí)部署中的效率飛躍

該研究通過「有效每步生成 Token 數(shù)」（TPF）這一指標(biāo)來衡量理論加速。TPF 為 1 即為標(biāo)準(zhǔn)AR 模型

圖注：SDAR 理論加速比

上圖揭示了SDAR 的縮放定律：

塊越大，加速越明顯：TPF 與塊大小正相關(guān)。
模型越大，加速越明顯：更強(qiáng)的模型預(yù)測更自信，能一次性并行生成更多 token，實(shí)現(xiàn)更高的 TPF，形成「能力與速度」的良性循環(huán)。

在工業(yè)級推理引擎LMDeploy 上的實(shí)測結(jié)果更為直觀。在對延遲敏感的小批量場景下，SDAR-8B-chat 在單張H200 上實(shí)現(xiàn)了相較于AR 版本 2.3 倍的實(shí)際加速，峰值吞吐量高達(dá) 6599 token/s，為實(shí)時交互應(yīng)用提供了巨大優(yōu)勢。

解鎖新潛能：

當(dāng) SDAR 遇上頂尖科學(xué)難題

除了效率提升，一個自然而然的問題是：SDAR 獨(dú)特的生成機(jī)制是否會影響其復(fù)雜的推理能力？為此，研究人員基于Qwen3-30B-A3B，專門打造了一款科學(xué)推理模型 SDAR-30B-A3B-Sci，并與嚴(yán)格對齊訓(xùn)練流程的AR 版本進(jìn)行對比，結(jié)果令人振奮。

關(guān)鍵發(fā)現(xiàn)：

長鏈推理能力完整保留：SDAR 適配過程能很好地保留AR 基座模型的長思維鏈（CoT）推理能力。
局部雙向注意力優(yōu)勢凸顯：SDAR 在需要理解局部結(jié)構(gòu)化信息的任務(wù)（如化學(xué)）上表現(xiàn)出色。
與測試時擴(kuò)展策略協(xié)同增效：簡單的多輪采樣 + 投票就能帶來巨大性能提升，顯示出與RL 等技術(shù)結(jié)合的巨大潛力。

結(jié)果令人驚喜：

在科學(xué)領(lǐng)域全面超越 AR：在 GPQA-diamond（谷歌研究員水平的科學(xué)問答）和 ChemBench（化學(xué)）等基準(zhǔn)上，SDAR-30B-A3B-Sci 的得分比其AR 版本分別高出 5.5 和 12.3 個百分點(diǎn)（72.8 vs. 60.5 和 66.7 vs. 61.2）！這證明其局部雙向注意力機(jī)制，對于理解化學(xué)式等結(jié)構(gòu)化知識至關(guān)重要。
測試時擴(kuò)展?jié)摿薮螅和ㄟ^簡單的多輪采樣 + 多數(shù)投票（Majority Vote），SDAR 的性能得到進(jìn)一步飛躍，在 AIME-2025（國際數(shù)學(xué)競賽）上提升 +19.3%，在 LMB-hard（高難度數(shù)學(xué)）上提升 +15.7%。這表明SDAR 的并行生成范式能產(chǎn)生更多樣化的推理路徑，與集成學(xué)習(xí)等策略形成了完美互補(bǔ)。

圖注：AR-30B-A3B-Sci and SDAR-30B-A3B-Sci 性能比較

圖注：測試時擴(kuò)展實(shí)驗(yàn)

這些結(jié)果證明，SDAR 不僅是一個「加速器」，更是一個「增強(qiáng)器」，為解決復(fù)雜推理任務(wù)提供了一個性能與效率俱佳的新范式。

總結(jié)與展望

SDAR 為大模型領(lǐng)域提供了一個強(qiáng)大而靈活的新工具。該研究的核心貢獻(xiàn)可歸納為以下幾點(diǎn)：

首次公平對比 AR 與 MDLM 訓(xùn)練效率，用實(shí)驗(yàn)證實(shí)了AR 范式在訓(xùn)練上的巨大優(yōu)勢。
提出創(chuàng)新的 SDAR 范式，通過「訓(xùn)練-推理」解耦，實(shí)現(xiàn)了AR 的高性能與擴(kuò)散模型并行解碼的優(yōu)勢結(jié)合。
提供低成本的實(shí)用方案，可將任意AR 模型適配為SDAR，并驗(yàn)證了其在不同模型、不同架構(gòu)（Dense、MoE）上的普適性。
系統(tǒng)性揭示縮放定律，分析了模型大小、塊大小、性能與速度間的關(guān)系，為未來研究提供了寶貴經(jīng)驗(yàn)。
全面開源全系列成果，包括從1.7B 到 30BSDAR 模型、輕量級和生產(chǎn)級的推理引擎，以及迄今最強(qiáng)的開源擴(kuò)散類推理模型 SDAR-30B-A3B-Sci。

SDAR 的出現(xiàn)，不僅能讓現(xiàn)有的大模型「飛」起來，降低應(yīng)用門檻，也為探索更高性能、更高效的下一代AI 推理范式打開了一扇新的大門。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.