夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海AI Lab混合擴(kuò)散語言模型SDAR:突破6600 tgs開源擴(kuò)散語言模型

0
分享至



程爽,上海人工智能實(shí)驗(yàn)室和浙江大學(xué)聯(lián)培博士生一年級;卞一涵,美國馬里蘭大學(xué)碩士生二年級,上海人工智能實(shí)驗(yàn)室實(shí)習(xí)生;劉大衛(wèi),上海人工智能實(shí)驗(yàn)室和上海交通大學(xué)聯(lián)培博士生一年級;齊弼卿,上海人工智能實(shí)驗(yàn)室研究員(指導(dǎo)老師)

大模型推理速度慢、成本高,已成為限制其廣泛應(yīng)用的核心瓶頸。其根源在于自回歸(AR)模型「逐字生成」的串行模式。

近日,上海人工智能實(shí)驗(yàn)室針對該難題提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。

該方法通過「訓(xùn)練-推理解耦」的巧妙設(shè)計(jì),無縫融合了AR 模型的高性能與擴(kuò)散模型的并行推理優(yōu)勢,能以極低成本將任意AR 模型「改造」為并行解碼模型。



  • 論文標(biāo)題:SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
  • 論文鏈接:https://arxiv.org/abs/2510.06303
  • 代碼地址:https://github.com/JetAstra/SDAR
  • 推理引擎:https://github.com/InternLM/lmdeploy
  • 模型地址:https://huggingface.co/collections/JetLM/sdar

實(shí)驗(yàn)證明,SDAR 不僅在多個基準(zhǔn)上與原版AR 模型性能持平甚至超越,還能帶來數(shù)倍的真實(shí)推理加速。更令人驚喜的是,SDAR 在復(fù)雜的科學(xué)推理任務(wù)上展現(xiàn)出巨大潛力。在與采用相同配置訓(xùn)練的 AR 基線模型進(jìn)行公平對比時,SDAR 在 ChemBench 等基準(zhǔn)上最高取得了12.3個百分點(diǎn)的性能優(yōu)勢。

在科學(xué)推理能力上,SDAR 實(shí)現(xiàn)了對 AR 基線模型的超越。與使用完全相同配置訓(xùn)練的 AR 版本進(jìn)行公平對比,SDAR-30B-A3B-Sci 模型在 ChemBench(化學(xué))和 GPQA-diamond(谷歌研究員水平科學(xué)問答)兩大基準(zhǔn)上,得分分別從 60.5 提升至 72.8 和從 61.2 提升至 66.7,取得了 12.3 和 5.5 個百分點(diǎn)的顯著優(yōu)勢。這一結(jié)果有力地表明,其局部雙向注意力機(jī)制對于精準(zhǔn)理解化學(xué)式等結(jié)構(gòu)化知識至關(guān)重要。

目前,該團(tuán)隊(duì)已全面開源從1.7B 到 30B的全系列SDAR 模型、高效推理引擎及迄今最強(qiáng)的開源擴(kuò)散類推理模型 SDAR-30B-A3B-Sci。

大模型推理的「速度困境」:

自回歸與擴(kuò)散模型的兩難抉擇

GPT 系列模型問世以來,自回歸(Autoregressive, AR)范式便成為主流。它通過「從左到右、逐詞預(yù)測」的方式生成文本,完美契合了自然語言的順序結(jié)構(gòu),這也是AR 模型效果出眾的根本原因。 然而,這種嚴(yán)格的順序依賴,也帶來了兩大與生俱來的挑戰(zhàn):

  • 推理速度瓶頸:生成下一詞元(token)必須等待前一詞元完成,完全串行的機(jī)制導(dǎo)致推理延遲高、服務(wù)成本居高不下,模型規(guī)模越大,問題越嚴(yán)峻。
  • 局部視野與不可逆生成的雙重缺陷:AR模型線性的生成路徑不僅帶來了局部視野局限,難以整體理解化學(xué)分子式等結(jié)構(gòu)化知識;更致命的是它缺乏自我修正(Self-Correction)能力。每個詞元的生成都是一個不可逆的「最終決策」,一旦出錯便無法挽回,導(dǎo)致錯誤累積。這與擴(kuò)散模型等范式形成了鮮明對比,后者理論上支持迭代優(yōu)化和全局修正,這正是它們被視為攻克復(fù)雜推理任務(wù)的關(guān)鍵潛力所在,也是業(yè)界探索非自回歸路徑的核心驅(qū)動力。

為打破僵局,研究者們將目光投向了潛力巨大的擴(kuò)散模型(Diffusion Models)。其中的掩碼擴(kuò)散語言模型(MDLM)將整個序列視為一個整體,通過「從模糊到清晰」的迭代去噪方式并行生成,理論上能一舉解決AR 模型的速度瓶頸。

但實(shí)踐中,MDLM 面臨兩大難題:

  • 訓(xùn)練效率低下:ELBO 優(yōu)化目標(biāo)相比標(biāo)準(zhǔn)NLL 收斂更慢,導(dǎo)致性能不佳。值得注意的是,該工作首次對二者的訓(xùn)練效率進(jìn)行了公平對比,實(shí)驗(yàn)證實(shí),在同等算力下,MDLM 與 AR 模型的性能存在顯著差距。
  • 推理成本高昂:由于缺乏類似AR 模型的 KV 緩存機(jī)制,MDLM 在推理時每一步都需要處理整個序列,導(dǎo)致計(jì)算復(fù)雜度高,實(shí)際部署依然昂貴。

「混合模型」雖然嘗試結(jié)合二者,塊內(nèi)并行、塊間自回歸,但其特殊的訓(xùn)練目標(biāo)函數(shù)依賴復(fù)雜的注意力掩碼,導(dǎo)致訓(xùn)練開銷幾乎翻倍,令人望而卻步。

另辟蹊徑:

SDAR 如何通過「訓(xùn)練-推理解耦」實(shí)現(xiàn)雙贏

面對這一困境,上海AI 實(shí)驗(yàn)室的研究團(tuán)隊(duì)重新審視問題本質(zhì),提出了一個顛覆性的思路:為什么要在同一個階段解決所有問題?SDAR 范式的核心就是「解耦」(Decoupling):

  • 訓(xùn)練階段:擁抱高效的 AR 范式。完全沿用成熟、穩(wěn)定、高效的AR 模型進(jìn)行預(yù)訓(xùn)練。這確保了模型在一個強(qiáng)大的基礎(chǔ)上起步,擁有與頂尖AR 模型同等水平的知識和能力。
  • 推理階段:輕量級適配,解鎖并行解碼。在 AR 預(yù)訓(xùn)練后,引入一個短暫且成本極低的「適配」階段,教會模型以「塊」為單位進(jìn)行并行擴(kuò)散式生成。

這個過程,可以理解為:先培養(yǎng)出一位精通單字書法的大家(強(qiáng)大的AR 模型),然后只用極短時間教會他「連筆揮毫」(塊狀并行生成)的技巧。其原有的書法功底(模型性能)絲毫未損,但創(chuàng)作速度(推理效率)卻得到了質(zhì)的飛躍。

通過這種「訓(xùn)練-適配」分離的設(shè)計(jì),SDAR 完美保留了 AR 模型的全部優(yōu)點(diǎn)——強(qiáng)大的性能、高效的優(yōu)化、KV 緩存、可變長度生成等,同時精準(zhǔn)地「嫁接」了擴(kuò)散模型最核心的優(yōu)勢——并行解碼帶來的推理加速。

實(shí)驗(yàn)見真章:

性能、速度與成本的規(guī)?;?yàn)證

為了驗(yàn)證SDAR 的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了一系列嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn),旨在回答三個核心問題:SDAR 性能與同級AR 模型相比如何?并行加速效果如何?改造現(xiàn)有AR 模型的成本高嗎?

關(guān)鍵發(fā)現(xiàn):

  • 低成本適配,性能齊平甚至超越:任何主流AR 模型都能通過低成本適配轉(zhuǎn)為SDAR,并在下游任務(wù)中達(dá)到與原版AR 相當(dāng)甚至更高的性能。
  • 模型越大,并行效率越高:更大的SDAR 模型能容忍更大的并行塊(block size),在不犧牲性能的前提下實(shí)現(xiàn)更高的加速比。
  • 精度驅(qū)動效率:在 SDAR 中,模型能力的提升(更自信的預(yù)測)會直接轉(zhuǎn)化為更快的解碼速度,形成「越強(qiáng)越快」的良性循環(huán)。

性能不妥協(xié):與 AR 基線全面對標(biāo)

研究人員基于Qwen3 系列1.7B、4B、8B-dense 和 30B-A3B MoE 模型,通過「繼續(xù)預(yù)訓(xùn)練 (CPT) + 指令微調(diào) (SFT)」的兩階段流程,訓(xùn)練出SDAR-Chat 系列模型,并與采用完全相同流程訓(xùn)練的AR-Chat 基線進(jìn)行全面對比。



圖注:SDAR-Chat 和 AR-Chat 的嚴(yán)格比較

如上表所示,SDAR 在規(guī)?;瘮U(kuò)展時,性能與AR 模型同步增長。在30B 規(guī)模下,SDAR-Chat 在18 個基準(zhǔn)中的 11 個上持平或超越了其AR 版本,證明了該范式的有效性與可擴(kuò)展性。

成本極低:高效的「即插即用」式適配

與需要 580B token 進(jìn)行從頭訓(xùn)練的Dream 等工作相比,SDAR 僅用 50B token的開源數(shù)據(jù)進(jìn)行繼續(xù)預(yù)訓(xùn)練,就能達(dá)到與AR 基線相當(dāng)?shù)男阅堋_@證明了「解耦」思想的正確性:強(qiáng)大的 AR 預(yù)訓(xùn)練已為模型打下堅(jiān)實(shí)基礎(chǔ),后續(xù)的塊狀擴(kuò)散適配僅是一個短暫的「對齊目標(biāo)」過程。這意味著社區(qū)能以極低的成本,將任何開源AR 模型輕松轉(zhuǎn)換為高效的SDAR 模型

加速顯著:真實(shí)部署中的效率飛躍

該研究通過「有效每步生成 Token 數(shù)」(TPF)這一指標(biāo)來衡量理論加速。TPF 為 1 即為標(biāo)準(zhǔn)AR 模型



圖注:SDAR 理論加速比

上圖揭示了SDAR 的縮放定律:

  • 塊越大,加速越明顯:TPF 與塊大小正相關(guān)。
  • 模型越大,加速越明顯:更強(qiáng)的模型預(yù)測更自信,能一次性并行生成更多 token,實(shí)現(xiàn)更高的 TPF,形成「能力與速度」的良性循環(huán)。

在工業(yè)級推理引擎LMDeploy 上的實(shí)測結(jié)果更為直觀。在對延遲敏感的小批量場景下,SDAR-8B-chat 在單張H200 上實(shí)現(xiàn)了相較于AR 版本 2.3 倍的實(shí)際加速,峰值吞吐量高達(dá) 6599 token/s,為實(shí)時交互應(yīng)用提供了巨大優(yōu)勢。

解鎖新潛能:

當(dāng) SDAR 遇上頂尖科學(xué)難題

除了效率提升,一個自然而然的問題是:SDAR 獨(dú)特的生成機(jī)制是否會影響其復(fù)雜的推理能力?為此,研究人員基于Qwen3-30B-A3B,專門打造了一款科學(xué)推理模型 SDAR-30B-A3B-Sci,并與嚴(yán)格對齊訓(xùn)練流程的AR 版本進(jìn)行對比,結(jié)果令人振奮。

關(guān)鍵發(fā)現(xiàn):

  • 長鏈推理能力完整保留:SDAR 適配過程能很好地保留AR 基座模型的長思維鏈(CoT)推理能力。
  • 局部雙向注意力優(yōu)勢凸顯:SDAR 在需要理解局部結(jié)構(gòu)化信息的任務(wù)(如化學(xué))上表現(xiàn)出色。
  • 與測試時擴(kuò)展策略協(xié)同增效:簡單的多輪采樣 + 投票就能帶來巨大性能提升,顯示出與RL 等技術(shù)結(jié)合的巨大潛力。

結(jié)果令人驚喜:

  • 在科學(xué)領(lǐng)域全面超越 AR:在 GPQA-diamond(谷歌研究員水平的科學(xué)問答)和 ChemBench(化學(xué))等基準(zhǔn)上,SDAR-30B-A3B-Sci 的得分比其AR 版本分別高出 5.5 和 12.3 個百分點(diǎn)(72.8 vs. 60.5 和 66.7 vs. 61.2)!這證明其局部雙向注意力機(jī)制,對于理解化學(xué)式等結(jié)構(gòu)化知識至關(guān)重要。
  • 測試時擴(kuò)展?jié)摿薮螅和ㄟ^簡單的多輪采樣 + 多數(shù)投票(Majority Vote),SDAR 的性能得到進(jìn)一步飛躍,在 AIME-2025(國際數(shù)學(xué)競賽)上提升 +19.3%,在 LMB-hard(高難度數(shù)學(xué))上提升 +15.7%。這表明SDAR 的并行生成范式能產(chǎn)生更多樣化的推理路徑,與集成學(xué)習(xí)等策略形成了完美互補(bǔ)。



圖注:AR-30B-A3B-Sci and SDAR-30B-A3B-Sci 性能比較



圖注:測試時擴(kuò)展實(shí)驗(yàn)

這些結(jié)果證明,SDAR 不僅是一個「加速器」,更是一個「增強(qiáng)器」,為解決復(fù)雜推理任務(wù)提供了一個性能與效率俱佳的新范式。

總結(jié)與展望

SDAR 為大模型領(lǐng)域提供了一個強(qiáng)大而靈活的新工具。該研究的核心貢獻(xiàn)可歸納為以下幾點(diǎn):

  • 首次公平對比 AR 與 MDLM 訓(xùn)練效率,用實(shí)驗(yàn)證實(shí)了AR 范式在訓(xùn)練上的巨大優(yōu)勢。
  • 提出創(chuàng)新的 SDAR 范式,通過「訓(xùn)練-推理」解耦,實(shí)現(xiàn)了AR 的高性能與擴(kuò)散模型并行解碼的優(yōu)勢結(jié)合。
  • 提供低成本的實(shí)用方案,可將任意AR 模型適配為SDAR,并驗(yàn)證了其在不同模型、不同架構(gòu)(Dense、MoE)上的普適性。
  • 系統(tǒng)性揭示縮放定律,分析了模型大小、塊大小、性能與速度間的關(guān)系,為未來研究提供了寶貴經(jīng)驗(yàn)。
  • 全面開源全系列成果,包括從1.7B 到 30BSDAR 模型、輕量級和生產(chǎn)級的推理引擎,以及迄今最強(qiáng)的開源擴(kuò)散類推理模型 SDAR-30B-A3B-Sci。

SDAR 的出現(xiàn),不僅能讓現(xiàn)有的大模型「飛」起來,降低應(yīng)用門檻,也為探索更高性能、更高效的下一代AI 推理范式打開了一扇新的大門。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海正在新建四大超級地鐵換乘樞紐,改變區(qū)域發(fā)展格局!

上海正在新建四大超級地鐵換乘樞紐,改變區(qū)域發(fā)展格局!

環(huán)線房產(chǎn)咨詢
2025-11-05 18:20:11
出大事了,俄本土凌晨被炸,普京一聲令下,俄核潛艇出動,美失聲

出大事了,俄本土凌晨被炸,普京一聲令下,俄核潛艇出動,美失聲

肖茲探秘說
2025-11-05 14:23:37
山姆APP已將商品頭圖改為實(shí)拍圖

山姆APP已將商品頭圖改為實(shí)拍圖

大象新聞
2025-11-04 18:48:02
鳳凰記者:波克羅夫斯克沒有被俄軍包圍

鳳凰記者:波克羅夫斯克沒有被俄軍包圍

史政先鋒
2025-11-05 21:08:27
突發(fā)訃告!單聲去世

突發(fā)訃告!單聲去世

魯中晨報(bào)
2025-11-05 09:55:02
49歲翁帆現(xiàn)狀曝光:依然居住在清華的別墅里,余生或不會再嫁!

49歲翁帆現(xiàn)狀曝光:依然居住在清華的別墅里,余生或不會再嫁!

娛樂團(tuán)長
2025-11-05 21:13:44
全新斯柯達(dá)速派2027登場,EA888 Evo5引擎配大屏演繹行政豪車新篇

全新斯柯達(dá)速派2027登場,EA888 Evo5引擎配大屏演繹行政豪車新篇

圖圖老司機(jī)
2025-11-04 14:32:32
白發(fā)越多,患癌越少?Nature子刊:壓力下的頭發(fā)變白,能預(yù)防癌癥,是身體啟動的“自我保衛(wèi)戰(zhàn)”

白發(fā)越多,患癌越少?Nature子刊:壓力下的頭發(fā)變白,能預(yù)防癌癥,是身體啟動的“自我保衛(wèi)戰(zhàn)”

梅斯醫(yī)學(xué)
2025-11-05 07:52:50
5600萬,再見快船!管理層犯了致命錯誤,哈登生涯首冠越走越遠(yuǎn)

5600萬,再見快船!管理層犯了致命錯誤,哈登生涯首冠越走越遠(yuǎn)

呆哥聊球
2025-11-05 16:47:59
大型核電國企黨委書記、董事長調(diào)整

大型核電國企黨委書記、董事長調(diào)整

中國能源網(wǎng)
2025-11-05 18:56:03
汪東興提反對意見,鄧公起身質(zhì)問:為什么你每次開會都唱反調(diào)?

汪東興提反對意見,鄧公起身質(zhì)問:為什么你每次開會都唱反調(diào)?

瀚霖學(xué)史
2025-10-24 09:04:10
快船19分慘敗雷霆!哈登下半場3分,這一戰(zhàn),徹底看清4個不爭事實(shí)

快船19分慘敗雷霆!哈登下半場3分,這一戰(zhàn),徹底看清4個不爭事實(shí)

金風(fēng)說
2025-11-05 15:22:32
楊小紅主任:升糖最快的主食,不是饅頭面條白米飯,而是這6種

楊小紅主任:升糖最快的主食,不是饅頭面條白米飯,而是這6種

蠟筆小小子
2025-10-18 13:58:53
孫儷現(xiàn)身江蘇無錫一高檔小區(qū)!皮膚有點(diǎn)黑,臉也變圓了,反差太大

孫儷現(xiàn)身江蘇無錫一高檔小區(qū)!皮膚有點(diǎn)黑,臉也變圓了,反差太大

樂悠悠娛樂
2025-11-04 11:02:49
才播6集,熱度破15000,終于有讓我熬夜狂追的犯懸疑劇了

才播6集,熱度破15000,終于有讓我熬夜狂追的犯懸疑劇了

易同學(xué)愛談娛樂
2025-11-05 08:28:09
人民日報(bào)專訪,揭開32歲周深的真實(shí)處境,那英確實(shí)一個字都沒說錯

人民日報(bào)專訪,揭開32歲周深的真實(shí)處境,那英確實(shí)一個字都沒說錯

八斗小先生
2025-11-01 08:46:54
阿里前高管掌舵山姆,APP界面遭狂噴:一股盒馬味!

阿里前高管掌舵山姆,APP界面遭狂噴:一股盒馬味!

雷科技
2025-11-03 22:13:43
你見過天賦最高的人是啥樣?網(wǎng)友:第一位絕對是神人,這技能可以

你見過天賦最高的人是啥樣?網(wǎng)友:第一位絕對是神人,這技能可以

帶你感受人間冷暖
2025-11-03 00:20:03
統(tǒng)一臺灣后,相較于洪秀柱馬英九,此人更適合擔(dān)任臺灣省省長?

統(tǒng)一臺灣后,相較于洪秀柱馬英九,此人更適合擔(dān)任臺灣省省長?

通文知史
2025-10-15 21:00:03
他是張金玲兒子,長相俊朗海外留學(xué)歸來拒當(dāng)演員,與繼父關(guān)系更親

他是張金玲兒子,長相俊朗海外留學(xué)歸來拒當(dāng)演員,與繼父關(guān)系更親

胡一舸南游y
2025-11-05 15:16:07
2025-11-05 22:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11656文章數(shù) 142498關(guān)注度
往期回顧 全部

科技要聞

大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

頭條要聞

考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

頭條要聞

考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

體育要聞

贏下皇馬,會是利物浦的轉(zhuǎn)折點(diǎn)嗎?

娛樂要聞

港星林尚武突發(fā)心臟病去世

財(cái)經(jīng)要聞

事關(guān)加快建設(shè)金融強(qiáng)國 中央金融辦發(fā)聲

汽車要聞

智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

態(tài)度原創(chuàng)

親子
藝術(shù)
旅游
教育
軍事航空

親子要聞

溫暖守護(hù)小患者 上海這家醫(yī)院的眼科有個“兒童樂園”

藝術(shù)要聞

蒲華:搦管寫竹,墨沈淋漓

旅游要聞

獨(dú)立懸崖之巔,俯瞰壯美金沙江,盡情領(lǐng)略其“如玉”的一面

教育要聞

爸爸的嫂子叫什么

軍事要聞

美國“福特”號航母駛往加勒比海

無障礙瀏覽 進(jìn)入關(guān)懷版 avav男人的天堂| 被老汉耸动呻吟双性美人| 九九九国产精品成人免费视频| 亚洲av二区三区在线| 少妇xxxx| 午夜精品久久久内射近拍高清 | 无码人妻精品一区二区99AⅤ| 精品综合一区二区三区四区| 国产刺激一区二区三区| 国产午夜影视大全免费观看| 欧美人与牲动交a欧美精品| 亚洲欧美国产国产一区| 波多野结衣高清视频播放| 无码av永久免费专区麻豆| 丰满人妻欧美一区| 日韩在线视频线观看一区| 两个女人互添下身视频在线观看| 在线精品播放v| 亚洲自偷精品视频自拍| 樱花草日韩在线观看| 成熟了的熟妇毛茸茸| 精国产人伦一区二区三区| 中文在线天堂8| 亚洲黄片无码| 又大又粗又爽少妇高潮ijzz| 女人高潮网站| 日日噜噜噜夜夜爽爽狠狠视频| 曰韩无码av一区二区免费| 欧美最猛性XXXXX潮喷小说| 久久精品aⅴ老熟女| 久久亚洲精品成人无码网站夜色| 亚洲天堂怡红院| 高清乱码一卡二卡插曲| 羞羞午夜爽爽爽爱爱爱爱人人人| 精品成人免费看| 亚洲欧美色图| 亚洲人成在线播放网站| XXXPorn国产天美传媒| 欧美日韩国产四| 欧美人成精品网站播放| 国产在线成人综合|