夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

兼得快與好!訓(xùn)練新范式TiM,原生支持FSDP+Flash Attention

0
分享至

TiM團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI

生成式AI的快與好,終于能兼得了

從Stable Diffusion到DiT、FLUX系列,社區(qū)探索了很多技術(shù)方法用于加速生成速度和提高生成質(zhì)量,但是始終圍繞擴(kuò)散模型和Few-step模型兩條路線進(jìn)行開發(fā),不得不向一些固有的缺陷妥協(xié)。

這便是訓(xùn)練目標(biāo)引發(fā)的“生成質(zhì)量”與“生成速度”之間的矛盾根源

要么只監(jiān)督無窮小局部動力學(xué)(PF-ODE),要么只學(xué)習(xí)有限區(qū)間的端點(diǎn)映射,兩者都各有內(nèi)在限制。

一項(xiàng)新研究提出了名為Transition Model(TiM)的新范式,試圖從根本上解決這一矛盾。

它放棄了傳統(tǒng)擴(kuò)散模型學(xué)習(xí)“瞬時速度場”或Few-step模型學(xué)習(xí)“端點(diǎn)映射”的做法,轉(zhuǎn)而直接建模任意兩個時間點(diǎn)之間的完整狀態(tài)轉(zhuǎn)移。

這意味著TiM在理論上支持任意步長的采樣,并能將生成過程分解為多段粒度可靈活調(diào)整的細(xì)化軌跡

什么是Transition Model?

為什么說“PF-ODE”與“概率分布匹配”對于生成模型都不是理想的訓(xùn)練目標(biāo)?

來看擴(kuò)散模型,它以迭代去噪獲得高保真,在于它學(xué)習(xí)的是PF-ODE的局部向量場,訓(xùn)練時只對無窮小時間步的瞬時動力學(xué)做監(jiān)督,采樣時必須用很小步長或高階多步求解器來壓離散誤差,導(dǎo)致NFEs居高不下。

又比如少步生成(如 Consistency/Shortcut/Distillation/Meanflow)雖快,但因?yàn)闆]有刻畫中間動力學(xué),增步后收益很快飽和,常遭遇 “質(zhì)量天花板”,增加步數(shù)反而不再帶來收益,生成能力上限不及擴(kuò)散模型。

這些固有的缺陷來源于模型訓(xùn)練過程中監(jiān)督信號的引入方式,或是求解局部的PFE方程,或是匹配固定的概率分布;換句話說,生成過程中,模型做出預(yù)測被clean data所監(jiān)督的粒度,直接決定了模型在推理過程中的離散誤差和生成質(zhì)量上限。

所以,對于生成模型,什么才是一個合適的訓(xùn)練目標(biāo)呢?

從擴(kuò)散模型與Few-step模型的訓(xùn)練目標(biāo)的局限性出發(fā),可以得到以下分析——

局部(無窮?。?/em>監(jiān)督:PF-ODE/SDE類目標(biāo)。

這類目標(biāo)只在極小時間步上擬合瞬時動力學(xué)(Δt→0),要想維持連續(xù)時間解的精度,采樣時就必須用很小步長/很多步,于是NFEs很高;一旦把步數(shù)壓到很少,質(zhì)量就會明顯掉隊(duì)。

因此,對于能夠帶來高保真度的局部監(jiān)督信號而言,時間區(qū)間,或者說單步步長理想情況下應(yīng)該是要能靈活改

全局端點(diǎn)監(jiān)督:few-step/一致性/蒸餾一類目標(biāo)/mean-flow/short-cut。

這類訓(xùn)練目標(biāo)學(xué)習(xí)固定跨度的端點(diǎn)映射(或者平均速度場),核心是一步 “吃掉” 整段軌跡,因而少步很強(qiáng);但因?yàn)?“把整條軌跡平均化”,細(xì)節(jié)動力學(xué)被抹掉,再加步也難以繼續(xù)提升——出現(xiàn)質(zhì)量飽和。

因此,訓(xùn)練目標(biāo)應(yīng)該要求沿軌跡保持一致,要存在中間步驟充當(dāng)單個軌跡的細(xì)化,而不是偏離新的軌跡,這使得sampler對采樣規(guī)劃不敏感,并能夠通過更多步驟實(shí)現(xiàn)穩(wěn)定的質(zhì)量改進(jìn)。

因此,一個能兼得快速生成(few-step)與高保真度生成(擴(kuò)散模型)的訓(xùn)練目標(biāo)應(yīng)該是:

在“多段細(xì)化軌跡”里實(shí)現(xiàn)“靈活的單步尺寸”(任意步長),這便是Transition Model。



想要兼得推理速度與高保真度質(zhì)量,需要一個核心設(shè)計(jì),“在多段細(xì)化的軌跡”里面實(shí)現(xiàn)“靈活的單步尺寸”。

這一工作基于此設(shè)計(jì)了Transition Model:

將模型的訓(xùn)練從單一時刻t,拓展到建模任意兩個時刻t與r的狀態(tài)x_t, x_r.

設(shè)計(jì)1:實(shí)現(xiàn)“靈活的單步尺寸”

對于給定的兩個時刻t與r之間的狀態(tài)轉(zhuǎn)移,通過化簡其微分方程得到了“通用狀態(tài)轉(zhuǎn)移恒等式”(State Transition Identity);基于通用狀態(tài)轉(zhuǎn)移恒等式,得以描述任意的一個時間間隔內(nèi)的具體狀態(tài)轉(zhuǎn)移,而不是作為數(shù)值擬合求解。

設(shè)計(jì)2:實(shí)現(xiàn)“多段細(xì)化軌跡的生成路徑”

在設(shè)計(jì)1中,已經(jīng)實(shí)現(xiàn)了任意步長(任意時間間隔), 因此對于多段細(xì)化軌跡的生成路徑,這個方法就可以直接的描述任意時刻t下對于此前任意時刻r之間的狀態(tài)轉(zhuǎn)移,那么“多段細(xì)化的生成路徑”就變成了“任意狀態(tài)與前狀態(tài)之間的狀態(tài)轉(zhuǎn)移動態(tài)(state transition dynamics)”,這樣就能在保持快速生成的同時保證高保真度的生成質(zhì)量。

通過設(shè)計(jì)1和設(shè)計(jì)2,這篇文章提出的Transition Model將“在任意狀態(tài)下,任意時間間隔內(nèi),與前狀態(tài)之間的狀態(tài)轉(zhuǎn)移的動力學(xué)方程”作為訓(xùn)練目標(biāo),它就滿足了兼得推理速度與高保真度質(zhì)量的核心設(shè)計(jì)。

Transition Model的數(shù)學(xué)本質(zhì)

Diffusion model是建模瞬時速度場,局限性是瞬時速度需要時間區(qū)間趨近于0;

Meanflow核心是建模平均速度場,局限性是平均速度丟了局部優(yōu)化的dynamics細(xì)節(jié),生成質(zhì)量早早收斂,過了few-step后近乎為定值;

不同于前兩者,Transition Model做的是任意時間區(qū)間的任意狀態(tài)間的狀態(tài)轉(zhuǎn)移,可以認(rèn)為是任意速度場,自然而然地包含了瞬時速度和平均速度;

從解的形式上講 Diffusion是局部PF-ODE的數(shù)值解,meanflow是局部平均速度場中的解集,transition model求的是全局生成路徑上的解的流型,special case情況下可以退化為平均速度場,解的流型退化為局部解集。



作者們主要在圖文生成(Text-to-Image)任務(wù)上進(jìn)行了驗(yàn)證

在Geneval數(shù)據(jù)集上,分別比較了Transition Model在不同推理步數(shù)(NFE), 不同分辨率,不同橫縱比下的生成能力:



這篇文章發(fā)現(xiàn)865M參數(shù)大小的Transition Model(TiM)可以在明確地超過FLUX.1-Schnell(12B參數(shù))這一蒸餾模型;與此同時,在生成能力上限上也可以超過FLUX.1-Dev(12B參數(shù))

并且由于TiM結(jié)合了Native-Resolution預(yù)訓(xùn)練的訓(xùn)練策略(詳見Native-Resolution Image Synthesis),這篇文章所提出的模型在分辨率和橫縱比上也更加靈活。

Transition Model的訓(xùn)練穩(wěn)定性與擴(kuò)展性

讓Transition Model訓(xùn)練具有可擴(kuò)展性.



在Transition Model的訓(xùn)練過程中,它的訓(xùn)練目標(biāo)的關(guān)鍵在于計(jì)算網(wǎng)絡(luò)關(guān)于時間的導(dǎo)數(shù)$\frac{\mathrmqttc1fbq f_{\theta^{-}, t, r}}{\mathrmqttc1fbq t}$

以MeanFlow和Short-cut Model為代表的既有方法通常依賴雅可比—向量乘積(JVP)來完成這一計(jì)算。

然而,JVP在可擴(kuò)展性上構(gòu)成了根本性瓶頸:

不僅計(jì)算開銷高,更麻煩的是它依賴Backward自動微分,這與諸如FlashAttention和分布式框架Fully Sharded Data Parallel(FSDP)等關(guān)鍵訓(xùn)練優(yōu)化并不兼容,致使基于JVP的方法難以實(shí)際用于十億參數(shù)級的基礎(chǔ)模型訓(xùn)練。

為此,他們提出差分推導(dǎo)方程(DDE),用一種有原則且高效的有限差分近似來突破該限制:



如表中所示,這篇文章所提出的DDE計(jì)算方式不僅比JVP約快2倍,更關(guān)鍵的是其僅依賴前向傳播,與FSDP天然兼容,從而將原本不可擴(kuò)展的訓(xùn)練流程變?yōu)榭纱笠?guī)模并行計(jì)算的方案.

讓Transition Model訓(xùn)練更加穩(wěn)定.

除了可擴(kuò)展性,基于任意時間間隔訓(xùn)練的另一大挑戰(zhàn)是控制梯度方差

比如,當(dāng)轉(zhuǎn)移跨越很大的時間間隔($\Delta t \to t$)時,更容易出現(xiàn)損失突增。

為緩解這一問題,作者們引入一種損失加權(quán)策略,優(yōu)先考慮短間隔轉(zhuǎn)移——這類轉(zhuǎn)移更為常見,也能提供更穩(wěn)定的學(xué)習(xí)信號。



其中,$\tau(\cdot)$是對時間軸進(jìn)行重新參數(shù)化的單調(diào)函數(shù)。

在這篇文章最終模型中,他們采用正切空間變換(tangent space transformation來有效拉伸時間域,從而得到具體的加權(quán)形式:



其中,$\sigma_{\text{data}}$表示干凈數(shù)據(jù)(clean data)的標(biāo)準(zhǔn)差,這一方法有效地提升了訓(xùn)練的穩(wěn)定性。



研究團(tuán)隊(duì)提出了Transition Model(TiM)作為生成模型的新的范式:

不再只學(xué)習(xí)瞬時向量場或固定跨度的端點(diǎn)映射,而是直接建模任意兩時刻間的狀態(tài)轉(zhuǎn)移,用“通用狀態(tài)轉(zhuǎn)移恒等式”支撐任意步長與多段細(xì)化軌跡,從而兼顧少步速度與高保真質(zhì)量。

在理論上,從學(xué)習(xí)生成路徑上特定的解拓展到學(xué)習(xí)全局生成路徑的解的流形;在實(shí)踐上,通過DDE的前向有限差分替代JVP,原生兼容 FSDP/FlashAttention、訓(xùn)練更快更可擴(kuò)展;同時用時間重參化+核函數(shù)的損失加權(quán)優(yōu)先短間隔,降低梯度方差、提升穩(wěn)定性。

實(shí)驗(yàn)表明,TiM-865M在多分辨率與多橫縱比設(shè)置下,少步即可超越 FLUX.1-Schnell/Dev(12B)的速度-質(zhì)量權(quán)衡。

總體而言,TiM以全局路徑視角嘗試解決“速度與質(zhì)量難兩全”的根本矛盾,提供了更通用、可擴(kuò)展且穩(wěn)定的生成建模。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳小魯猝死的反思:退休了住哪兒好?

陳小魯猝死的反思:退休了住哪兒好?

霹靂炮
2025-11-05 21:13:41
民進(jìn)黨當(dāng)局稱大陸未來可能全球通緝“臺獨(dú)”頑固分子,國臺辦回應(yīng)

民進(jìn)黨當(dāng)局稱大陸未來可能全球通緝“臺獨(dú)”頑固分子,國臺辦回應(yīng)

極目新聞
2025-11-05 11:32:07
利潤暴降45%,“非洲手機(jī)之王”為何突然不“香”了?

利潤暴降45%,“非洲手機(jī)之王”為何突然不“香”了?

鳳凰網(wǎng)財(cái)經(jīng)
2025-11-05 09:42:39
商務(wù)部副部長李成鋼會見美國農(nóng)產(chǎn)品貿(mào)易代表團(tuán)

商務(wù)部副部長李成鋼會見美國農(nóng)產(chǎn)品貿(mào)易代表團(tuán)

界面新聞
2025-11-05 17:24:55
上千只貓被抽干血后放生水庫, 攜帶病毒死在水中,將追查放生者

上千只貓被抽干血后放生水庫, 攜帶病毒死在水中,將追查放生者

萬象硬核本尊
2025-11-04 19:55:24
英媒爆猛料!中國用ASML“落后”光刻機(jī)造出先進(jìn)芯片,美方攔不住

英媒爆猛料!中國用ASML“落后”光刻機(jī)造出先進(jìn)芯片,美方攔不住

金錯刀
2025-11-05 12:08:15
剛一發(fā)布,瞬間暴漲200%!有人立馬出手:好怕?lián)尣坏?>
    </a>
        <h3>
      <a href=河南交通廣播1041
2025-11-05 16:45:24
石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當(dāng)場控制

石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當(dāng)場控制

界面新聞
2025-11-05 13:44:22
確認(rèn)了!浙江新增一座機(jī)場

確認(rèn)了!浙江新增一座機(jī)場

魯中晨報(bào)
2025-11-05 20:51:04
雷霆126-107勝快船,8連勝!這一戰(zhàn)我徹底看清6個現(xiàn)實(shí):保羅老了

雷霆126-107勝快船,8連勝!這一戰(zhàn)我徹底看清6個現(xiàn)實(shí):保羅老了

毒舌NBA
2025-11-05 14:39:06
被謝賢養(yǎng)了12年,用青春換來2000萬的Coco,已經(jīng)走上了另一條道路

被謝賢養(yǎng)了12年,用青春換來2000萬的Coco,已經(jīng)走上了另一條道路

妙知
2025-11-05 15:19:50
離譜!東南亞電詐園區(qū)辦公室里,竟然出現(xiàn)了中文橫幅……

離譜!東南亞電詐園區(qū)辦公室里,竟然出現(xiàn)了中文橫幅……

麥杰遜
2025-11-05 12:52:35
年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認(rèn)只是瓶酒?

年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認(rèn)只是瓶酒?

金融八卦女
2025-11-05 13:57:48
攜手出局?中超3隊(duì)本輪亞冠全不勝+進(jìn)淘汰區(qū)!包攬東亞區(qū)榜末3位

攜手出局?中超3隊(duì)本輪亞冠全不勝+進(jìn)淘汰區(qū)!包攬東亞區(qū)榜末3位

我愛英超
2025-11-05 22:21:52
網(wǎng)傳上海建工集團(tuán)幾萬員工回家待崗,只發(fā)兩三千元還扣社保公積金

網(wǎng)傳上海建工集團(tuán)幾萬員工回家待崗,只發(fā)兩三千元還扣社保公積金

爆角追蹤
2025-11-05 19:18:19
紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

上觀新聞
2025-11-05 17:59:14
西貝迎來“閉店潮”,一切都結(jié)束了

西貝迎來“閉店潮”,一切都結(jié)束了

首席品牌觀察
2025-11-05 15:58:18
炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協(xié)議

炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協(xié)議

小光侃娛樂
2025-11-05 10:55:03
國足新主帥出爐!名記:邵佳一確認(rèn)當(dāng)選,執(zhí)教西海岸勝率36%

國足新主帥出爐!名記:邵佳一確認(rèn)當(dāng)選,執(zhí)教西海岸勝率36%

奧拜爾
2025-11-05 17:03:23
小米通話將于12月3日停止服務(wù)

小米通話將于12月3日停止服務(wù)

極目新聞
2025-11-05 21:05:11
2025-11-05 23:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11633文章數(shù) 176326關(guān)注度
往期回顧 全部

科技要聞

大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

頭條要聞

丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發(fā)聲

頭條要聞

丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發(fā)聲

體育要聞

贏下皇馬,會是利物浦的轉(zhuǎn)折點(diǎn)嗎?

娛樂要聞

港星林尚武突發(fā)心臟病去世

財(cái)經(jīng)要聞

事關(guān)加快建設(shè)金融強(qiáng)國 中央金融辦發(fā)聲

汽車要聞

智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

態(tài)度原創(chuàng)

藝術(shù)
旅游
手機(jī)
公開課
軍事航空

藝術(shù)要聞

蒲華:搦管寫竹,墨沈淋漓

旅游要聞

立冬將至 秋韻未央

手機(jī)要聞

蘋果Shazam更新26.0版:液態(tài)玻璃界面煥新登場

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國“福特”號航母駛往加勒比海

無障礙瀏覽 進(jìn)入關(guān)懷版 男人天堂理论片| 中文AV无码人妻一区二区三区| 午夜视频无码| 亚洲无码高清一区二区| 国产区免费精品视频| 欧美肥老太WBwBWBB| 一区二区三区国产| 国产精品_国产精品_k频道w| 好大好深视频| 又湿又紧又大又爽又a视频| 欧美一区二区三区蘑菇| 久久er99热精品一区二区观看| 成年男女免费视频网站不卡| 真实国产乱子伦在线视频 | 一本大道久久A久久综合| 久久婷婷五月综合中文字幕| 亚洲精品不卡| 最新AV免费地址| 国产精品第三页| 少妇下蹲露大唇无遮挡| 两个人免费观看视频| 人妻丰满熟妇ⅴ无码区a片| 西西大胆扒开裸图| 欧美熟妇人妻久久中文字幕| 国内揄拍国内精品人妻| 性生活一aAV一欧美一中式| 国产精品无码av一区二区三区| 欧美亚洲国产一区二区三区| 精品国产三级在线观看| 国产人成在线观看| 中文字幕乱码免费| 日韩精品中文字幕亚洲| 欧美性爱激情网| 国产裸体歌舞一区二区| 一本到在线视频| 91亚洲一线产区二线产区| 凸偷拍老熟妇| 国产一二三四不卡| 美女不带套日出白浆免费视频| 7777久久香蕉成人影院| 日本中文一区二区三区亚洲|