本工作由加州大學洛杉磯分校與字節(jié) Seed 等團隊聯(lián)合完成。
在擴散模型持續(xù)引領(lǐng)視覺生成浪潮的今天,圖像生成早已臻于極致,但視頻生成仍被一個關(guān)鍵瓶頸困住——時長限制。目前多數(shù)模型還停留在數(shù)秒短視頻的生成,Self-Forcing++讓視頻生成首次跨入4 分鐘高質(zhì)量長視頻時代,且無需任何長視頻數(shù)據(jù)再訓練。先展示一段 100 秒的生成視頻:
- 論文標題:Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
- 論文地址:https://arxiv.org/abs/2510.02283
- 項目主頁:
- https://self-forcing-plus-plus.github.io
- 代碼:https://github.com/justincui03/Self-Forcing-Plus-Plus
研究背景:
為什么長視頻生成如此困難?
在擴散模型驅(qū)動的視覺生成領(lǐng)域,從 Sora、Wan、Hunyuan-Video 到 Veo,視頻模型正不斷逼近真實世界。然而幾乎所有主流模型都有一個共同限制:只能生成數(shù)秒的短片段。
這背后的原因在于架構(gòu)層面的「先天缺陷」:
- Transformer 的非因果性—— 傳統(tǒng)擴散 Transformer (DiT) 需要同時看到所有幀,無法自然地逐幀擴展;
- 訓練-推理不匹配—— 模型在訓練時只見過 5 秒短片,卻在推理時要生成幾十秒甚至幾分鐘;
- 誤差累積—— 教師模型在每一幀提供強監(jiān)督,但學生模型在長序列中沒有應(yīng)對逐步誤差的能力;
- 過曝與凍結(jié)—— 長時間生成后常出現(xiàn)畫面靜止、亮度漂移、運動中斷等「災(zāi)難性崩塌」。
這些問題共同導(dǎo)致:即使最先進的自回歸視頻擴散模型,也難以在 10 秒以上保持畫面一致與運動連貫。
核心思想:
教師模型即世界模型
Self-Forcing++ 的關(guān)鍵洞察是:
- 教師模型雖然只會生成 5 秒視頻,但它依然掌握糾錯長視頻失真的能力。
研究者利用這一點,讓學生模型先自己生成長視頻(即使這些視頻已經(jīng)開始「崩壞」),再用教師模型來糾正它的錯誤。
經(jīng)過這種「生成→失真→再糾錯→再學習」循環(huán),模型逐步學會了在長時間尺度下自我修復(fù)和穩(wěn)態(tài)生成。這一機制讓 Self-Forcing++ 無需任何長視頻標注,就能把生成時長從 5 秒擴展到 100 秒,甚至 4 分鐘 15 秒(達到位置編碼極限的 99.9%)。
技術(shù)解析:
關(guān)鍵的三步讓模型穩(wěn)定生成超長視頻
1??反向噪聲初始化(Backward Noise Initialization)
在傳統(tǒng)短視頻蒸餾中,模型每次都從隨機噪聲生成。
Self-Forcing++ 改為在長視頻 roll-out 后,把噪聲重新注入到已生成的序列中,使后續(xù)幀與前文保持時間連續(xù)性。
這一步相當于讓模型「重啟但不失憶」,避免時間割裂。
2??擴展分布匹配蒸餾(Extended DMD)
作者將原本只在 5 秒窗口內(nèi)進行的教師-學生分布對齊,擴展為滑動窗口蒸餾:
學生先生成 100 秒長視頻 → 隨機抽取其中任意 5 秒片段 → 用教師分布校正該片段。
這樣,教師不必生成長視頻,也能「局部監(jiān)督」學生的長序列表現(xiàn),從而實現(xiàn)長期一致性學習。
3??滾動 KV 緩存(Rolling KV Cache)
以往自回歸模型(如 CausVid)在推理時使用滾動緩存,但訓練時卻仍用固定窗口,造成嚴重偏差。
Self-Forcing++在訓練階段也同步采用滾動緩存,實現(xiàn)真正的訓練-推理對齊,徹底消除了「曝光漂移」和「幀重復(fù)」的問題。
進一步優(yōu)化:
強化學習加持的時間平滑
在部分極長視頻中,模型仍可能出現(xiàn)突然跳幀或場景突變。
研究者借鑒強化學習中的Group Relative Policy Optimization (GRPO)框架,引入光流平滑獎勵(Optical-Flow Reward),讓模型通過懲罰光流突變來學習更自然的運動過渡。結(jié)果顯示:光流方差顯著下降,視頻流暢度顯著提升。整體的算法可以歸納為下面的流程。
實驗結(jié)果:
在 50、75 和 100 秒的視頻生成評測上全面超越基線
測試設(shè)置
- 模型規(guī)模:1.3B 參數(shù)(與 Wan2.1-T2V 相同)
- 對比方法:CausVid、SkyReels-V2、MAGI-1、Self-Forcing 等
- 評估指標:VBench + 新提出的 Visual Stability(視覺穩(wěn)定性)
主要成果
以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的測試結(jié)果。
如下圖所示,在 0-100 秒的生成結(jié)果上,Self-Forcing++ 都能保持很好的穩(wěn)定性,基線模型大多數(shù)都會經(jīng)歷嚴重的質(zhì)量下降,比如過曝光和錯誤累積。
可視化展示:
更多的超長視頻展示
在這些長視頻中,Self-Forcing++ 始終保持穩(wěn)定亮度與自然運動,視覺效果幾乎無明顯劣化。
Scaling 現(xiàn)象:
訓練算力 ×25 → 255 秒視頻
作者進一步探究「算力與時長」關(guān)系,在可視化生成過程中有以下發(fā)現(xiàn):
這說明可能無需長視頻數(shù)據(jù),只要擴展訓練預(yù)算,即可延展生成時長。
局限與展望
雖然自回歸視頻生成已經(jīng)能達到分鐘級別,但是目前依舊有以下問題有待提高:
- 長時記憶缺失:極長場景下,仍可能丟失被遮擋物體的狀態(tài);
- 訓練效率較慢:自回歸訓練成本高,比 teacher-forcing 訓練速度慢。
更多演示視頻和我們的方法請參考我們的主頁。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.