智東西
作者 李水青
編輯 云鵬
智東西8月12日?qǐng)?bào)道,今日,昆侖萬(wàn)維開(kāi)源自研世界模型Matrix系列中Matrix-Game交互世界模型的升級(jí)版本——Matrix-Game 2.0。
上周,谷歌DeepMind推出交互式世界模型Genie 3,實(shí)現(xiàn)了交互式實(shí)時(shí)長(zhǎng)序列生成,引起產(chǎn)業(yè)關(guān)注。然而Genie 3并沒(méi)有開(kāi)源。昆侖萬(wàn)維Matrix-Game 2.0是業(yè)內(nèi)首個(gè)在通用場(chǎng)景上,實(shí)現(xiàn)實(shí)時(shí)長(zhǎng)序列交互式生成的世界模型開(kāi)源方案。這意味著具身智能、游戲、影視及元宇宙多個(gè)領(lǐng)域的開(kāi)發(fā)者將獲得一個(gè)高開(kāi)放可用的數(shù)據(jù)合成、模型訓(xùn)練及場(chǎng)景搭建的生產(chǎn)力工具。
Matrix-Game 2.0有以下三大特點(diǎn):
1、實(shí)時(shí)蒸餾。采用 “少步擴(kuò)散” 技術(shù),實(shí)現(xiàn)25FPS(幀/秒)的流式視頻合成,能以超高速在復(fù)雜環(huán)境中生成分鐘級(jí)、高保真的視頻。
2、精準(zhǔn)動(dòng)作注入。一個(gè) “鼠標(biāo) / 鍵盤(pán)到幀” 模塊,可將用戶輸入作為直接交互嵌入其中,從而在生成的視頻中實(shí)現(xiàn)幀級(jí)控制和動(dòng)態(tài)響應(yīng)。
3、大規(guī)模交互式數(shù)據(jù)管道。一個(gè)適用于虛幻引擎(Unreal Engine)和《俠盜獵車(chē)手 5》(GTA5)的可擴(kuò)展生產(chǎn)系統(tǒng),能生成約1200小時(shí)的高質(zhì)量交互式視頻數(shù)據(jù),涵蓋多樣化場(chǎng)景,且具備幀級(jí)真實(shí)感。
▲基于Matrix-Game 2.0生成的交互式模型
這款模型的視頻生成效果如何?有什么樣的應(yīng)用價(jià)值?又有什么技術(shù)亮點(diǎn)?本文帶大家一探究竟。
項(xiàng)目主頁(yè):
https://matrix-game-v2.github.io/
HuggingFace地址:
https://huggingface.co/Skywork/Matrix-Game-2.0
GitHub地址:
https://github.com/SkyworkAI/Matrix-Game
一、低延遲、高幀率、長(zhǎng)時(shí)序,國(guó)產(chǎn)交互式世界模型開(kāi)源
相較于上一版本,Matrix-Game 2.0更加側(cè)重低延遲、高幀率的長(zhǎng)序列交互性能,能夠以25 FPS的速度,在多種復(fù)雜場(chǎng)景中穩(wěn)定生成連續(xù)視頻內(nèi)容,且生成時(shí)長(zhǎng)可擴(kuò)展至分鐘級(jí),大幅提升了連貫性與實(shí)用性。
在推理速度顯著提升的同時(shí),模型依然保持了對(duì)物理規(guī)律與場(chǎng)景語(yǔ)義的精準(zhǔn)理解,支持用戶通過(guò)簡(jiǎn)單指令,自由探索、操控并實(shí)時(shí)構(gòu)建結(jié)構(gòu)清晰、細(xì)節(jié)豐富、規(guī)則合理的虛擬環(huán)境。
在性能測(cè)試上,如下圖所示,Matrix-Game 2.0在 Minecraft場(chǎng)景的GameWorld Score基準(zhǔn)測(cè)試中取得了好成績(jī),在圖像質(zhì)量、美學(xué)品質(zhì)、鼠標(biāo)指針等多個(gè)方面的得分均超過(guò)了全球首個(gè)實(shí)時(shí)可玩可交互的世界模型Oasis。
例如在一些無(wú)約束、不可控的真實(shí)場(chǎng)景,Matrix-Game 2.0可根據(jù)用戶輸入的任意控制指令,如鍵盤(pán)的 W/A/S/D 方向鍵、鼠標(biāo)用于視角移動(dòng),生成對(duì)應(yīng)的交互世界視頻,支持角色的前后左右移動(dòng)以及視角變換等動(dòng)態(tài)行為。
▲Matrix-Game 2.0支持無(wú)約束、不可控的真實(shí)場(chǎng)景交互
在GTA游戲場(chǎng)景和Minecraft場(chǎng)景中,Matrix-Game 2.0也支持鍵盤(pán)與鼠標(biāo)操作,并且能夠生成真實(shí)感更強(qiáng)、符合物理邏輯的可交互視頻。
▲Matrix-Game 2.0支持GTA游戲場(chǎng)景交互
二、自回歸擴(kuò)散生成機(jī)制,實(shí)時(shí)生成長(zhǎng)視頻
交互式視頻生成領(lǐng)域的最新進(jìn)展展現(xiàn)了擴(kuò)散模型作為世界模型的潛力。然而,現(xiàn)有的交互式世界模型依賴于雙向注意力機(jī)制和冗長(zhǎng)的推理步驟,嚴(yán)重限制了實(shí)時(shí)性能。因此,它們難以模擬現(xiàn)實(shí)世界的動(dòng)態(tài)。
為了解決這個(gè)問(wèn)題,昆侖萬(wàn)維提出了Matrix-Game 2.0,一個(gè)交互式世界模型,它通過(guò)幾步自回歸擴(kuò)散算法實(shí)時(shí)生成長(zhǎng)視頻。其基礎(chǔ)模型源自WanX,通過(guò)移除文本分支并添加動(dòng)作模塊,該模型僅根據(jù)視覺(jué)內(nèi)容和對(duì)應(yīng)的動(dòng)作來(lái)預(yù)測(cè)下一幀。
Matrix-Game 2.0的框架由三個(gè)關(guān)鍵組件組成:
1、一個(gè)適用于虛幻引擎和GTA5環(huán)境的可擴(kuò)展數(shù)據(jù)生產(chǎn)流水線,可有效生成海量(約 1200小時(shí))交互式視頻數(shù)據(jù);
2、一個(gè)動(dòng)作注入模塊,支持幀級(jí)鼠標(biāo)和鍵盤(pán)輸入交互;
3、基于隨意架構(gòu)的幾步提煉,用于實(shí)時(shí)流式視頻生成。
Matrix-Game 2.0基于Self-Forcing訓(xùn)練策略,通過(guò)創(chuàng)新的自回歸擴(kuò)散生成機(jī)制克服了傳統(tǒng)雙向擴(kuò)散模型的延遲和誤差累積問(wèn)題:
1、因果擴(kuò)散模型訓(xùn)練:將雙向擴(kuò)散模型蒸餾為因果模型,使用基礎(chǔ)模型初始化生成器,并構(gòu)建小規(guī)模數(shù)據(jù)集,通過(guò)近似ODE軌跡進(jìn)行訓(xùn)練,穩(wěn)定自回歸擴(kuò)散過(guò)程。通過(guò)歷史幀條件生成當(dāng)前幀,減少因依賴未來(lái)幀而導(dǎo)致的時(shí)序延遲。
2、分布匹配蒸餾(DMD):通過(guò)最小化與基礎(chǔ)模型之間的分布差異,引導(dǎo)學(xué)生模型學(xué)習(xí)生成高質(zhì)量視頻幀,對(duì)齊訓(xùn)練與推理階段的分布,顯著緩解誤差積累問(wèn)題。
3、KV緩存機(jī)制:引入鍵值緩存機(jī)制(KV-Cache),顯著提升長(zhǎng)視頻生成的效率和一致性。該機(jī)制通過(guò)維護(hù)固定長(zhǎng)度的注意力上下文,實(shí)現(xiàn)無(wú)縫滾動(dòng)生成,支持無(wú)限時(shí)長(zhǎng)的視頻輸出,解決了訓(xùn)練與推理場(chǎng)景下上下文不一致的問(wèn)題?;诖藢?shí)現(xiàn)長(zhǎng)時(shí)視頻的高效生成而無(wú)需重復(fù)計(jì)算,單GPU上可實(shí)現(xiàn)25 FPS實(shí)時(shí)生成。
Matrix-Game 2.0能夠以25 FPS的超快速度跨不同場(chǎng)景生成高質(zhì)量的分鐘級(jí)視頻。昆侖萬(wàn)維開(kāi)源其模型權(quán)重和代碼庫(kù),以推進(jìn)交互式世界建模的研究。
結(jié)語(yǔ):世界模型加速具身智能、游戲影視發(fā)展
以谷歌Genie等為代表的世界模型,正推動(dòng)AI從內(nèi)容生成工具升級(jí)為“世界構(gòu)建者”,昆侖萬(wàn)維開(kāi)源的Matrix系列是中國(guó)在空間智能領(lǐng)域取得里程碑進(jìn)展。
隨著其最新迭代的Matrix-Game 2.0落地,具身智能體訓(xùn)練與數(shù)據(jù)生成、虛擬游戲世界高效搭建、影視及元宇宙內(nèi)容生產(chǎn)等領(lǐng)域有望加速發(fā)展,為中國(guó)AI產(chǎn)業(yè)開(kāi)辟新范式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.