本文的主要作者來(lái)自北京航空航天大學(xué)、清華大學(xué)、香港大學(xué)和 VAST。本文的第一作者為北京航空航天大學(xué)碩士生黃澤桓。本文的通訊作者為北京航空航天大學(xué)盛律教授與 VAST 公司首席科學(xué)家曹炎培博士。
在游戲、影視制作、虛擬人和交互式內(nèi)容創(chuàng)作等行業(yè)中,高質(zhì)量的 3D 動(dòng)畫是實(shí)現(xiàn)真實(shí)感與表現(xiàn)力的基礎(chǔ)。然而,傳統(tǒng)計(jì)算機(jī)圖形學(xué)中的動(dòng)畫制作通常依賴于骨骼綁定與關(guān)鍵幀編輯,這一流程雖然能夠帶來(lái)高質(zhì)量與精細(xì)控制,但需要經(jīng)驗(yàn)豐富的藝術(shù)家投入大量人力與時(shí)間,代價(jià)昂貴。
隨著生成模型的快速發(fā)展,自動(dòng)化的角色動(dòng)畫生成逐漸成為可能,為行業(yè)提供了新的解決思路。然而,現(xiàn)有方法存在顯著局限:
- 基于動(dòng)作捕捉的擴(kuò)散模型或自回歸模型只能在固定骨骼拓?fù)湎鹿ぷ?,主要面向類人?dòng)作,難以推廣至更廣泛的角色類別;
- 基于視頻生成模型的工作雖然能夠生成多樣化的動(dòng)態(tài)序列,卻往往依賴于高自由度的三維形變場(chǎng)優(yōu)化,計(jì)算開(kāi)銷大、結(jié)果不穩(wěn)定,往往需要耗時(shí)的優(yōu)化過(guò)程。
為解決這一難題,北京航空航天大學(xué)團(tuán)隊(duì)提出了AnimaX,一個(gè)高效的前饋式 3D 動(dòng)畫生成框架,并且支持任意類別的骨骼拓?fù)浣Y(jié)構(gòu)。
- 論文題目:AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
- 論文鏈接
- https://arxiv.org/abs/2506.19851
- 項(xiàng)目主頁(yè)
- https://anima-x.github.io/
AnimaX 的核心思想是將視頻擴(kuò)散模型的運(yùn)動(dòng)先驗(yàn)與骨骼動(dòng)畫的低自由度控制相結(jié)合。創(chuàng)新性地將 3D 動(dòng)作表示為多視角、多幀的二維姿態(tài)圖,并設(shè)計(jì)了一種視頻-姿態(tài)聯(lián)合擴(kuò)散模型,能夠同時(shí)生成 RGB 視頻與對(duì)應(yīng)的姿態(tài)序列。
通過(guò)共享位置編碼與模態(tài)特定嵌入,該模型實(shí)現(xiàn)了跨模態(tài)的時(shí)空對(duì)齊,有效地將視頻中的豐富運(yùn)動(dòng)知識(shí)遷移到 3D 動(dòng)畫生成中。最終,通過(guò)反投影與逆向運(yùn)動(dòng)學(xué)將生成的姿態(tài)轉(zhuǎn)化為 3D 動(dòng)畫。
總結(jié)而言,AnimaX 的主要貢獻(xiàn)包括:
- 提出了 AnimaX,首個(gè)支持任意類別的骨骼拓?fù)浣Y(jié)構(gòu),同時(shí)兼顧視頻先驗(yàn)的多樣性與骨骼動(dòng)畫的可控性的高效前饋式 3D 動(dòng)畫框架。
- 設(shè)計(jì)視頻-姿態(tài)聯(lián)合擴(kuò)散模型,通過(guò)共享位置編碼實(shí)現(xiàn)跨模態(tài)時(shí)空對(duì)齊,顯著提升運(yùn)動(dòng)表達(dá)能力。
- 構(gòu)建了一個(gè)涵蓋約16 萬(wàn)條綁定骨骼的 3D 動(dòng)畫數(shù)據(jù)集,包含人形、動(dòng)物及其他多種類別,為訓(xùn)練通用的動(dòng)畫模型提供了重要資源。
效果展示:不限物體類別的 3D 骨骼動(dòng)畫生成
AnimaX 能夠?yàn)槎喾N類別的 3D 網(wǎng)格生成自然連貫的動(dòng)畫視頻,不論是人形角色、動(dòng)物還是家具與機(jī)械結(jié)構(gòu),都能實(shí)現(xiàn)時(shí)空一致的動(dòng)作表現(xiàn)。不同于以往依賴高代價(jià)優(yōu)化的方法,AnimaX 可以在幾分鐘內(nèi)完成 3D 動(dòng)畫序列生成,并在保持動(dòng)作多樣性和真實(shí)性的同時(shí)展現(xiàn)出極強(qiáng)的泛化能力。
技術(shù)突破:基于視頻擴(kuò)散模型的任意骨骼動(dòng)畫生成
骨骼動(dòng)畫的局限與挑戰(zhàn)
傳統(tǒng) 3D 動(dòng)畫生成依賴骨骼綁定與關(guān)鍵幀設(shè)計(jì),雖然能帶來(lái)高質(zhì)量和可控性,但需要大量人工成本。近期基于動(dòng)作捕捉的擴(kuò)散模型和視頻生成模型提供了自動(dòng)化可能性,但前者受限于固定骨骼拓?fù)洌y以泛化至非人形角色;后者則依賴高自由度的形變場(chǎng)優(yōu)化,計(jì)算昂貴、結(jié)果不穩(wěn)定,甚至需要數(shù)十小時(shí)才能得到一條動(dòng)畫。
新思路:聯(lián)合視頻-姿態(tài)擴(kuò)散建模
AnimaX 打破了這一局限。團(tuán)隊(duì)提出將3D 動(dòng)作重新表示為多視角、多幀的二維姿態(tài)圖,并訓(xùn)練一個(gè)視頻-姿態(tài)聯(lián)合擴(kuò)散模型,同時(shí)生成 RGB 視頻與姿態(tài)序列。通過(guò)共享位置編碼與模態(tài)嵌入,團(tuán)隊(duì)首次在視頻和姿態(tài)之間實(shí)現(xiàn)了穩(wěn)健的時(shí)空對(duì)齊,使視頻擴(kuò)散模型中學(xué)到的運(yùn)動(dòng)先驗(yàn)?zāi)軌驘o(wú)縫遷移到姿態(tài)序列生成。
團(tuán)隊(duì)首先提出了一種姿態(tài)圖表示方式,將三維骨骼的關(guān)節(jié)位置投影到二維圖像平面,使模型能夠精確定位姿態(tài)結(jié)構(gòu),為后續(xù)的三維動(dòng)作重建打下基礎(chǔ)。
在此基礎(chǔ)上,研究者構(gòu)建了一個(gè)視頻-姿態(tài)聯(lián)合擴(kuò)散模型。該模型在原有視頻擴(kuò)散模型上引入了模態(tài)嵌入與共享位置編碼,前者用于區(qū)分 RGB 與姿態(tài)兩類信號(hào),后者則確保兩種模態(tài)在空間位置上的對(duì)齊,使模型能夠同時(shí)學(xué)習(xí) RGB 視頻與姿態(tài)序列的聯(lián)合分布。
通過(guò)這一機(jī)制,視頻和姿態(tài)序列的生成過(guò)程得以在同一框架下協(xié)同進(jìn)行。之后,為了進(jìn)一步發(fā)揮視頻擴(kuò)散模型的時(shí)空建模能力,團(tuán)隊(duì)設(shè)計(jì)了一種統(tǒng)一序列建模策略,即將輸入的模板圖像(包括 RGB 與姿態(tài)圖)與目標(biāo)生成序列拼接在一起,再通過(guò)三維自注意力進(jìn)行聯(lián)合推理。這種方式使預(yù)訓(xùn)練模型的時(shí)空先驗(yàn)?zāi)軌蜃匀贿w移,從而保證了輸出動(dòng)畫的穩(wěn)定性與連貫性。
最后,團(tuán)隊(duì)采用Plücker ray來(lái)編碼相機(jī)參數(shù),并在網(wǎng)絡(luò)中加入多視角注意力機(jī)制以解決多視角不一致的問(wèn)題,使得不同視角下的視頻與姿態(tài)能夠直接建立空間對(duì)應(yīng)關(guān)系。得益于這一設(shè)計(jì),生成的動(dòng)畫在不同相機(jī)角度下依然保持協(xié)調(diào)一致,避免了常見(jiàn)的視角漂移和形變不穩(wěn)的問(wèn)題。
3D 姿態(tài)重建與動(dòng)畫生成
在生成多視角姿態(tài)序列后,團(tuán)隊(duì)設(shè)計(jì)了一套高效的三維動(dòng)作重建與動(dòng)畫生成流程:先通過(guò)聚類提取二維關(guān)節(jié)位置,再利用多視角三角化與最小二乘優(yōu)化恢復(fù)三維關(guān)節(jié)坐標(biāo),最終通過(guò)逆向運(yùn)動(dòng)學(xué)將其映射為骨骼旋轉(zhuǎn)驅(qū)動(dòng)網(wǎng)格,從而生成自然流暢的三維動(dòng)畫。不同于以往依賴長(zhǎng)時(shí)間迭代優(yōu)化的方法,AnimaX 僅需數(shù)分鐘即可得到結(jié)構(gòu)合理、動(dòng)作連貫的結(jié)果,并能夠泛化到人形、動(dòng)物乃至家具、機(jī)械等多種類別。
卓越性能:泛化的動(dòng)畫合成
團(tuán)隊(duì)將 AnimaX 與眾多優(yōu)秀的開(kāi)源模型進(jìn)行定性定量的對(duì)比??梢钥吹?AnimaX 的結(jié)果基本都優(yōu)于現(xiàn)有方法,并在后續(xù)的人類偏好測(cè)試中取得了顯著優(yōu)勢(shì)。
動(dòng)畫生成
團(tuán)隊(duì)對(duì)比了AnimaX、MotionDreamer和Animate3D。
從結(jié)果中可以看出,AnimaX 通過(guò)聯(lián)合視頻-姿態(tài)建模,將視頻中的運(yùn)動(dòng)先驗(yàn)有效遷移到骨骼驅(qū)動(dòng)的動(dòng)畫合成中,能夠高質(zhì)量地生成各類物體 3D 運(yùn)動(dòng)動(dòng)畫,并同時(shí)保持物體的一致性。
相比之下,MotionDreamer依賴預(yù)訓(xùn)練視頻擴(kuò)散模型來(lái)監(jiān)督模型形變,但由于形變場(chǎng)的自由度過(guò)高,約束能力有限,往往導(dǎo)致幾何不一致和時(shí)序不穩(wěn)定;Animate3D則通過(guò)微調(diào)多視圖視頻擴(kuò)散模型提升跨視角一致性,雖然在一定程度上減少了偽影,但重建過(guò)程困難,常出現(xiàn)幾乎靜止的結(jié)果。
團(tuán)隊(duì)從 VBench 中選取了四個(gè)指標(biāo)進(jìn)行評(píng)測(cè),包括主體一致性(I2V Subject)、運(yùn)動(dòng)平滑度(Smooth)、動(dòng)態(tài)程度(Dynamic Deg.)和外觀質(zhì)量(Quality)。
結(jié)果顯示,AnimaX 在除運(yùn)動(dòng)豐富度外的所有指標(biāo)上均顯著優(yōu)于現(xiàn)有方法,尤其在外觀質(zhì)量上表現(xiàn)突出。而對(duì)于運(yùn)動(dòng)豐富度指標(biāo),團(tuán)隊(duì)通過(guò)進(jìn)一步實(shí)驗(yàn)發(fā)現(xiàn)由于其對(duì)部分樣本不夠魯棒,比如,在視頻中物體突然消失也會(huì)產(chǎn)生虛高分?jǐn)?shù),因此難以說(shuō)明視頻的實(shí)際運(yùn)動(dòng)表現(xiàn)。
團(tuán)隊(duì)還額外進(jìn)行了用戶評(píng)測(cè),以檢驗(yàn)人類在實(shí)際使用中對(duì)不同方法的偏好。團(tuán)隊(duì)共招募了 30 位參與者,使其對(duì)測(cè)試集中不同方法的生成結(jié)果從動(dòng)作與文本的匹配度、三維形體的一致性以及整體運(yùn)動(dòng)質(zhì)量三個(gè)方面分別選擇最佳結(jié)果。結(jié)果顯示,AnimaX 在所有指標(biāo)上均獲得了最高偏好率,進(jìn)一步說(shuō)明了 AnimaX 將視頻擴(kuò)散模型的運(yùn)動(dòng)先驗(yàn)遷移到骨骼驅(qū)動(dòng)的 3D 動(dòng)畫的做法具有更強(qiáng)優(yōu)勢(shì)。
消融實(shí)驗(yàn)
團(tuán)隊(duì)還進(jìn)一步進(jìn)行了消融實(shí)驗(yàn),對(duì)比了三種不同的設(shè)置:
- 在視頻擴(kuò)散模型基礎(chǔ)上僅生成動(dòng)作序列;
- 同時(shí)生成視頻與動(dòng)作序列,但兩種模態(tài)不共享位置編碼;
- 完整的 AnimaX 模型,即聯(lián)合視頻-姿態(tài)生成并共享位置編碼。
實(shí)驗(yàn)結(jié)果表明,方案 1 由于動(dòng)作序列稀疏且與視頻模態(tài)差異較大,難以充分利用視頻先驗(yàn),往往生成畸變或近乎靜止的結(jié)果;方案 2 雖然一定程度緩解了問(wèn)題,但視頻與動(dòng)作之間缺乏空間對(duì)齊,仍存在不穩(wěn)定現(xiàn)象。
相比之下,完整的 AnimaX 模型通過(guò)共享位置編碼實(shí)現(xiàn)了視頻與姿態(tài)的緊密對(duì)齊,更好地繼承了視頻擴(kuò)散模型的運(yùn)動(dòng)先驗(yàn),在一致性與動(dòng)作表現(xiàn)力上均顯著優(yōu)于其他對(duì)比方案,進(jìn)一步驗(yàn)證了方法設(shè)計(jì)的有效性。
未來(lái)展望
AnimaX 研究團(tuán)隊(duì)提出了一種新方法,將視頻擴(kuò)散模型中可遷移的運(yùn)動(dòng)先驗(yàn)與骨架動(dòng)畫的結(jié)構(gòu)化可控性相結(jié)合,實(shí)現(xiàn)對(duì)任意骨架結(jié)構(gòu)的三維網(wǎng)格進(jìn)行高效動(dòng)畫生成,為更靈活的多視角三維動(dòng)畫生成奠定了基礎(chǔ)。
同時(shí),AnimaX 的設(shè)計(jì)思路也為多個(gè)方向提供了新的可能性。一方面,聯(lián)合視頻-姿態(tài)建模不僅適用于骨骼動(dòng)畫,還可擴(kuò)展到場(chǎng)景級(jí)動(dòng)態(tài)建模,從而推動(dòng)更廣泛的 4D 內(nèi)容生成;另一方面,當(dāng)前方法基于單次前饋生成,未來(lái)可嘗試結(jié)合長(zhǎng)時(shí)序視頻生成,以提升長(zhǎng)程動(dòng)畫的連貫性與細(xì)節(jié)保真度,進(jìn)而支持更復(fù)雜、更豐富的 3D 動(dòng)畫生成。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.