本論文主要作者來自小紅書 AIGC 團隊(Dynamic-X-Lab),Dynamic?X?LAB 是一個專注于 AIGC 領域的研究團隊,致力于推動姿態(tài)驅動的人像生成與視頻動畫技術。他們以高質量、高可控性的生成模型為核心,圍繞文生圖(t2i)、圖像生成(i2i)、圖像轉視頻(i2v)和風格遷移加速等方向展開研究,并通過完整的開源方案分享給開發(fā)者與研究者社區(qū)。
- 論文標題:DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors
- 論文鏈接:
- https://arxiv.org/abs/2501.08553
- 項目主頁:
- https://dynamic-face.github.io/
近年來,擴散模型在圖像與視頻合成領域展現(xiàn)出前所未有的生成能力,為人臉生成與編輯技術按下了加速鍵。特別是一張靜態(tài)人臉驅動任意表情、姿態(tài)乃至光照的夢想,正在走向大眾工具箱,并在三大場景展現(xiàn)巨大潛力:
- 影視行業(yè):導演只需一張定妝照,即可讓演員「數(shù)字替身」在綠幕里實時完成高難度的表情捕捉與重打光,后期不再為補拍鏡頭而燒預算,真正進入「先拍臉、后拍景」的降本增效時代。
- 游戲行業(yè):捏臉系統(tǒng)將不再局限于預設模板。玩家上傳一張自拍,即刻生成 360° 可旋轉、可眨眼、可微表情的個性化角色;配合實時語音驅動,NPC 的口型與情緒可隨劇情即時變化,沉浸式體驗再升一級。
- 自媒體與電商:短視頻創(chuàng)作者無需真人出鏡,一張品牌代言照即可批量產(chǎn)出不同光線、不同角度的口播視頻;虛擬主播更可 7x24 小時直播帶貨,表情自然、光影一致,告別「恐怖谷」效應。
人臉視頻生成的核心難題在于,如何在根據(jù)參考圖像和外部動作序列,嚴謹?shù)乇3衷磪⒖既四樕矸萏卣鞑槐粨p傷的同時,還要維持目標人臉動作的一致性?,F(xiàn)有方法在追求真實動態(tài)表現(xiàn)時,通常會遭遇以下三大挑戰(zhàn):
- 空間與時間建模的內在矛盾:許多聚焦于身份一致性的圖像生成模型在空間特征提取方面已足夠優(yōu)秀,然而由于在注入運動信息時耦合了目標身份特征,進而導致運動信息不準確,一旦需要建模時間變化的視頻擴散模型時,不準確的運動建模會被逐幀放大,最終陷入身份還原能力和運動一致難以兩全的問題。
- 身份一致性降低:在復雜或大幅度動作變化情況下,面部區(qū)域極易出現(xiàn)形變、失真,難以保證人物獨特的面貌特征能隨時保留。這種問題直接影響動畫人物的個體識別度和可信度,也是用戶接受數(shù)字人像動畫的首要阻礙。
- 整體視頻質量受損:當前最優(yōu)秀的人像動畫生成模型雖然在動畫效果層面取得進展,但往往還需借助外部換臉后處理工具以改善關鍵幀細節(jié)??上?,這類后處理雖能暫時修復細節(jié),卻往往損傷了整段視頻在視覺上的統(tǒng)一性和自然度,導致畫面出現(xiàn)割裂感和不連貫的現(xiàn)象。
小紅書提出 DynamicFace,讓視頻人臉交換邁入「電影級」工業(yè)流水線!
方法介紹
本研究提出了一種創(chuàng)新性的人臉置換方法DynamicFace,針對圖像及視頻領域的人臉融合任務實現(xiàn)了高質量與高度一致性的置換效果。
與傳統(tǒng)人臉置換方法相比,DynamicFace 獨創(chuàng)性地將擴散模型(Diffusion Model)與可組合的 3D 人臉先驗進行深度融合,針對人臉運動與身份信息進行了精細化解耦,以生成更一致的人臉圖像和視頻。
可組合三維面部先驗的顯式條件解耦
針對現(xiàn)有方法在身份與運動表征中普遍存在的耦合冗余問題,DynamicFace 提出將人臉條件顯式分解為身份、姿態(tài)、表情、光照及背景五個獨立的表征,并基于 3DMM 重建模型獲取對應參數(shù)。
具體而言,利用源圖像提取身份形狀參數(shù) α,目標視頻逐幀提取姿態(tài) β 與表情 θ,隨后渲染生成形狀–姿態(tài)法線圖,減少目標人臉身份泄露,最大程度保留源身份;表情信息從二維關鍵點中提取,建模更精準的表情信息,僅保留眉毛、眼球及口唇區(qū)域的運動先驗,避免引入目標身份特征;光照條件由 UV 紋理圖經(jīng)模糊處理得到,僅保留低頻光照分量;背景條件采用遮擋感知掩碼與隨機位移策略,實現(xiàn)訓練–推理階段的目標臉型對齊。
四條條件并行輸入 Mixture-of-Guiders,每組由 3×3 卷積與零初始化卷積末端構成輕量級條件注入模塊,在注入網(wǎng)絡前經(jīng)過 FusionNet 融合四個條件特征后注入到擴散模型中,可在保持 Stable Diffusion 預訓練先驗的同時實現(xiàn)精準控制。
身份–細節(jié)雙流注入機制
為實現(xiàn)高保真身份保持,DynamicFace 設計了雙流并行注入架構。高層身份流由 Face Former 完成:首先利用 ArcFace 提取 ID Embedding,再通過可學習 Query Token 與 U-Net 各層 Cross-Attention 交互,確保全局身份一致性;細節(jié)紋理流由 ReferenceNet 實現(xiàn),該網(wǎng)絡為 U-Net 的可訓練副本,將 512×512 源圖潛變量經(jīng) Spatial-Attention 注入主網(wǎng)絡,實現(xiàn)細粒度的紋理遷移。
即插即用時序一致性模塊
針對時序一致性問題,DynamicFace 會在訓練中插入時序注意力層來優(yōu)化幀間穩(wěn)定性,但時序層在處理長視頻生成時會出現(xiàn)幀間跳動的現(xiàn)象。為此,我們提出了 FusionTVO,將視頻序列劃分為若干段,并為每段設置融合權重,在相鄰段的重疊區(qū)域實行加權融合;并在潛變量空間引入總變差(Total Variation)約束,抑制幀與幀之間的不必要波動;對于人臉之外的背景區(qū)域,在每一步去噪迭代過程中采用目標圖像中的背景潛變量空間進行替換,維持了場景的高保真度。
生成結果展示
https://mp.weixin.qq.com/s/gt94VPIuKvN_ZU2KyT0UqA?click_id=1
https://mp.weixin.qq.com/s/gt94VPIuKvN_ZU2KyT0UqA?click_id=1
與 SOTA 方法的定性對比實驗
DynamicFace 可以很好地保持身份(例如,形狀和面部紋理信息)和動作(包括表情和姿勢等),并且生成結果維持了更好的背景一致性。
具體來說,基于 GAN 的方法往往會生成較為模糊、視覺上并不真實且身份一致性較差的結果,但可以維持不錯的運動一致性;其他基于擴散模型的方法能生成分辨率更高且更真實的結果,但運動一致性保持較差(如表情不一致,眼神朝向不同等)。
DynamicFace 通過精細化解耦的條件注入可以保證更優(yōu)的表情一致、眼神一致和姿勢一致性。
與 SOTA 方法的定量對比實驗
為全面評估 DynamicFace 的性能,研究團隊在 FaceForensics++(FF++)和 FFHQ 數(shù)據(jù)集上進行系統(tǒng)性的定量實驗,并與當前最具代表性的 6 種換臉方法進行對比,包括 Deepfakes、FaceShifter、MegaFS、SimSwap、DiffSwap 以及 Face Adapter。
實驗遵循先前論文的參數(shù)設置:從每個測試視頻中隨機抽取 10 幀作為評估樣本,并另取連續(xù) 60 幀用于視頻級指標計算。所有方法均使用官方開源權重或公開推理腳本,在輸入分辨率(512×512)下復現(xiàn)結果。定量結果如表中所示:DynamicFace 同時在身份一致性(ID Retrieval)和運動一致性(Mouth&Eye Consistency)達到了最優(yōu)的結果。
整體而言,實驗結果充分證明了 DynamicFace 在身份保真與運動還原方面的綜合優(yōu)勢,驗證了其在高質量人臉可控生成中的卓越性能。
更多應用樣例
我們也展示了一些其他的應用示例,DynamicFace 可以對身份保持和人體驅動等生成結果進行后處理,顯著提升生成結果的人臉 ID 一致性和表情控制,更多效果展示可以在項目主頁中進行查看。期望這種精細化解耦條件注入的方法能為可控生成的后續(xù)工作提供新思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.