論文作者來(lái)自阿里巴巴通義實(shí)驗(yàn)室的 3D 團(tuán)隊(duì)。第一作者何益升,本科畢業(yè)于武漢大學(xué),博士畢業(yè)于香港科技大學(xué);通訊作者原瑋浩,本科畢業(yè)于浙江大學(xué),博士畢業(yè)于香港科技大學(xué);團(tuán)隊(duì) Leader 董子龍,本科博士均畢業(yè)于浙江大學(xué)。
三維數(shù)字頭像的建模、驅(qū)動(dòng)和渲染是計(jì)算機(jī)圖形學(xué)與計(jì)算機(jī)視覺(jué)的重要課題之一,在虛擬會(huì)議、影視制作、游戲開(kāi)發(fā)等領(lǐng)域有廣泛應(yīng)用。傳統(tǒng)方法依賴多視角數(shù)據(jù)或視頻序列訓(xùn)練,存在計(jì)算成本高、輸入條件難、泛化能力弱等問(wèn)題。
近年來(lái),基于神經(jīng)輻射場(chǎng)(NeRF)和 3D 高斯濺射(Gaussian Splatting)的技術(shù)雖提升了建模質(zhì)量,但仍面臨多視角/視頻輸入訓(xùn)練的依賴以及神經(jīng)后處理導(dǎo)致的渲染效率低的問(wèn)題。
LAM(Large Avatar Model)的提出,旨在通過(guò)單張圖像實(shí)現(xiàn)實(shí)時(shí)可驅(qū)動(dòng)的 3D 高斯頭像生成,突破傳統(tǒng)方法對(duì)視頻數(shù)據(jù)或復(fù)雜后處理的依賴,為輕量化、跨平臺(tái)的 3D 數(shù)字人應(yīng)用提供新思路。
- 論文標(biāo)題:LAM:Large Avatar Model for One-shot Animatable Gaussian Head
- 論文地址:https://arxiv.org/abs/2502.17796
- 項(xiàng)目主頁(yè): https://aigc3d.github.io/projects/LAM
- 代碼庫(kù):https://github.com/aigc3d/LAM
- 國(guó)外 Demo:https://huggingface.co/spaces/3DAIGC/LAM
- 國(guó)內(nèi) Demo:https://www.modelscope.cn/studios/Damo_XR_Lab/LAM_Large_Avatar_Model
核心亮點(diǎn):
單圖秒級(jí)生成超寫(xiě)實(shí) 3D 數(shù)字人
WebGL 跨平臺(tái)超實(shí)時(shí)驅(qū)動(dòng)渲染,手機(jī)跑滿 120FPS
低延遲實(shí)時(shí)交互對(duì)話數(shù)字人 SDK 已全開(kāi)源
方法
LAM 的核心目標(biāo)是:?jiǎn)螆D輸入、一次前向傳播生成可驅(qū)動(dòng)的 3D 高斯頭像,無(wú)需后處理網(wǎng)絡(luò),并兼容傳統(tǒng)圖形渲染管線實(shí)現(xiàn)跨平臺(tái)實(shí)時(shí)渲染。其技術(shù)框架?chē)@以下核心突破展開(kāi):
規(guī)范化空間的三維高斯球生成
- 人頭模型先驗(yàn)引導(dǎo):LAM 基于 FLAME 頭部模板的頂點(diǎn)來(lái)初始化高斯球位置,結(jié)合形狀混合形變(Blendshapes)與骨骼線性蒙皮(LBS)的驅(qū)動(dòng)機(jī)制,將三維頭像的生成置于規(guī)范化空間(Canonical Space),統(tǒng)一不同表情與姿態(tài)的幾何表達(dá),降低生成復(fù)雜度。
- 多模態(tài)特征交互 Transformer:LAM 利用預(yù)訓(xùn)練的 DinoV2 提取輸入圖像的多層級(jí)特征,通過(guò)堆疊式交叉注意力模塊(Cross-Attention)讓 3D 空間中的點(diǎn)特征與 2D 空間中的圖像特征進(jìn)行交互,預(yù)測(cè) 3D 高斯球的位置、顏色、透明度等屬性,并引入形變偏移(Offset)優(yōu)化人頭的幾何形狀(如頭發(fā)、飾品等)。
- 細(xì)分網(wǎng)格增強(qiáng)細(xì)節(jié):FLAME 原始頂點(diǎn)數(shù)只有 5023 個(gè),表達(dá)能力有限,LAM 通過(guò)網(wǎng)格細(xì)分算法(Mesh Subdivision)增加點(diǎn)密度(默認(rèn)兩次細(xì)分達(dá) 81424 點(diǎn)),從而提升頭發(fā)、胡須等細(xì)節(jié)的建模能力。使用不同的細(xì)分程度,也可以在模型生成質(zhì)量與渲染速度之間進(jìn)行平衡。
無(wú)需神經(jīng)后處理的驅(qū)動(dòng)與渲染
- 傳統(tǒng)動(dòng)畫(huà)驅(qū)動(dòng)機(jī)制直接遷移:生成的規(guī)范空間中的 3D 高斯人頭,可直接使用骨骼線性混合蒙皮(LBS)與形狀混合形變(Blendshapes)參數(shù),驅(qū)動(dòng)表情與姿態(tài)變化,無(wú)需額外神經(jīng)網(wǎng)絡(luò)參與動(dòng)畫(huà)或渲染計(jì)算,達(dá)到超實(shí)時(shí)的渲染效率。
- 海量視頻數(shù)據(jù)訓(xùn)練:傳統(tǒng) 3D 數(shù)字人的訓(xùn)練數(shù)據(jù)要求苛刻,有時(shí)甚至需要多視角視頻數(shù)據(jù),難以 scale up,而 LAM 的模型架構(gòu)使其可以在普通的單目視頻上進(jìn)行訓(xùn)練,從而可以很輕易地 scale up。在模型訓(xùn)練中,一段視頻中取任意一幀作為輸入圖片,生成 3D 高斯人頭,然后基于視頻檢測(cè)得到的頭部姿態(tài)和面部表情,渲染不同幀的圖片,與真值之間求損失來(lái)優(yōu)化生成網(wǎng)絡(luò)。
跨平臺(tái)超實(shí)時(shí)渲染架構(gòu)
- 輕量化 3D 高斯表達(dá):LAM 的驅(qū)動(dòng)和渲染沒(méi)有任何神經(jīng)網(wǎng)絡(luò)的參與,是直接使用傳統(tǒng)動(dòng)畫(huà)驅(qū)動(dòng) + 三維高斯濺射渲染,因此可以直接兼容傳統(tǒng)圖形管線。
- WebGL 渲染:LAM 基于 WebGL 實(shí)現(xiàn)了表情、動(dòng)作驅(qū)動(dòng)和三維高斯濺射的渲染,天然支持跨平臺(tái)的特性,可以在不同設(shè)備如電腦、手機(jī)、電視、大屏等設(shè)備上進(jìn)行直接驅(qū)動(dòng)和渲染,效率達(dá)到超實(shí)時(shí),如 8W 點(diǎn)模型可以在 Macbook 上輕松跑滿屏幕上限 120FPS,2W 點(diǎn)模型甚至能在移動(dòng)端跑到 120FPS。
實(shí)驗(yàn)
定量結(jié)果
論文在 VFHQ(高分辨率視頻人臉數(shù)據(jù)集)與 HDTF(高清對(duì)話視頻數(shù)據(jù)集)上驗(yàn)證 LAM 性能,對(duì)比對(duì)象包括 NeRF 方法及 3D 高斯濺射方法,指標(biāo)涵蓋重建質(zhì)量、身份一致性、動(dòng)畫(huà)精度與渲染效率。
從結(jié)果來(lái)看,LAM 以超寫(xiě)實(shí)的圖像質(zhì)量刷新記錄,以無(wú)神經(jīng)網(wǎng)絡(luò)的超輕量模型擊敗之前的重網(wǎng)絡(luò)模型。
更多應(yīng)用
LAM 不僅限于單圖生成,也可以結(jié)合圖像大模型進(jìn)行實(shí)現(xiàn)跨模態(tài)藝術(shù)創(chuàng)作:
- 文本驅(qū)動(dòng)生成
結(jié)合文生圖模型,用戶輸入提示詞(如「戴帽子的卡通男性」)生成任意風(fēng)格的人頭圖像,LAM 可以直接轉(zhuǎn)換為可驅(qū)動(dòng)三維高斯模型。如圖所示,生成的頭像可準(zhǔn)確保留提示中的服飾元素(帽子)與藝術(shù)風(fēng)格(卡通化):
- 3D 風(fēng)格遷移
通過(guò)圖像編輯模型對(duì)輸入圖像進(jìn)行年齡、妝容等編輯,LAM 可以同步更新高斯屬性。例如將真人頭像轉(zhuǎn)化為油畫(huà)風(fēng)格時(shí),模型保留幾何結(jié)構(gòu)僅調(diào)整顏色與紋理等:
交互對(duì)話數(shù)字人解決方案
以 LAM 為基礎(chǔ),通義實(shí)驗(yàn)室構(gòu)建了完整的智能交互對(duì)話數(shù)字人解決方案,融合通義千問(wèn)大語(yǔ)言模型、通義語(yǔ)音算法、通義數(shù)字人驅(qū)動(dòng)算法,構(gòu)建成熟、魯棒的完整工程方案,實(shí)現(xiàn)輕量化、低成本、低延遲、跨平臺(tái)的端側(cè)渲染,支持智能客服、情感陪伴、教育培訓(xùn)等產(chǎn)品。
目前,完整的解決方案均已開(kāi)源,包括整個(gè)鏈路中的各個(gè)模塊。即使用開(kāi)源的代碼庫(kù),就可以實(shí)現(xiàn)輸入一張圖片,生成超寫(xiě)實(shí) 3D 數(shù)字人,進(jìn)行實(shí)時(shí)的對(duì)話聊天。
https://mp.weixin.qq.com/s/41mpwUeWFARsXRWuDrCBZA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.