網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

刷新3D生成上限！一鍵生成精細(xì)到毛發(fā)的3D資產(chǎn)

2025-08-02 13:57:30　來(lái)源: 量子位

北京舉報(bào)

分享至

Ultra3D團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

在高質(zhì)量3D生成需求日益增長(zhǎng)的背景下，如何高效生成結(jié)構(gòu)精良、幾何精細(xì)的三維資產(chǎn)，已成為AIGC和數(shù)字內(nèi)容創(chuàng)作領(lǐng)域的關(guān)鍵挑戰(zhàn)。

盡管近年來(lái)的3D生成方法發(fā)展迅速，精度越來(lái)越高，但現(xiàn)有框架在兼顧效率和質(zhì)量上依然面臨瓶頸，尤其是在高分辨率建模中，計(jì)算的高復(fù)雜度嚴(yán)重制約了生成速度和應(yīng)用落地。

為解決上述困境，南洋理工大學(xué)聯(lián)合數(shù)美萬(wàn)物、西湖大學(xué)提出了Ultra3D：一種全新的3D生成框架。

Ultra3D提出了一種 coarse-to-fine 的兩階段生成流程，高效實(shí)現(xiàn)高分辨率三維資產(chǎn)建模，刷新了3D生成質(zhì)量的上限。在第一階段，Ultra3D 利用高效的 VecSet 表示快速生成 coarse mesh，并導(dǎo)出稀疏體素；在第二階段，引入新提出局部化的 Part Attention，對(duì)每個(gè)體素進(jìn)行細(xì)粒度特征建模。

該機(jī)制僅在語(yǔ)義一致的局部區(qū)域內(nèi)進(jìn)行注意力計(jì)算，大幅降低全局注意力的冗余計(jì)算，有效提升生成效率。該方法支持1024分辨率輸出，實(shí)現(xiàn)在保持高保真度的同時(shí)，實(shí)現(xiàn)高達(dá)6.7×的加速比，為三維資產(chǎn)的快速生成和下游應(yīng)用提供了切實(shí)可行的解決方案。

研究背景

3D生成領(lǐng)域近年來(lái)進(jìn)展迅猛，稀疏體素憑借其對(duì)表面細(xì)節(jié)強(qiáng)大的建模能力成為了近來(lái)的各個(gè)SoTA方法普遍采用的3D表征。

這一表征將3D物體編碼成稀疏體素以及與各個(gè)體素對(duì)應(yīng)的latent token。其雖然表達(dá)能力非常強(qiáng)，但由于其token數(shù)目巨大，在高分辨率下往往過(guò)萬(wàn)，所以導(dǎo)致其計(jì)算效率很低。

鑒于此，之前的工作往往局限于一個(gè)較低的分辨率，從而難以沖擊更高的質(zhì)量。為解決這一問(wèn)題，Ultra3D旨在提出一個(gè)全新的兼顧效率和質(zhì)量的二階段生成pipeline，在不降低質(zhì)量的情況下大幅加速了訓(xùn)練和推理，從而將其擴(kuò)展到了更高的分辨率和更高的質(zhì)量。

方法概述

Ultra3D 由一個(gè)二階段的Pipeline構(gòu)成：第一階段通過(guò)緊湊高效的 VecSet 表征快速生成 coarse mesh，并據(jù)此體素化得到稀疏體素的結(jié)構(gòu)布局；第二階段則基于該布局引入結(jié)構(gòu)感知的 Part Attention，對(duì)每個(gè)體素進(jìn)行 latent feature 精細(xì)建模。

Part Attention 通過(guò)幾何對(duì)齊的語(yǔ)義分組，僅在局部區(qū)域內(nèi)計(jì)算注意力，大幅減少計(jì)算冗余，同時(shí)保持幾何連續(xù)性和細(xì)節(jié)質(zhì)量。實(shí)驗(yàn)顯示，Ultra3D 可在不犧牲生成質(zhì)量的前提下，實(shí)現(xiàn)3.3× 的整體加速，并在多個(gè)指標(biāo)上超越現(xiàn)有 SoTA 方法，兼具速度與保真。

Ultra3D的核心在于其新提出的part attention機(jī)制，sparse voxel這一表征雖然表達(dá)力很強(qiáng)，但苦于其token數(shù)太大，導(dǎo)致attention的計(jì)算開(kāi)銷(xiāo)巨大。

為解決這一問(wèn)題，Ultra3D提出了一種專為3D設(shè)計(jì)的part attention，其將attention計(jì)算限制在同一個(gè)part group內(nèi)，避免了冗余的全局attention，從而在不降低質(zhì)量的情況下大幅度地降低了計(jì)算壓力。

一個(gè)簡(jiǎn)單的替代方案是使用在大語(yǔ)言模型領(lǐng)域常用到的window attention，但如下圖所示，實(shí)驗(yàn)表明這種attention直接運(yùn)用到3D中會(huì)導(dǎo)致質(zhì)量的下降。這是因?yàn)槠涔潭ǖ姆指钅Ｊ脚c3D物體的語(yǔ)義并不吻合。

與其他方法的對(duì)比實(shí)驗(yàn)和user study表明，Ultra3D在生成質(zhì)量上遠(yuǎn)超了之前的SoTA方法，能生產(chǎn)具有高精度細(xì)節(jié)的高分辨mesh。attention的ablation實(shí)驗(yàn)也表明part attention是更加適用與3D生成的local attention機(jī)制。

結(jié)語(yǔ)

Ultra3D提出了一個(gè)兼顧效率與保真度的創(chuàng)新性3D生成框架，成功突破了當(dāng)前主流方法在分辨率和計(jì)算成本之間的權(quán)衡瓶頸。

通過(guò)coarse-to-fine的雙階段設(shè)計(jì)，以及結(jié)構(gòu)感知的Part Attention機(jī)制，Ultra3D顯著提高了稀疏體素建模的效率，在保持高質(zhì)量輸出的同時(shí)實(shí)現(xiàn)了多倍加速，支持高達(dá)1024分辨率的三維資產(chǎn)生成。

這一方法不僅在多個(gè)定量指標(biāo)上大幅超越現(xiàn)有SoTA方法，在用戶主觀評(píng)價(jià)中也表現(xiàn)優(yōu)異，能夠真實(shí)還原復(fù)雜幾何結(jié)構(gòu)和微小紋理細(xì)節(jié)，如毛發(fā)、衣褶等，展現(xiàn)出卓越的細(xì)節(jié)還原能力。

更重要的是，Ultra3D具備良好的擴(kuò)展性和通用性，為數(shù)字內(nèi)容創(chuàng)作、游戲建模、AR/VR、影視制作等多種下游應(yīng)用提供了更快速、更高質(zhì)的3D建模方案。

隨著生成式AI向多模態(tài)和高保真內(nèi)容生成不斷邁進(jìn)，Ultra3D所展現(xiàn)出的性能和潛力，標(biāo)志著高分辨率3D生成進(jìn)入了一個(gè)新階段。

未來(lái)，Ultra3D有望進(jìn)一步拓展到動(dòng)畫(huà)、可編輯3D內(nèi)容生成以及3D-4D一體化建模等更多復(fù)雜任務(wù)，成為推動(dòng)AIGC向更高維空間發(fā)展的關(guān)鍵技術(shù)基石。

論文鏈接：https://arxiv.org/abs/2507.17745
項(xiàng)目地址：https://buaacyw.github.io/ultra3d/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.