近年來(lái),3D 原生生成模型在游戲、影視和設(shè)計(jì)領(lǐng)域的資產(chǎn)創(chuàng)建中展現(xiàn)出強(qiáng)大潛力。然而,大多數(shù)現(xiàn)有方法仍主要依賴圖像作為條件輸入,缺乏細(xì)粒度、多模態(tài)的控制能力,限制了其在實(shí)際生產(chǎn)流程中的應(yīng)用。
為解決這一瓶頸,騰訊混元團(tuán)隊(duì)推出了混元 3D-Omni,一個(gè)基于 Hunyuan3D 2.1 構(gòu)建的統(tǒng)一多模態(tài)可控 3D 生成框架。該框架不僅支持圖像作為輸入,還可接受點(diǎn)云、體素、邊界框與骨骼姿態(tài)等多種控制信號(hào),實(shí)現(xiàn)對(duì)生成物體幾何結(jié)構(gòu)、拓?fù)渑c姿態(tài)的精細(xì)控制。
- 技術(shù)報(bào)告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
- 研發(fā)團(tuán)隊(duì):Tencent Hunyuan3D Team, 2025.
- 混元 3D 主頁(yè):https://3d.hunyuan.tencent.com
- 代碼下載:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
- 權(quán)重下載:https://huggingface.co/tencent/Hunyuan3D-Omni
- 報(bào)告鏈接:https://arxiv.org/pdf/2509.21245
一、背景與挑戰(zhàn)
隨著 3D 數(shù)據(jù)規(guī)模不斷擴(kuò)大,基于原生 3D 表示(如點(diǎn)云、體素)的生成模型逐漸成為主流。這類方法通常結(jié)合 3D 變分自編碼器(VAE)與潛在擴(kuò)散模型(LDM),能夠高效生成高質(zhì)量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),實(shí)現(xiàn)了從單圖像到 3D 模型的快速生成。
然而,僅依賴圖像輸入存在諸多局限:
- 單視角圖像易受圖像遮擋、光照或視角干擾,生成結(jié)果缺乏幾何準(zhǔn)確性;
- 難以精細(xì)控制生成對(duì)象的比例、姿態(tài)和結(jié)構(gòu)細(xì)節(jié);
- 無(wú)法適應(yīng)多模態(tài)輸入(如深度圖、LiDAR 點(diǎn)云、骨架動(dòng)作等),限制了在實(shí)際場(chǎng)景中的使用。
二、Hunyuan3D Omni 的核心創(chuàng)新
圖 1:混元 3D-Omni 可支持多種模態(tài)作為控制條件,實(shí)現(xiàn)精細(xì)化 3D 資產(chǎn)生成
混元 3D-Omni 是一個(gè)支持多種控制條件的 3D 資產(chǎn)創(chuàng)建系統(tǒng)。它通過(guò)兩個(gè)關(guān)鍵性的創(chuàng)新來(lái)推動(dòng)尖端 3D 生成技術(shù)的發(fā)展: 其一,采用輕量化的統(tǒng)一控制編碼器,實(shí)現(xiàn)多種控制條件的統(tǒng)一支持;其二,引入漸進(jìn)式難度感知訓(xùn)練策略,提升模型對(duì)多模態(tài)融合的魯棒性。
作為業(yè)界首個(gè)統(tǒng)一多種條件控制的 3D 生成模型,混元 3D-Omni 可融合多達(dá)四類控制條件,顯著提升生成結(jié)果的可控性及質(zhì)量。同時(shí)該系統(tǒng)將完整開(kāi)放推理代碼以及權(quán)重,加速可控 3D 生成模型在學(xué)術(shù)領(lǐng)域研究以及工業(yè)落地部署。創(chuàng)新點(diǎn)總結(jié)如下:
1. 多模態(tài)控制信號(hào)統(tǒng)一處理
Hunyuan3D-Omni 引入了四種控制信號(hào):
- 骨骼姿態(tài)(Skeleton):用于角色動(dòng)作控制;
- 邊界框(Bounding Box):調(diào)整生成對(duì)象在標(biāo)準(zhǔn)空間中的長(zhǎng)寬高比例;
- 點(diǎn)云(Point Cloud):提供幾何結(jié)構(gòu)先驗(yàn),增強(qiáng)細(xì)節(jié)還原;
- 體素(Voxel):稀疏幾何提示,改善比例與結(jié)構(gòu)一致性。
2. 輕量化統(tǒng)一控制編碼器
所有控制信號(hào)被統(tǒng)一表示為點(diǎn)云形式,并通過(guò)一個(gè)共享的控制編碼器提取特征。該編碼器對(duì)不同模態(tài)條件進(jìn)行區(qū)分,避免控制目標(biāo)之間的混淆。最終的控制特征與圖像 DINO 特征拼接,作為 DiT 的聯(lián)合輸入。
3. 漸進(jìn)式難度感知訓(xùn)練策略
在訓(xùn)練過(guò)程中,模型隨機(jī)選擇一種控制條件,并偏向采樣難度較高的信號(hào)(如骨骼姿態(tài)),同時(shí)降低簡(jiǎn)單信號(hào)(如點(diǎn)云)的權(quán)重。這種策略提升了模型對(duì)多模態(tài)融合的魯棒性,也能優(yōu)雅處理輸入缺失的情況。
三、關(guān)鍵實(shí)現(xiàn)方法
圖 2:混元 3D-Omni 模型框架圖
混元 3D-Omni 的模型架構(gòu)建立在混元 3D 2.1的基礎(chǔ)之上,通過(guò)引入統(tǒng)一的多模態(tài)控制編碼機(jī)制,實(shí)現(xiàn)了對(duì)點(diǎn)云、體素、邊界框和骨骼等多種控制信號(hào)的高效融合與處理。其整體框架延續(xù)了基于 VecSet 表示的 3D VAE 與 3D 擴(kuò)散模型結(jié)合的主干結(jié)構(gòu),但在條件控制機(jī)制上進(jìn)行了重要?jiǎng)?chuàng)新。
模型首先使用 3D VAE 將輸入點(diǎn)云 (含坐標(biāo)和法向信息)編碼為潛在表示。解碼器則從潛在表示重建符號(hào)距離函數(shù)(SDF)場(chǎng),并通過(guò)等值面提取得到顯式網(wǎng)格輸出。在擴(kuò)散階段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。
混元 3D-Omni 的核心創(chuàng)新在于設(shè)計(jì)了統(tǒng)一控制編碼器(Unified Control Encoder),用于處理四種不同類型的控制信號(hào):
- 骨骼條件控制采用 3D 骨骼起點(diǎn)坐標(biāo)表示姿態(tài),通過(guò)隨機(jī)采樣不同動(dòng)作幀構(gòu)建訓(xùn)練對(duì),實(shí)現(xiàn)對(duì)生成模型姿態(tài)的靈活控制;
- 邊界框條件將長(zhǎng)寬比例轉(zhuǎn)化為標(biāo)準(zhǔn)空間中的八個(gè)頂點(diǎn)坐標(biāo),通過(guò)對(duì)渲染圖像或點(diǎn)云施加隨機(jī)擾動(dòng),提升模型對(duì)比例控制的泛化能力;
- 點(diǎn)云支持多種輸入來(lái)源(如深度相機(jī)、LiDAR 或重建模型),并引入隨機(jī)丟棄與噪聲擾動(dòng)以模擬真實(shí)場(chǎng)景;
- 體素則通過(guò)將點(diǎn)云量化到 [0,16]^3 網(wǎng)格中,再映射至 [-1,1]^3 空間,形成稀疏幾何提示。
所有控制信號(hào)均被統(tǒng)一表示為點(diǎn)云形式。編碼器首先對(duì)輸入點(diǎn)云進(jìn)行位置編碼,然后通過(guò)線性層提取特征,并疊加可學(xué)習(xí)的模態(tài)標(biāo)識(shí)嵌入以區(qū)分不同控制類型,最終控制特征與圖像特征拼接形成聯(lián)合條件,輸入至 DiT 模塊參與去噪過(guò)程。
為提升模型對(duì)多模態(tài)信號(hào)的魯棒性,訓(xùn)練過(guò)程中采用難度感知采樣策略:1)每批次隨機(jī)選擇一種控制模態(tài);2)對(duì)難度較高的信號(hào)(如骨骼姿態(tài))賦予更高采樣概率,對(duì)簡(jiǎn)單信號(hào)(如點(diǎn)云)進(jìn)行降權(quán)重處理;3)支持部分控制信號(hào)缺失的容錯(cuò)訓(xùn)練。
四、實(shí)驗(yàn)結(jié)果
圖 3:骨骼控制人物姿態(tài)
骨骼控制條件的核心目標(biāo)在于調(diào)整輸入圖像的姿態(tài)特征,該功能主要應(yīng)用于角色類物體的生成過(guò)程中。如圖 3 所示,在以骨骼條件作為額外輸入的前提下,我們的 Omni 模型能夠生成高質(zhì)量且與目標(biāo)姿態(tài)精確對(duì)應(yīng)的角色幾何形體,包括 A 姿態(tài)、單手抬起姿態(tài)以及雙手上舉姿態(tài)等多種姿態(tài)。我們采用了多種風(fēng)格的角色圖像作為條件輸入,其中包括從 3D 角色數(shù)據(jù)渲染得到的圖像,以及通過(guò)生成式模型合成的圖像。
值得注意的是,無(wú)論輸入風(fēng)格如何變化,我們的 Omni 模型均能持續(xù)生成具有精細(xì)幾何細(xì)節(jié)的人體網(wǎng)格,且生成結(jié)果與輸入骨架保持嚴(yán)格對(duì)齊,未出現(xiàn)任何畸變。
圖 4:邊界框控制不同比例
圖 5:邊界框控制解決單圖生成 “紙片” 問(wèn)題
邊界框控制信號(hào)能夠自由調(diào)節(jié)生成物體的長(zhǎng)寬比例。如圖 4 所示,在相同圖像條件下,不同尺寸的邊界框成功調(diào)控了生成模型的尺寸。需要特別指出的是,這種尺寸調(diào)控并非簡(jiǎn)單的線性拉伸:當(dāng)沙發(fā)長(zhǎng)度增加時(shí),模型會(huì)自動(dòng)生成額外的支撐腿結(jié)構(gòu);凱旋門模型在比例調(diào)整后同樣保持合理的建筑形態(tài)。這證明邊界框控制能觸發(fā)生成網(wǎng)絡(luò)的智能幾何重構(gòu)能力。
更為重要的是,如圖 5 的對(duì)比實(shí)驗(yàn)所示,當(dāng)僅用單視角圖像作為條件生成 “紙片物體” 這類失敗情況下,注入邊界框信號(hào)能夠提供線索,成功生成正確的 3D 資產(chǎn)。
圖 6:點(diǎn)云控制補(bǔ)充三維信息
針對(duì)點(diǎn)云控制,我們展示了兩種設(shè)置下的生成結(jié)果:僅使用圖像輸入,以及圖像結(jié)合點(diǎn)云控制輸入。對(duì)于后者,我們進(jìn)一步考慮了三種點(diǎn)云輸入類型:完整點(diǎn)云、深度圖像生成的表面點(diǎn)云以及掃描獲得的噪聲點(diǎn)云。
在前兩個(gè)案例中可以看到,提供完整點(diǎn)云作為控制信號(hào)能有效解決單視圖輸入固有的幾何歧義問(wèn)題,并成功還原被遮擋的內(nèi)部結(jié)構(gòu)。在第三和第四個(gè)案例中,通過(guò)深度圖獲取的表面點(diǎn)云同樣減輕了單視圖歧義,確保生成幾何在尺度上與真實(shí)物體精確對(duì)齊。在第五個(gè)案例中,即使輸入來(lái)自掃描的噪聲表面點(diǎn)云,生成幾何與原始物體的對(duì)齊效果仍明顯優(yōu)于僅使用圖像的基線方法,有效解決了圖像編碼器容易忽略真實(shí)物體姿態(tài)的問(wèn)題。
綜上所述,一旦提供點(diǎn)云輸入,我們的 Omni 模型能夠有效將生成幾何與真實(shí)幾何結(jié)構(gòu)對(duì)齊,即使是部分點(diǎn)云也能作為提升 3D 幾何生成質(zhì)量的重要線索,顯著緩解了單視圖歧義。
圖 7:體素控制物體結(jié)構(gòu)
與點(diǎn)云條件相似,體素條件通過(guò)提供稀疏幾何線索,有效解決單張圖像輸入固有的歧義性問(wèn)題。如圖 7 所示,在第一個(gè)和第五個(gè)案例中,額外的體素控制條件確保生成物體在尺度上與真實(shí)幾何結(jié)構(gòu)精確對(duì)齊。案例 2、3、4 進(jìn)一步展示了體素條件在恢復(fù)精細(xì)幾何細(xì)節(jié)方面的顯著效果:成功重建盾牌的平整表面、精準(zhǔn)捕捉鳥(niǎo)類翅膀的形態(tài)特征,以及高度還原杯子的低多邊形風(fēng)格幾何結(jié)構(gòu)。
這些實(shí)例充分證明,引入體素條件后,模型能夠同時(shí)準(zhǔn)確重建物體的比例關(guān)系和細(xì)節(jié)特征,從而全面提升生成質(zhì)量。
五、總結(jié)
混元 3D-Omni 作為一個(gè)輕量級(jí)、多模態(tài)、可控的 3D 生成框架,在不破壞基礎(chǔ)模型能力的前提下,通過(guò)統(tǒng)一控制編碼器整合多種幾何與控制信號(hào)。
實(shí)驗(yàn)表明,該框架能夠顯著提升生成準(zhǔn)確性、支持幾何感知的變換,并增強(qiáng)生產(chǎn)流程的穩(wěn)定性與魯棒性。這項(xiàng)研究不僅推動(dòng)了 3D 生成模型的可控性與實(shí)用性,也為未來(lái)融合多模態(tài)信號(hào)的通用 3D 生成奠定了基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.