夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

3D版ControlNet突破多模態(tài)控制,實(shí)現(xiàn)高精度3D資產(chǎn)生成

0
分享至



近年來(lái),3D 原生生成模型在游戲、影視和設(shè)計(jì)領(lǐng)域的資產(chǎn)創(chuàng)建中展現(xiàn)出強(qiáng)大潛力。然而,大多數(shù)現(xiàn)有方法仍主要依賴圖像作為條件輸入,缺乏細(xì)粒度、多模態(tài)的控制能力,限制了其在實(shí)際生產(chǎn)流程中的應(yīng)用。

為解決這一瓶頸,騰訊混元團(tuán)隊(duì)推出了混元 3D-Omni,一個(gè)基于 Hunyuan3D 2.1 構(gòu)建的統(tǒng)一多模態(tài)可控 3D 生成框架。該框架不僅支持圖像作為輸入,還可接受點(diǎn)云、體素、邊界框與骨骼姿態(tài)等多種控制信號(hào),實(shí)現(xiàn)對(duì)生成物體幾何結(jié)構(gòu)、拓?fù)渑c姿態(tài)的精細(xì)控制。



  • 技術(shù)報(bào)告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • 研發(fā)團(tuán)隊(duì):Tencent Hunyuan3D Team, 2025.
  • 混元 3D 主頁(yè):https://3d.hunyuan.tencent.com
  • 代碼下載:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
  • 權(quán)重下載:https://huggingface.co/tencent/Hunyuan3D-Omni
  • 報(bào)告鏈接:https://arxiv.org/pdf/2509.21245

一、背景與挑戰(zhàn)

隨著 3D 數(shù)據(jù)規(guī)模不斷擴(kuò)大,基于原生 3D 表示(如點(diǎn)云、體素)的生成模型逐漸成為主流。這類方法通常結(jié)合 3D 變分自編碼器(VAE)與潛在擴(kuò)散模型(LDM),能夠高效生成高質(zhì)量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),實(shí)現(xiàn)了從單圖像到 3D 模型的快速生成。

然而,僅依賴圖像輸入存在諸多局限:

  • 單視角圖像易受圖像遮擋、光照或視角干擾,生成結(jié)果缺乏幾何準(zhǔn)確性;
  • 難以精細(xì)控制生成對(duì)象的比例、姿態(tài)和結(jié)構(gòu)細(xì)節(jié);
  • 無(wú)法適應(yīng)多模態(tài)輸入(如深度圖、LiDAR 點(diǎn)云、骨架動(dòng)作等),限制了在實(shí)際場(chǎng)景中的使用。

二、Hunyuan3D Omni 的核心創(chuàng)新



圖 1:混元 3D-Omni 可支持多種模態(tài)作為控制條件,實(shí)現(xiàn)精細(xì)化 3D 資產(chǎn)生成

混元 3D-Omni 是一個(gè)支持多種控制條件的 3D 資產(chǎn)創(chuàng)建系統(tǒng)。它通過(guò)兩個(gè)關(guān)鍵性的創(chuàng)新來(lái)推動(dòng)尖端 3D 生成技術(shù)的發(fā)展: 其一,采用輕量化的統(tǒng)一控制編碼器,實(shí)現(xiàn)多種控制條件的統(tǒng)一支持;其二,引入漸進(jìn)式難度感知訓(xùn)練策略,提升模型對(duì)多模態(tài)融合的魯棒性。

作為業(yè)界首個(gè)統(tǒng)一多種條件控制的 3D 生成模型,混元 3D-Omni 可融合多達(dá)四類控制條件,顯著提升生成結(jié)果的可控性及質(zhì)量。同時(shí)該系統(tǒng)將完整開(kāi)放推理代碼以及權(quán)重,加速可控 3D 生成模型在學(xué)術(shù)領(lǐng)域研究以及工業(yè)落地部署。創(chuàng)新點(diǎn)總結(jié)如下:

1. 多模態(tài)控制信號(hào)統(tǒng)一處理

Hunyuan3D-Omni 引入了四種控制信號(hào):

  • 骨骼姿態(tài)(Skeleton):用于角色動(dòng)作控制;
  • 邊界框(Bounding Box):調(diào)整生成對(duì)象在標(biāo)準(zhǔn)空間中的長(zhǎng)寬高比例;
  • 點(diǎn)云(Point Cloud):提供幾何結(jié)構(gòu)先驗(yàn),增強(qiáng)細(xì)節(jié)還原;
  • 體素(Voxel):稀疏幾何提示,改善比例與結(jié)構(gòu)一致性。

2. 輕量化統(tǒng)一控制編碼器

所有控制信號(hào)被統(tǒng)一表示為點(diǎn)云形式,并通過(guò)一個(gè)共享的控制編碼器提取特征。該編碼器對(duì)不同模態(tài)條件進(jìn)行區(qū)分,避免控制目標(biāo)之間的混淆。最終的控制特征與圖像 DINO 特征拼接,作為 DiT 的聯(lián)合輸入。

3. 漸進(jìn)式難度感知訓(xùn)練策略

在訓(xùn)練過(guò)程中,模型隨機(jī)選擇一種控制條件,并偏向采樣難度較高的信號(hào)(如骨骼姿態(tài)),同時(shí)降低簡(jiǎn)單信號(hào)(如點(diǎn)云)的權(quán)重。這種策略提升了模型對(duì)多模態(tài)融合的魯棒性,也能優(yōu)雅處理輸入缺失的情況。

三、關(guān)鍵實(shí)現(xiàn)方法



圖 2:混元 3D-Omni 模型框架圖

混元 3D-Omni 的模型架構(gòu)建立在混元 3D 2.1的基礎(chǔ)之上,通過(guò)引入統(tǒng)一的多模態(tài)控制編碼機(jī)制,實(shí)現(xiàn)了對(duì)點(diǎn)云、體素、邊界框和骨骼等多種控制信號(hào)的高效融合與處理。其整體框架延續(xù)了基于 VecSet 表示的 3D VAE 與 3D 擴(kuò)散模型結(jié)合的主干結(jié)構(gòu),但在條件控制機(jī)制上進(jìn)行了重要?jiǎng)?chuàng)新。

模型首先使用 3D VAE 將輸入點(diǎn)云 (含坐標(biāo)和法向信息)編碼為潛在表示。解碼器則從潛在表示重建符號(hào)距離函數(shù)(SDF)場(chǎng),并通過(guò)等值面提取得到顯式網(wǎng)格輸出。在擴(kuò)散階段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。

混元 3D-Omni 的核心創(chuàng)新在于設(shè)計(jì)了統(tǒng)一控制編碼器(Unified Control Encoder),用于處理四種不同類型的控制信號(hào):

  1. 骨骼條件控制采用 3D 骨骼起點(diǎn)坐標(biāo)表示姿態(tài),通過(guò)隨機(jī)采樣不同動(dòng)作幀構(gòu)建訓(xùn)練對(duì),實(shí)現(xiàn)對(duì)生成模型姿態(tài)的靈活控制;
  2. 邊界框條件將長(zhǎng)寬比例轉(zhuǎn)化為標(biāo)準(zhǔn)空間中的八個(gè)頂點(diǎn)坐標(biāo),通過(guò)對(duì)渲染圖像或點(diǎn)云施加隨機(jī)擾動(dòng),提升模型對(duì)比例控制的泛化能力;
  3. 點(diǎn)云支持多種輸入來(lái)源(如深度相機(jī)、LiDAR 或重建模型),并引入隨機(jī)丟棄與噪聲擾動(dòng)以模擬真實(shí)場(chǎng)景;
  4. 體素則通過(guò)將點(diǎn)云量化到 [0,16]^3 網(wǎng)格中,再映射至 [-1,1]^3 空間,形成稀疏幾何提示。

所有控制信號(hào)均被統(tǒng)一表示為點(diǎn)云形式。編碼器首先對(duì)輸入點(diǎn)云進(jìn)行位置編碼,然后通過(guò)線性層提取特征,并疊加可學(xué)習(xí)的模態(tài)標(biāo)識(shí)嵌入以區(qū)分不同控制類型,最終控制特征與圖像特征拼接形成聯(lián)合條件,輸入至 DiT 模塊參與去噪過(guò)程。

為提升模型對(duì)多模態(tài)信號(hào)的魯棒性,訓(xùn)練過(guò)程中采用難度感知采樣策略:1)每批次隨機(jī)選擇一種控制模態(tài);2)對(duì)難度較高的信號(hào)(如骨骼姿態(tài))賦予更高采樣概率,對(duì)簡(jiǎn)單信號(hào)(如點(diǎn)云)進(jìn)行降權(quán)重處理;3)支持部分控制信號(hào)缺失的容錯(cuò)訓(xùn)練。

四、實(shí)驗(yàn)結(jié)果



圖 3:骨骼控制人物姿態(tài)

骨骼控制條件的核心目標(biāo)在于調(diào)整輸入圖像的姿態(tài)特征,該功能主要應(yīng)用于角色類物體的生成過(guò)程中。如圖 3 所示,在以骨骼條件作為額外輸入的前提下,我們的 Omni 模型能夠生成高質(zhì)量且與目標(biāo)姿態(tài)精確對(duì)應(yīng)的角色幾何形體,包括 A 姿態(tài)、單手抬起姿態(tài)以及雙手上舉姿態(tài)等多種姿態(tài)。我們采用了多種風(fēng)格的角色圖像作為條件輸入,其中包括從 3D 角色數(shù)據(jù)渲染得到的圖像,以及通過(guò)生成式模型合成的圖像。

值得注意的是,無(wú)論輸入風(fēng)格如何變化,我們的 Omni 模型均能持續(xù)生成具有精細(xì)幾何細(xì)節(jié)的人體網(wǎng)格,且生成結(jié)果與輸入骨架保持嚴(yán)格對(duì)齊,未出現(xiàn)任何畸變。



圖 4:邊界框控制不同比例



圖 5:邊界框控制解決單圖生成 “紙片” 問(wèn)題

邊界框控制信號(hào)能夠自由調(diào)節(jié)生成物體的長(zhǎng)寬比例。如圖 4 所示,在相同圖像條件下,不同尺寸的邊界框成功調(diào)控了生成模型的尺寸。需要特別指出的是,這種尺寸調(diào)控并非簡(jiǎn)單的線性拉伸:當(dāng)沙發(fā)長(zhǎng)度增加時(shí),模型會(huì)自動(dòng)生成額外的支撐腿結(jié)構(gòu);凱旋門模型在比例調(diào)整后同樣保持合理的建筑形態(tài)。這證明邊界框控制能觸發(fā)生成網(wǎng)絡(luò)的智能幾何重構(gòu)能力。

更為重要的是,如圖 5 的對(duì)比實(shí)驗(yàn)所示,當(dāng)僅用單視角圖像作為條件生成 “紙片物體” 這類失敗情況下,注入邊界框信號(hào)能夠提供線索,成功生成正確的 3D 資產(chǎn)。



圖 6:點(diǎn)云控制補(bǔ)充三維信息

針對(duì)點(diǎn)云控制,我們展示了兩種設(shè)置下的生成結(jié)果:僅使用圖像輸入,以及圖像結(jié)合點(diǎn)云控制輸入。對(duì)于后者,我們進(jìn)一步考慮了三種點(diǎn)云輸入類型:完整點(diǎn)云、深度圖像生成的表面點(diǎn)云以及掃描獲得的噪聲點(diǎn)云。

在前兩個(gè)案例中可以看到,提供完整點(diǎn)云作為控制信號(hào)能有效解決單視圖輸入固有的幾何歧義問(wèn)題,并成功還原被遮擋的內(nèi)部結(jié)構(gòu)。在第三和第四個(gè)案例中,通過(guò)深度圖獲取的表面點(diǎn)云同樣減輕了單視圖歧義,確保生成幾何在尺度上與真實(shí)物體精確對(duì)齊。在第五個(gè)案例中,即使輸入來(lái)自掃描的噪聲表面點(diǎn)云,生成幾何與原始物體的對(duì)齊效果仍明顯優(yōu)于僅使用圖像的基線方法,有效解決了圖像編碼器容易忽略真實(shí)物體姿態(tài)的問(wèn)題。

綜上所述,一旦提供點(diǎn)云輸入,我們的 Omni 模型能夠有效將生成幾何與真實(shí)幾何結(jié)構(gòu)對(duì)齊,即使是部分點(diǎn)云也能作為提升 3D 幾何生成質(zhì)量的重要線索,顯著緩解了單視圖歧義。



圖 7:體素控制物體結(jié)構(gòu)

與點(diǎn)云條件相似,體素條件通過(guò)提供稀疏幾何線索,有效解決單張圖像輸入固有的歧義性問(wèn)題。如圖 7 所示,在第一個(gè)和第五個(gè)案例中,額外的體素控制條件確保生成物體在尺度上與真實(shí)幾何結(jié)構(gòu)精確對(duì)齊。案例 2、3、4 進(jìn)一步展示了體素條件在恢復(fù)精細(xì)幾何細(xì)節(jié)方面的顯著效果:成功重建盾牌的平整表面、精準(zhǔn)捕捉鳥(niǎo)類翅膀的形態(tài)特征,以及高度還原杯子的低多邊形風(fēng)格幾何結(jié)構(gòu)。

這些實(shí)例充分證明,引入體素條件后,模型能夠同時(shí)準(zhǔn)確重建物體的比例關(guān)系和細(xì)節(jié)特征,從而全面提升生成質(zhì)量。









五、總結(jié)

混元 3D-Omni 作為一個(gè)輕量級(jí)、多模態(tài)、可控的 3D 生成框架,在不破壞基礎(chǔ)模型能力的前提下,通過(guò)統(tǒng)一控制編碼器整合多種幾何與控制信號(hào)。

實(shí)驗(yàn)表明,該框架能夠顯著提升生成準(zhǔn)確性、支持幾何感知的變換,并增強(qiáng)生產(chǎn)流程的穩(wěn)定性與魯棒性。這項(xiàng)研究不僅推動(dòng)了 3D 生成模型的可控性與實(shí)用性,也為未來(lái)融合多模態(tài)信號(hào)的通用 3D 生成奠定了基礎(chǔ)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
盧卡申科威脅稱,如果北約擊落俄羅斯目標(biāo),白俄羅斯將全面參戰(zhàn)

盧卡申科威脅稱,如果北約擊落俄羅斯目標(biāo),白俄羅斯將全面參戰(zhàn)

山河路口
2025-09-28 23:26:16
張若昀雙劇來(lái)襲!《雪中悍刀行2》《慶余年3》劇情全揭秘!

張若昀雙劇來(lái)襲!《雪中悍刀行2》《慶余年3》劇情全揭秘!

小椰的奶奶
2025-09-29 13:05:15
早早跳船的萬(wàn)達(dá),為啥還是出問(wèn)題了?

早早跳船的萬(wàn)達(dá),為啥還是出問(wèn)題了?

朝不慵
2025-09-28 12:41:51
小沈陽(yáng)回應(yīng)被抬走:我這叫戰(zhàn)略性撤退,給我們家美美孩孩寶讓C位

小沈陽(yáng)回應(yīng)被抬走:我這叫戰(zhàn)略性撤退,給我們家美美孩孩寶讓C位

韓小娛
2025-09-29 12:13:57
第一屆國(guó)務(wù)院領(lǐng)導(dǎo)班子,12位副總理都是誰(shuí)?101竟在彭德懷之前

第一屆國(guó)務(wù)院領(lǐng)導(dǎo)班子,12位副總理都是誰(shuí)?101竟在彭德懷之前

舊書(shū)卷里的長(zhǎng)安
2025-09-28 22:12:58
華南理工大車禍后續(xù):現(xiàn)場(chǎng)畫(huà)面曝光,死者朋友圈公開(kāi),是家中獨(dú)女

華南理工大車禍后續(xù):現(xiàn)場(chǎng)畫(huà)面曝光,死者朋友圈公開(kāi),是家中獨(dú)女

娛樂(lè)壹點(diǎn)半
2025-09-29 11:16:41
同學(xué)聚會(huì)收8萬(wàn),我裝病拒去,次日警察敲門:昨晚參會(huì)的都出事

同學(xué)聚會(huì)收8萬(wàn),我裝病拒去,次日警察敲門:昨晚參會(huì)的都出事

七分瘦三分肥
2025-09-17 15:51:21
13萬(wàn)元?jiǎng)诹κ克溺R面,官方售后要求必須連內(nèi)部構(gòu)件一起修,維修價(jià)格翻倍!最新回應(yīng)來(lái)了……

13萬(wàn)元?jiǎng)诹κ克溺R面,官方售后要求必須連內(nèi)部構(gòu)件一起修,維修價(jià)格翻倍!最新回應(yīng)來(lái)了……

FM93浙江交通之聲
2025-09-28 20:06:53
美核潛艇連射4枚洲際導(dǎo)彈,800名將領(lǐng)奉詔回國(guó),中方已預(yù)感不妙

美核潛艇連射4枚洲際導(dǎo)彈,800名將領(lǐng)奉詔回國(guó),中方已預(yù)感不妙

知法而形
2025-09-28 14:23:50
崔麗麗:對(duì)方提出200萬(wàn)我都沒(méi)要,我要的是2000萬(wàn)加法辦!

崔麗麗:對(duì)方提出200萬(wàn)我都沒(méi)要,我要的是2000萬(wàn)加法辦!

映射生活的身影
2025-09-29 13:56:00
開(kāi)國(guó)上將偶遇當(dāng)年的副軍長(zhǎng),怒吼道:窮成這樣都不去找李先念?

開(kāi)國(guó)上將偶遇當(dāng)年的副軍長(zhǎng),怒吼道:窮成這樣都不去找李先念?

健康快樂(lè)丁
2025-09-10 10:10:00
美國(guó)飛行員懵了:不是殲-20,中國(guó)偏偏用殲-11天天攔我們

美國(guó)飛行員懵了:不是殲-20,中國(guó)偏偏用殲-11天天攔我們

小莜讀史
2025-09-29 10:47:57
穩(wěn)了,華為 Mate 80 發(fā)布會(huì)提前!

穩(wěn)了,華為 Mate 80 發(fā)布會(huì)提前!

科技堡壘
2025-09-29 11:11:23
毛不易演唱會(huì)撒圓形紙錢,滿天黃紙場(chǎng)面慎人,本人:這吉祥嗎?

毛不易演唱會(huì)撒圓形紙錢,滿天黃紙場(chǎng)面慎人,本人:這吉祥嗎?

檸檬有娛樂(lè)
2025-09-29 10:49:10
哈馬斯對(duì) 10 月 7 日的襲擊并不后悔,聲稱哈馬斯只襲擊軍事目標(biāo),從未打算綁架平民

哈馬斯對(duì) 10 月 7 日的襲擊并不后悔,聲稱哈馬斯只襲擊軍事目標(biāo),從未打算綁架平民

老王說(shuō)正義
2025-09-28 00:03:30
1990年,被關(guān)押40年的地主出獄,寫信給王震:記得那1000擔(dān)糧食嗎

1990年,被關(guān)押40年的地主出獄,寫信給王震:記得那1000擔(dān)糧食嗎

文史道
2025-09-06 12:53:48
提拔任市公安局局長(zhǎng)5個(gè)月,戴曉蕭官宣落馬

提拔任市公安局局長(zhǎng)5個(gè)月,戴曉蕭官宣落馬

新京報(bào)政事兒
2025-09-29 17:59:04
100歲的基辛格曾預(yù)測(cè):若爆發(fā)三戰(zhàn),敢攻打美國(guó)本土的國(guó)家只有3個(gè)

100歲的基辛格曾預(yù)測(cè):若爆發(fā)三戰(zhàn),敢攻打美國(guó)本土的國(guó)家只有3個(gè)

黃麗搞笑小能手
2025-09-27 16:12:10
楊蘭蘭,憑什么可以兩次不出庭?

楊蘭蘭,憑什么可以兩次不出庭?

熱點(diǎn)菌本君
2025-09-28 14:36:02
父母能把孩子逼迫到啥地步?網(wǎng)友:唉,令人窒息的家長(zhǎng),造孽啊

父母能把孩子逼迫到啥地步?網(wǎng)友:唉,令人窒息的家長(zhǎng),造孽啊

帶你感受人間冷暖
2025-09-29 00:05:25
2025-09-29 22:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11384文章數(shù) 142459關(guān)注度
往期回顧 全部

科技要聞

余承東增任新職務(wù) 掌管華為AI戰(zhàn)略相關(guān)業(yè)務(wù)

頭條要聞

一在建船舶直降534萬(wàn)被拍出 建造15年未完工閑置13年

頭條要聞

一在建船舶直降534萬(wàn)被拍出 建造15年未完工閑置13年

體育要聞

1.3億賣掉西甲隊(duì),中國(guó)資本的十年一夢(mèng)

娛樂(lè)要聞

看小天后單依純處境,李健預(yù)言應(yīng)驗(yàn)?

財(cái)經(jīng)要聞

臭蝦供應(yīng)商背靠新希望 競(jìng)標(biāo)卻自稱小企業(yè)

汽車要聞

沖擊豪華高端SUV 極氪9X上市46.59萬(wàn)起

態(tài)度原創(chuàng)

藝術(shù)
本地
時(shí)尚
家居
公開(kāi)課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

讀港校想省錢,社恐輸在起跑線

上了年紀(jì)的女人秋天選“外套”,記住這3上關(guān)鍵點(diǎn),時(shí)髦顯瘦

家居要聞

重慶目耳 進(jìn)入金屬叢林

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 久久成人网一区二区青椒影视| 欧美性爱老BB白水| 天天日天天色| 青青青国产在线观看手机免费| 国产精品性爱视频| 日本护士╳╳╳hd少妇| 人妻 av影院| chinese国产AB| 免费中文熟妇在线影片| 肏屄xxxx| 各种虐奶头的视频无码| 40岁真人毛片免费看| 久久久久久久久久国产精品| 99在线无码精品秘| 在线欧美国产| 国产精品粉穴| 乒乓亚锦赛女团决赛:中国vs日本| 三级国产在线观看| 爱妺妺国产av网站| 18禁在线看网站| 久久99国产精品成人| 成人在线观看一区二区| 亚洲熟妇另类久久久久久| 国产激情无码一区二区三区 | 亚洲欭美日韩颜射在线| 亚洲精品无码寂寞少妇AV| 成人AV专区精品无码国产| 色综合久久久久综合99| 熟女俱乐部一区二区三区| 中国熟妇人妻xxxxx| 人人摸人人搞| 成人无码免费一区二区三区| 亚洲九九精品视频| 国产熟女一区二区丰满| 少妇激情AV一区二区三区| 亚洲欧美太紧了| 欧美成人手机免费观看| 国产精品制服丝袜第一页| 婷婷久久两性网| 欧美人人操人人摸| 国产亚洲第一午夜福利合集|