夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3D版ControlNet突破多模態(tài)控制,實現(xiàn)高精度3D資產(chǎn)生成

0
分享至



近年來,3D 原生生成模型在游戲、影視和設計領域的資產(chǎn)創(chuàng)建中展現(xiàn)出強大潛力。然而,大多數(shù)現(xiàn)有方法仍主要依賴圖像作為條件輸入,缺乏細粒度、多模態(tài)的控制能力,限制了其在實際生產(chǎn)流程中的應用。

為解決這一瓶頸,騰訊混元團隊推出了混元 3D-Omni,一個基于 Hunyuan3D 2.1 構建的統(tǒng)一多模態(tài)可控 3D 生成框架。該框架不僅支持圖像作為輸入,還可接受點云、體素、邊界框與骨骼姿態(tài)等多種控制信號,實現(xiàn)對生成物體幾何結構、拓撲與姿態(tài)的精細控制。



  • 技術報告:Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
  • 研發(fā)團隊:Tencent Hunyuan3D Team, 2025.
  • 混元 3D 主頁:https://3d.hunyuan.tencent.com
  • 代碼下載:https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
  • 權重下載:https://huggingface.co/tencent/Hunyuan3D-Omni
  • 報告鏈接:https://arxiv.org/pdf/2509.21245

一、背景與挑戰(zhàn)

隨著 3D 數(shù)據(jù)規(guī)模不斷擴大,基于原生 3D 表示(如點云、體素)的生成模型逐漸成為主流。這類方法通常結合 3D 變分自編碼器(VAE)與潛在擴散模型(LDM),能夠高效生成高質量 3D 模型。例如,Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer(DiT),實現(xiàn)了從單圖像到 3D 模型的快速生成。

然而,僅依賴圖像輸入存在諸多局限:

  • 單視角圖像易受圖像遮擋、光照或視角干擾,生成結果缺乏幾何準確性;
  • 難以精細控制生成對象的比例、姿態(tài)和結構細節(jié);
  • 無法適應多模態(tài)輸入(如深度圖、LiDAR 點云、骨架動作等),限制了在實際場景中的使用。

二、Hunyuan3D Omni 的核心創(chuàng)新



圖 1:混元 3D-Omni 可支持多種模態(tài)作為控制條件,實現(xiàn)精細化 3D 資產(chǎn)生成

混元 3D-Omni 是一個支持多種控制條件的 3D 資產(chǎn)創(chuàng)建系統(tǒng)。它通過兩個關鍵性的創(chuàng)新來推動尖端 3D 生成技術的發(fā)展: 其一,采用輕量化的統(tǒng)一控制編碼器,實現(xiàn)多種控制條件的統(tǒng)一支持;其二,引入漸進式難度感知訓練策略,提升模型對多模態(tài)融合的魯棒性。

作為業(yè)界首個統(tǒng)一多種條件控制的 3D 生成模型,混元 3D-Omni 可融合多達四類控制條件,顯著提升生成結果的可控性及質量。同時該系統(tǒng)將完整開放推理代碼以及權重,加速可控 3D 生成模型在學術領域研究以及工業(yè)落地部署。創(chuàng)新點總結如下:

1. 多模態(tài)控制信號統(tǒng)一處理

Hunyuan3D-Omni 引入了四種控制信號:

  • 骨骼姿態(tài)(Skeleton):用于角色動作控制;
  • 邊界框(Bounding Box):調整生成對象在標準空間中的長寬高比例;
  • 點云(Point Cloud):提供幾何結構先驗,增強細節(jié)還原;
  • 體素(Voxel):稀疏幾何提示,改善比例與結構一致性。

2. 輕量化統(tǒng)一控制編碼器

所有控制信號被統(tǒng)一表示為點云形式,并通過一個共享的控制編碼器提取特征。該編碼器對不同模態(tài)條件進行區(qū)分,避免控制目標之間的混淆。最終的控制特征與圖像 DINO 特征拼接,作為 DiT 的聯(lián)合輸入。

3. 漸進式難度感知訓練策略

在訓練過程中,模型隨機選擇一種控制條件,并偏向采樣難度較高的信號(如骨骼姿態(tài)),同時降低簡單信號(如點云)的權重。這種策略提升了模型對多模態(tài)融合的魯棒性,也能優(yōu)雅處理輸入缺失的情況。

三、關鍵實現(xiàn)方法



圖 2:混元 3D-Omni 模型框架圖

混元 3D-Omni 的模型架構建立在混元 3D 2.1的基礎之上,通過引入統(tǒng)一的多模態(tài)控制編碼機制,實現(xiàn)了對點云、體素、邊界框和骨骼等多種控制信號的高效融合與處理。其整體框架延續(xù)了基于 VecSet 表示的 3D VAE 與 3D 擴散模型結合的主干結構,但在條件控制機制上進行了重要創(chuàng)新。

模型首先使用 3D VAE 將輸入點云 (含坐標和法向信息)編碼為潛在表示。解碼器則從潛在表示重建符號距離函數(shù)(SDF)場,并通過等值面提取得到顯式網(wǎng)格輸出。在擴散階段,模型采用基于流匹配的 3D Latent Diffusion Model(LDM)。

混元 3D-Omni 的核心創(chuàng)新在于設計了統(tǒng)一控制編碼器(Unified Control Encoder),用于處理四種不同類型的控制信號:

  1. 骨骼條件控制采用 3D 骨骼起點坐標表示姿態(tài),通過隨機采樣不同動作幀構建訓練對,實現(xiàn)對生成模型姿態(tài)的靈活控制;
  2. 邊界框條件將長寬比例轉化為標準空間中的八個頂點坐標,通過對渲染圖像或點云施加隨機擾動,提升模型對比例控制的泛化能力;
  3. 點云支持多種輸入來源(如深度相機、LiDAR 或重建模型),并引入隨機丟棄與噪聲擾動以模擬真實場景;
  4. 體素則通過將點云量化到 [0,16]^3 網(wǎng)格中,再映射至 [-1,1]^3 空間,形成稀疏幾何提示。

所有控制信號均被統(tǒng)一表示為點云形式。編碼器首先對輸入點云進行位置編碼,然后通過線性層提取特征,并疊加可學習的模態(tài)標識嵌入以區(qū)分不同控制類型,最終控制特征與圖像特征拼接形成聯(lián)合條件,輸入至 DiT 模塊參與去噪過程。

為提升模型對多模態(tài)信號的魯棒性,訓練過程中采用難度感知采樣策略:1)每批次隨機選擇一種控制模態(tài);2)對難度較高的信號(如骨骼姿態(tài))賦予更高采樣概率,對簡單信號(如點云)進行降權重處理;3)支持部分控制信號缺失的容錯訓練。

四、實驗結果



圖 3:骨骼控制人物姿態(tài)

骨骼控制條件的核心目標在于調整輸入圖像的姿態(tài)特征,該功能主要應用于角色類物體的生成過程中。如圖 3 所示,在以骨骼條件作為額外輸入的前提下,我們的 Omni 模型能夠生成高質量且與目標姿態(tài)精確對應的角色幾何形體,包括 A 姿態(tài)、單手抬起姿態(tài)以及雙手上舉姿態(tài)等多種姿態(tài)。我們采用了多種風格的角色圖像作為條件輸入,其中包括從 3D 角色數(shù)據(jù)渲染得到的圖像,以及通過生成式模型合成的圖像。

值得注意的是,無論輸入風格如何變化,我們的 Omni 模型均能持續(xù)生成具有精細幾何細節(jié)的人體網(wǎng)格,且生成結果與輸入骨架保持嚴格對齊,未出現(xiàn)任何畸變。



圖 4:邊界框控制不同比例



圖 5:邊界框控制解決單圖生成 “紙片” 問題

邊界框控制信號能夠自由調節(jié)生成物體的長寬比例。如圖 4 所示,在相同圖像條件下,不同尺寸的邊界框成功調控了生成模型的尺寸。需要特別指出的是,這種尺寸調控并非簡單的線性拉伸:當沙發(fā)長度增加時,模型會自動生成額外的支撐腿結構;凱旋門模型在比例調整后同樣保持合理的建筑形態(tài)。這證明邊界框控制能觸發(fā)生成網(wǎng)絡的智能幾何重構能力。

更為重要的是,如圖 5 的對比實驗所示,當僅用單視角圖像作為條件生成 “紙片物體” 這類失敗情況下,注入邊界框信號能夠提供線索,成功生成正確的 3D 資產(chǎn)。



圖 6:點云控制補充三維信息

針對點云控制,我們展示了兩種設置下的生成結果:僅使用圖像輸入,以及圖像結合點云控制輸入。對于后者,我們進一步考慮了三種點云輸入類型:完整點云、深度圖像生成的表面點云以及掃描獲得的噪聲點云。

在前兩個案例中可以看到,提供完整點云作為控制信號能有效解決單視圖輸入固有的幾何歧義問題,并成功還原被遮擋的內部結構。在第三和第四個案例中,通過深度圖獲取的表面點云同樣減輕了單視圖歧義,確保生成幾何在尺度上與真實物體精確對齊。在第五個案例中,即使輸入來自掃描的噪聲表面點云,生成幾何與原始物體的對齊效果仍明顯優(yōu)于僅使用圖像的基線方法,有效解決了圖像編碼器容易忽略真實物體姿態(tài)的問題。

綜上所述,一旦提供點云輸入,我們的 Omni 模型能夠有效將生成幾何與真實幾何結構對齊,即使是部分點云也能作為提升 3D 幾何生成質量的重要線索,顯著緩解了單視圖歧義。



圖 7:體素控制物體結構

與點云條件相似,體素條件通過提供稀疏幾何線索,有效解決單張圖像輸入固有的歧義性問題。如圖 7 所示,在第一個和第五個案例中,額外的體素控制條件確保生成物體在尺度上與真實幾何結構精確對齊。案例 2、3、4 進一步展示了體素條件在恢復精細幾何細節(jié)方面的顯著效果:成功重建盾牌的平整表面、精準捕捉鳥類翅膀的形態(tài)特征,以及高度還原杯子的低多邊形風格幾何結構。

這些實例充分證明,引入體素條件后,模型能夠同時準確重建物體的比例關系和細節(jié)特征,從而全面提升生成質量。









五、總結

混元 3D-Omni 作為一個輕量級、多模態(tài)、可控的 3D 生成框架,在不破壞基礎模型能力的前提下,通過統(tǒng)一控制編碼器整合多種幾何與控制信號。

實驗表明,該框架能夠顯著提升生成準確性、支持幾何感知的變換,并增強生產(chǎn)流程的穩(wěn)定性與魯棒性。這項研究不僅推動了 3D 生成模型的可控性與實用性,也為未來融合多模態(tài)信號的通用 3D 生成奠定了基礎。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
公務員錄用體檢標準放寬

公務員錄用體檢標準放寬

政知新媒體
2025-11-14 21:48:35
戴旭:中國從來沒有單獨徹底戰(zhàn)勝過日本,未來一戰(zhàn)永絕后患

戴旭:中國從來沒有單獨徹底戰(zhàn)勝過日本,未來一戰(zhàn)永絕后患

boss外傳
2025-11-01 12:00:03
干練與松弛如何共存?深棕色背心搭瑜伽褲,小姐姐一看就是女強人

干練與松弛如何共存?深棕色背心搭瑜伽褲,小姐姐一看就是女強人

小喬古裝漢服
2025-11-11 13:22:57
放棄庫里,安德瑪斷臂求生

放棄庫里,安德瑪斷臂求生

體育產(chǎn)業(yè)生態(tài)圈
2025-11-14 19:16:44
香港知名男星低調再婚,棄影從商做紙板生意,移居內地生活20多年

香港知名男星低調再婚,棄影從商做紙板生意,移居內地生活20多年

胡一舸南游y
2025-11-14 19:10:21
臺獨急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺辦一句話戳破真相

臺獨急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺辦一句話戳破真相

文史旺旺旺
2025-11-13 20:17:18
“詩與遠方”圓夢,林高遠/劉詩雯摘得全運會乒乓球混雙金牌

“詩與遠方”圓夢,林高遠/劉詩雯摘得全運會乒乓球混雙金牌

澎湃新聞
2025-11-14 23:34:28
27歲靠一首歌火遍全國,37歲高齡產(chǎn)子,和前夫離婚后如今她怎樣了

27歲靠一首歌火遍全國,37歲高齡產(chǎn)子,和前夫離婚后如今她怎樣了

冷紫葉
2025-11-13 16:37:48
原價1.8萬的華為折疊屏,如今1折都不要!搭載麒麟9000芯片

原價1.8萬的華為折疊屏,如今1折都不要!搭載麒麟9000芯片

閑搞機
2025-11-13 11:06:43
人心大快!小S被曝已沒收入,節(jié)目嘉賓罷錄,遭反噬代言全掉光

人心大快!小S被曝已沒收入,節(jié)目嘉賓罷錄,遭反噬代言全掉光

八星人
2025-11-14 10:47:02
經(jīng)典黑白配還能這么穿?小姐姐的白背心黑瑜伽褲,成熟嫵媚又舒適

經(jīng)典黑白配還能這么穿?小姐姐的白背心黑瑜伽褲,成熟嫵媚又舒適

小喬古裝漢服
2025-11-10 13:44:01
全運會最新金牌獎牌榜15日賽程,山東一日無金,江浙狂飆緊追廣東

全運會最新金牌獎牌榜15日賽程,山東一日無金,江浙狂飆緊追廣東

天涯遠行人
2025-11-15 01:40:20
4-1!550萬人口小國沸騰了:世預賽7戰(zhàn)全勝領跑!近乎直通世界杯

4-1!550萬人口小國沸騰了:世預賽7戰(zhàn)全勝領跑!近乎直通世界杯

球場沒跑道
2025-11-14 09:00:30
剛威脅驅逐中國外交官,日本就收到"大禮":隱身無人機攜殲20現(xiàn)身

剛威脅驅逐中國外交官,日本就收到"大禮":隱身無人機攜殲20現(xiàn)身

一個有靈魂的作者
2025-11-14 20:35:41
游樂場里寶媽走光了自己卻沒察覺?這場景看著尷尬

游樂場里寶媽走光了自己卻沒察覺?這場景看著尷尬

沒有偏旁的常慶
2025-10-31 07:20:21
死得絕望!搖滾女歌手阿珍離世,長得漂亮!遭座椅擠壓,肋骨斷裂

死得絕望!搖滾女歌手阿珍離世,長得漂亮!遭座椅擠壓,肋骨斷裂

鋭娛之樂
2025-11-14 13:51:56
美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

心靈短笛
2025-05-15 15:12:03
官方披露:夏某受境外組織派遣,以“提供醫(yī)療援助”等名義為掩護,深入我西南山區(qū),暗中搜集軍事管理區(qū)數(shù)據(jù)

官方披露:夏某受境外組織派遣,以“提供醫(yī)療援助”等名義為掩護,深入我西南山區(qū),暗中搜集軍事管理區(qū)數(shù)據(jù)

魯中晨報
2025-11-13 15:59:03
上海已確認:又一區(qū)發(fā)"房票"+15%補貼!市民期盼

上海已確認:又一區(qū)發(fā)"房票"+15%補貼!市民期盼

看看新聞Knews
2025-11-14 18:32:08
我業(yè)績第一年終獎5000,同事摸魚拿5萬,我辭職走人后主管傻眼了

我業(yè)績第一年終獎5000,同事摸魚拿5萬,我辭職走人后主管傻眼了

農(nóng)村情感故事
2025-11-08 15:18:49
2025-11-15 06:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11720文章數(shù) 142505關注度
往期回顧 全部

科技要聞

京東“失去的五年”后,找到新增長了嗎?

頭條要聞

中方連發(fā)六張雙語海報@高市早苗 媒體:總該看懂了吧

頭條要聞

中方連發(fā)六張雙語海報@高市早苗 媒體:總該看懂了吧

體育要聞

7-0狂勝!15萬人口小島離世界杯只差1分

娛樂要聞

王家衛(wèi)讓古二替秦雯寫劇情主線?

財經(jīng)要聞

財政部:加強逆周期和跨周期調節(jié)

汽車要聞

小鵬X9超級增程動態(tài)評測全網(wǎng)首發(fā) 高速實測車內65分貝

態(tài)度原創(chuàng)

家居
教育
旅游
藝術
軍事航空

家居要聞

現(xiàn)代簡逸 尋找生活的光

教育要聞

為什么說留英真正的紅利被嚴重低估了?

旅游要聞

避開人潮!5 個零商業(yè)化冷門地,藏著中國最本真的詩和遠方

藝術要聞

中國唯一建在溫泉上的城市,常年22℃,銀杏美了千年

軍事要聞

國防部:日方若膽敢鋌而走險必將碰得頭破血流

無障礙瀏覽 進入關懷版 爱爱网站无码| 久久婷婷大香萑太香蕉av人| 精品噜噜噜噜久久久久久久久| 淑女好爽av| 婷婷要玩综合| 无码国内精品久久人妻蜜桃| 日韩精品无码观看视频免费| 99精品字幕| 亚洲欧美成人a∨观看| 人人妻人人澡人人DVD| 河南老熟女露脸高潮| 人人妻人人草人人鲁| 婷婷国产一区二区三区| 亚洲国产日韩成人a在线欧美| 国产精品一区二区三区黄片| 日本亚洲欧美在线观看| www.日本色| 8av国产精品爽爽ⅴa在线观看| 男阳茎进女阳道视频大全| 国产伦精品一区二区三区在线观看| 午夜福利久久久| 久久老熟女一区二区密臀 | 99久久九九热播| 西西人体午夜视频无码| 久久久久久成人毛片免费看| 欧美成人精品手机在线| 93人妻人人揉人人澡人人| 日韩精品123| 激情内射199| 中文字幕无码在线观看| 国产欧美日本| 精品久久久久久综合日本| 亚洲中文字幕一二三四区在线| 国产a一级毛片爽爽影院无码 | 18禁美女裸体无遮挡网站| 香港三日本三级少妇三级视频| 亚洲高潮喷水无码AV电影 | 国产偷亚洲偷欧美偷精品| 少妇无码自慰毛片久久久久| 欧美舔阴高清视频| 国内一区二区AVSHIPING|