本論文第一作者曹子昂,南洋理工大學博士二年級,研究方向是計算機視覺、3D AIGC 和具身智能。主要合作者為來自南洋理工大學陳昭熹和來自上海人工智能實驗室的潘亮,通訊作者為南洋理工大學劉子緯教授。
- 論文鏈接:https://arxiv.org/abs/2507.12465
- 項目主頁:hthttps://physx-3d.github.io/
- GitHub 代碼:https://github.com/ziangcao0312/PhysX
3D 生成正從純虛擬走向物理真實,現(xiàn)有的 3D 生成方法主要側(cè)重于幾何結(jié)構(gòu)與紋理信息,而忽略了基于物理屬性的建模。為了填補當前包含物理屬性 3D 數(shù)據(jù)集的關(guān)鍵空白,由南洋理工大學 - 商湯聯(lián)合研究中心 S-Lab,及上海人工智能實驗室合作提出了 PhysXNet —— 首個系統(tǒng)性標注的物理基礎(chǔ) 3D 數(shù)據(jù)集,涵蓋五個核心維度:物理尺度、材料、可供性、運動學信息、以及文本描述信息。此外,我們還提出了 PhysXGen,一個面向真實物理世界的 3D 生成框架,以實現(xiàn)從圖像到真實 3D 資產(chǎn)的生成。
引言
近年來,隨著 3D 資產(chǎn)在游戲、機器人技術(shù)和具身模擬等領(lǐng)域的廣泛應(yīng)用,其多樣性與高質(zhì)量生成受到了越來越多的關(guān)注。大量研究工作集中在外觀與幾何結(jié)構(gòu)上:包括高質(zhì)量的 3D 數(shù)據(jù)集 (Objaverse [1]、ShapeNet [2])、高效的 3D 表示方法以及生成模型等方面。
然而,這些研究大多僅關(guān)注結(jié)構(gòu)特征,忽視了現(xiàn)實世界物體所固有的物理屬性。鑒于 3D 空間中對物理建模、理解與推理的需求不斷增長,我們認為,從上游的數(shù)據(jù)標注流程到下游的生成建模,構(gòu)建一個完整的基于物理的 3D 對象建模體系變得尤為重要??紤]到除了幾何和外觀等純粹的結(jié)構(gòu)屬性之外,現(xiàn)實世界中的物體還內(nèi)在地具有豐富的物理和語義特性,包括:物理尺度、材料 (密度、楊氏模量、泊松比)、可供性、運動學(運動模式、運動方向、運動范圍),以及文本描述(整體、功能、可供性信息)。通過將這些基礎(chǔ)屬性與經(jīng)典物理原理相結(jié)合,我們便可以推導出關(guān)鍵的動態(tài)指標,如重力效應(yīng)、摩擦力、接觸區(qū)域、運動軌跡與交互關(guān)系等。
基于以上分析,我們提出了 PhysXNet — 首個全面的物理屬性 3D 數(shù)據(jù)集,包含超過 26K 帶有豐富注釋的 3D 物體。除了在物體層級上的注釋外,我們還對每個零部件進行了物理屬性的標注。包括我們?yōu)樗胁考峁┝丝晒┬耘琶约斑\動學約束的詳細參數(shù),包括運動范圍、運動方向、子部件和父部件等信息。
除此之外,我們還引入了擴展版本 PhysXNet-XL,其中包含超過 600 萬個通過程序化生成并帶有物理注釋的 3D 對象。進一步,我們提出了 PhysXGen —— 一個用于物理 3D 生成的前饋模型。鑒于物理屬性在空間上與幾何結(jié)構(gòu)和外觀密切相關(guān),我們利用預(yù)訓練的 3D 先驗,以生成具備物理屬性的 3D 資產(chǎn),從而實現(xiàn)高效訓練并具備良好的泛化能力。
數(shù)據(jù)介紹
由于物理屬性難以測量且標注極其耗時,導致現(xiàn)存相關(guān)數(shù)據(jù)集數(shù)據(jù)量難以擴展。為解決此挑戰(zhàn),我們通過設(shè)計一個人在回路的標注流程以實現(xiàn)高效的物理信息采集標注。通過與相關(guān)數(shù)據(jù)對比我們的數(shù)據(jù)集是首個包含多種豐富物理屬性的 3D 數(shù)據(jù)集,并且包括物體整體信息及各部分的物理信息。
標注流程
正如前文所述,在確定標注信息后,我們提出了人在回路的標注框架,分為兩個明確的操作階段 1)初步數(shù)據(jù)采集和 2)運動學參數(shù)確定。
具體而言,我們利用 GPT-4o 獲取基礎(chǔ)信息。為了保證原始數(shù)據(jù)質(zhì)量,由人工審核員將對視覺 - 語言模型(VLM)的輸出結(jié)果進行檢查。而第二階段細分為四個子任務(wù):(2.a)接觸區(qū)域計算,(2.b)平面擬合,(2.c)候選項生成與篩選,(2.d)運動學參數(shù)確定。
數(shù)據(jù)分布
PhysXNet 數(shù)據(jù)集包含超過 26K 個帶物理屬性的 3D 對象,圖中展示了對象中部件數(shù)量的長尾分布,其中每個對象平均包含約 5 個組成部件。此外,我們在圖 (b) 中記錄了對象的長、寬、高分布情況。由于 PhysXNet 涵蓋了從相對小型的室內(nèi)物體到大型室外結(jié)構(gòu),物理尺寸在對象之間表現(xiàn)出顯著差異。關(guān)于 PhysXNet 中的運動學類型和材料,我們展示了詳細的比例組成。最后,我們還統(tǒng)計了 PhysXNet-XL 中程序化生成的 6M 個 3D 數(shù)據(jù)的類別,涵蓋:a) 類內(nèi)組合及 b) 跨類別組合。
生成方法介紹
為實現(xiàn)高效的包含物理屬性的 3D 資產(chǎn)生成,我們基于預(yù)訓練的 3D 表示空間,提出了 PhysXGen,一個新穎且簡潔的框架,將物理屬性與幾何結(jié)構(gòu)和外觀相結(jié)合,如圖所示。我們的方法通過在生成過程中同步融合基礎(chǔ)物理屬性,同時通過有針對性的微調(diào)優(yōu)化結(jié)構(gòu)分支,達到這一雙重目標。這種聯(lián)合優(yōu)化使得生成的 3D 資產(chǎn)在保持出色幾何和外觀逼真度的同時,實現(xiàn)了物理上的自洽性。
實驗
定性及定量分析
如表所示,我們從兩個維度對模型進行了定量評估:1)幾何結(jié)構(gòu)與外觀質(zhì)量評估;2)物理屬性評估。
需要說明的是,TRELLIS+PhysPre 是我們的 Baseline,其采用獨立結(jié)構(gòu)來預(yù)測物理屬性。相比于這種分離式的物理屬性預(yù)測器,我們的 PhysXGen 利用了物理屬性與預(yù)定義 3D 結(jié)構(gòu)空間之間的相關(guān)性,不僅在物理屬性生成方面取得了顯著提升,同時也增強了外觀質(zhì)量如圖所示。
與現(xiàn)有方法對比
為了評估我們所提出的方法 PhysXGen 在生成具物理基礎(chǔ)的 3D 資產(chǎn)方面的能力,我們與一個基于 GPT 的基線流程進行了全面的定性與定量比較。該基線流程由 Trellis [3]、PartField [4] 和 GPT-4o 組成。在該評估框架下,給定一張圖像提示,Trellis 首先生成具備完整幾何結(jié)構(gòu)和外觀紋理的 3D 網(wǎng)格;隨后,這些資產(chǎn)經(jīng)由 PartField 進行細粒度的部件分割;最后,GPT 模型對每個部件賦予材料參數(shù)和動態(tài)屬性等物理屬性。在四個評估維度上:物理尺度、材料、運動學和可供性,PhysXGen 分別取得了 24%、64%、28% 和 72% 的相對性能提升,表現(xiàn)出顯著優(yōu)勢。
總結(jié)
本文旨在填補現(xiàn)有 3D 資產(chǎn)與真實世界之間的差距,提出了一種端到端的物理基礎(chǔ) 3D 資產(chǎn)生成范式,包括首個具物理屬性注釋的 3D 數(shù)據(jù)集(PhysXNet、PhysXNet-XL)以及新穎的物理屬性生成器(PhysXGen)。具體而言,我們構(gòu)建了一個人機協(xié)同的數(shù)據(jù)標注流程,可將現(xiàn)有 3D 資源庫轉(zhuǎn)化為具備物理信息的數(shù)據(jù)集。與此同時,我們提出的新型端到端生成框架 PhysXGen,能夠?qū)⑽锢硐闰炄谌胍越Y(jié)構(gòu)為中心的架構(gòu)中,從而實現(xiàn)穩(wěn)健的 3D 生成效果。通過在 PhysXNet 上的實驗,我們揭示了物理 3D 生成任務(wù)中的關(guān)鍵挑戰(zhàn)與未來方向。我們相信,該數(shù)據(jù)集將吸引來自嵌入式人工智能、機器人學以及 3D 視覺等多個研究領(lǐng)域的廣泛關(guān)注。
參考文獻
[1] Deitke M, Schwenk D, Salvador J, et al. Objaverse: A universe of annotated 3d objects [C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 13142-13153.
[2] Chang A X, Funkhouser T, Guibas L, et al. Shapenet: An information-rich 3d model repository [J]. arXiv preprint arXiv:1512.03012, 2015.
[3] Xiang J, Lv Z, Xu S, et al. Structured 3d latents for scalable and versatile 3d generation [C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 21469-21480.
[4] Liu M, Uy M A, Xiang D, et al. Partfield: Learning 3d feature fields for part segmentation and beyond [J]. arXiv preprint arXiv:2504.11451, 2025.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.