開(kāi)放詞匯識(shí)別與分類對(duì)于全面理解現(xiàn)實(shí)世界的 3D 場(chǎng)景至關(guān)重要。目前,所有現(xiàn)有方法在訓(xùn)練或推理過(guò)程中都依賴于 2D 或文本模態(tài)。這凸顯出缺乏能夠單獨(dú)處理 3D 數(shù)據(jù)以進(jìn)行端到端語(yǔ)義學(xué)習(xí)的模型,以及訓(xùn)練此類模型所需的數(shù)據(jù)。與此同時(shí),3DGS 已成為各種視覺(jué)任務(wù)中 3D 場(chǎng)景表達(dá)的重要標(biāo)準(zhǔn)之一。
然而,有效地將語(yǔ)義理解以可泛化的方式集成到 3DGS 中仍然是一個(gè)難題。為了突破這些瓶頸,我們引入了 SceneSplat,第一個(gè)在 3DGS 上原生運(yùn)行的端到端大規(guī)模 3D 室內(nèi)場(chǎng)景理解方法。此外,我們提出了一種自監(jiān)督學(xué)習(xí)方案,可以從未標(biāo)記場(chǎng)景中解鎖豐富的 3D 特征學(xué)習(xí)。為了支持所提出的方法,我們采集了首個(gè)針對(duì)室內(nèi)場(chǎng)景的大規(guī)模 3DGS 數(shù)據(jù)集 SceneSplat-7K,包含 7916 個(gè)場(chǎng)景,這些場(chǎng)景源自七個(gè)現(xiàn)有數(shù)據(jù)集,例如 ScanNet 和 Matterport3D。生成 SceneSplat-7K 所需的計(jì)算資源相當(dāng)于在 L4 GPU 上運(yùn)行 150 天。我們?cè)?SceneSplat-7K 上進(jìn)行了開(kāi)放詞匯和語(yǔ)義分割的測(cè)試,均達(dá)到了 state-of-the-art 的效果。
- 文章鏈接:https://arxiv.org/abs/2503.18052
- 項(xiàng)目主頁(yè):https://unique1i.github.io/SceneSplat_webpage/
- 數(shù)據(jù)集:https://huggingface.co/datasets/GaussianWorld/scene_splat_7k
圖 1: SceneSplat-7K 從 7 個(gè)不同的公開(kāi)數(shù)據(jù)集采集了了 7916 個(gè)完整 3DGS 場(chǎng)景,并且做了語(yǔ)義標(biāo)注;基于這一高質(zhì)量數(shù)據(jù)集,我們大規(guī)模訓(xùn)練了 SceneSplat 模型,這是首個(gè)能夠在單次前向傳播中預(yù)測(cè)數(shù)百萬(wàn)個(gè) 3D 高斯分布的開(kāi)放詞匯語(yǔ)言特征的模型。
視頻:SceneSplat
SceneSplat 數(shù)據(jù)集
大規(guī)模 3DGS 重建
為支撐在 3D 高斯點(diǎn)(3DGS)上的原生語(yǔ)義學(xué)習(xí),我們構(gòu)建并發(fā)布 SceneSplat-7K。數(shù)據(jù)來(lái)源覆蓋 7 個(gè)權(quán)威室內(nèi)數(shù)據(jù)集:ARKitScenes、Replica、ScanNet、ScanNet++(含 v2)、Hypersim、3RScan、Matterport3D,統(tǒng)一轉(zhuǎn)化為 3DGS 表示,形成跨真實(shí)與合成場(chǎng)景的多樣化數(shù)據(jù)集。
SceneSplat-7K 包含7,916 個(gè)處理后的 3DGS 場(chǎng)景、總計(jì) 112.7 億個(gè)高斯點(diǎn),單場(chǎng)景均值約 142 萬(wàn);對(duì)應(yīng) 472 萬(wàn)張 RGB 訓(xùn)練幀。整體重建質(zhì)量達(dá)到 PSNR 29.64 dB、平均 Depth-L1 0.035 m,在保持高保真外觀的同時(shí)兼顧幾何準(zhǔn)確性。該數(shù)據(jù)集的構(gòu)建開(kāi)銷等效 NVIDIA L4 150 個(gè) GPU-days。具體信息如下表所示。
表 1:數(shù)據(jù)集數(shù)據(jù)。
開(kāi)放詞匯語(yǔ)義標(biāo)注
我們使用了一套穩(wěn)定、快速的系統(tǒng)來(lái)標(biāo)注 3DGS 的語(yǔ)義信息。首先用 SAMv2 做物體級(jí)分割、SigLIP2提取視覺(jué) - 語(yǔ)言特征,再借助 Occam’s LGS 將多視角 2D 特征高效 “抬升” 到 3DGS 上,得到穩(wěn)定的高斯 - 語(yǔ)言特征對(duì),為后續(xù)預(yù)訓(xùn)練提供監(jiān)督;預(yù)訓(xùn)練的編碼器僅依賴 3DGS 參數(shù)與鄰域信息,即可學(xué)習(xí)到豐富的語(yǔ)義表示,無(wú)需在推理時(shí)再做 2D 融合。
SceneSplat 預(yù)訓(xùn)練
在得到大規(guī)模帶標(biāo)注的 3DGS 數(shù)據(jù)集后,我們希望訓(xùn)練一個(gè)高參數(shù)量的 Transformer 編碼器來(lái)預(yù)訓(xùn)練 3DGS 數(shù)據(jù)。根據(jù)數(shù)據(jù)的不同特征,我們提供了兩個(gè)不同的訓(xùn)練路線。在有語(yǔ)義標(biāo)注的情況下,我們進(jìn)行了視覺(jué) - 語(yǔ)言預(yù)訓(xùn)練,使得網(wǎng)絡(luò)可以直接輸出與 CLIP/SigLip 對(duì)齊的特征,便于進(jìn)行開(kāi)放詞匯測(cè)試;對(duì)于沒(méi)有語(yǔ)義標(biāo)注的數(shù)據(jù),我們直接根據(jù)原有 3DGS 參數(shù)進(jìn)行自監(jiān)督訓(xùn)練,釋放無(wú)標(biāo)注場(chǎng)景的學(xué)習(xí)潛力。
圖 2. SceneSplat 同時(shí)支持視覺(jué) - 語(yǔ)言預(yù)訓(xùn)練與自監(jiān)督預(yù)訓(xùn)練。
視覺(jué) - 語(yǔ)言預(yù)訓(xùn)練
我們采用分層 Transformer 編解碼器:以高斯為 token,結(jié)合 kNN 半徑構(gòu)圖形成鄰域注意力;解碼回歸維度為 d 的語(yǔ)義向量。訓(xùn)練目標(biāo)由兩部分損失函數(shù)組成:
- 損失函數(shù):對(duì)每個(gè)高斯的預(yù)測(cè)嵌入 z_i 與監(jiān)督嵌入 z ?_i 同時(shí)施加余弦損失與 L2 損失,穩(wěn)定對(duì)齊方向與尺度;
- 對(duì)比學(xué)習(xí)(后期啟用):在訓(xùn)練后段加入 InfoNCE,并對(duì)同類高斯進(jìn)行類內(nèi)聚合(prototype pooling)后再對(duì)比,強(qiáng)化類間可分性。在訓(xùn)練后期加入可以顯著避免早起損失函數(shù)震蕩過(guò)高的問(wèn)題。
- 推理與后處理。給定文本查詢 t 的向量 y_t,與每個(gè)高斯嵌入做余弦相似度匹配即可得到正確的 query;考慮測(cè)試點(diǎn)集與高斯中心不完全重合,使用 kNN 投票(默認(rèn) k 為幾十)在空間上聚合,得到正確的推理。
GaussianSSL:自監(jiān)督訓(xùn)練
實(shí)際上,絕大多數(shù) 3D 重建的場(chǎng)景沒(méi)有語(yǔ)義標(biāo)注,借用 2D foundation model 來(lái)進(jìn)行標(biāo)注也十分昂貴。我們提出另一種自監(jiān)督訓(xùn)練方法來(lái)得到可泛化的 3DGS 表征。
1. Masked Gaussian Modeling(MGM)
對(duì) 3DGS 隨機(jī)高比例掩碼,僅向模型提供可見(jiàn)子集與拓?fù)溧徲蛐畔?;解碼器重建被掩的核心參數(shù)(如中心、尺度、旋轉(zhuǎn)、顏色、不透明度等)。不同量綱采用分量歸一化與多任務(wù)加權(quán)(L1/L2 結(jié)合),鼓勵(lì)網(wǎng)絡(luò)同時(shí)理解幾何與外觀,并學(xué)習(xí)到對(duì)噪聲與稀疏采樣魯棒的局部結(jié)構(gòu)先驗(yàn)。
2. Self-Distillation Learning(自蒸餾)
采用教師 - 學(xué)生框架與多種 3D 數(shù)據(jù)增廣(旋轉(zhuǎn)、尺度抖動(dòng)、點(diǎn)擾動(dòng)、隨機(jī)子采樣)。在全局表征與局部 token 兩級(jí)施加一致性損失(余弦 / 分布對(duì)齊),并配合輕量正則化(如避免坍塌的熵 / 編碼率約束),獲得對(duì)增廣不變的判別性特征。教師以動(dòng)量更新,穩(wěn)定訓(xùn)練并提升大規(guī)模數(shù)據(jù)上的收斂性。
3. Language–Gaussian Alignment(可選)
當(dāng)場(chǎng)景具備 VL 標(biāo)簽時(shí),引入輕量語(yǔ)言對(duì)齊作為輔助頭:先將高維 VLM 嵌入通過(guò)自編碼器 / 線性頭降維,再僅對(duì) Mask 區(qū)域施加低維對(duì)齊損失,使 MGM 的結(jié)構(gòu)重建與語(yǔ)義對(duì)齊協(xié)同而非相互干擾。該分支可按數(shù)據(jù)可得性按需啟用,確保無(wú)標(biāo)注與弱標(biāo)注數(shù)據(jù)都能納入統(tǒng)一訓(xùn)練。
實(shí)驗(yàn)結(jié)果
定量實(shí)驗(yàn)
如表 2 所示,我們的方法在 ScanNet200、ScanNetpp 和 Matterport3D 的零樣本語(yǔ)義分割上面都達(dá)到了 SOTA 的效果。
表 2:零樣本 3D 語(yǔ)義分割
在無(wú)監(jiān)督預(yù)訓(xùn)練后,我們測(cè)試了 GaussianSSL 的語(yǔ)義分割效果,結(jié)果如表 3 所示,在 ScanNet 和 ScanNetpp 數(shù)據(jù)集中均達(dá)到了 SOTA 的效果。
表 3: 語(yǔ)義分割結(jié)果
定性實(shí)驗(yàn)
在做可視化的時(shí)候,我們發(fā)現(xiàn)了很多很有趣的結(jié)果,如圖 3 所示,本身的 3D 語(yǔ)義標(biāo)注會(huì)將相同的桌子打上不同的標(biāo)簽,但是經(jīng)過(guò)訓(xùn)練后,我們的模型可以很干凈的分割出來(lái)完整的桌子。
圖 3. 在 ScanNetpp 上的零樣本預(yù)測(cè)可視化。
在圖 4 中,我們展示了模型零樣本 Query 的能力,一些類別,比如 Robot Arm 是在原數(shù)據(jù)集中不存在的,但是經(jīng)過(guò) SceneSplat 預(yù)訓(xùn)練后,我們可以很好的識(shí)別 Out of Distribution 的物體。圖 5 中我們測(cè)試了物體屬性 query,證明了我們的模型也能很好的 model attribute。更多的實(shí)驗(yàn)結(jié)果請(qǐng)參考我們?cè)摹?/p>
圖 4. 文本 query 結(jié)果。
圖 5(左):“Vacation” --> “Travel Guide”,(右):“Art”-->“Painting”。
后期工作
我們繼續(xù)將 SceneSplat-7K 數(shù)據(jù)集拓展成了 SceneSplat-49K,并且在多個(gè) dataset 上進(jìn)行了系統(tǒng)的 3DGS 和語(yǔ)義結(jié)合的工作的 benchmarking,歡迎大家繼續(xù)關(guān)注 SceneSplat++ :https://arxiv.org/abs/2506.08710。
主要作者簡(jiǎn)介:
李躍,阿姆斯特丹大學(xué)博士二年級(jí)學(xué)生,分別于蘇黎世聯(lián)邦理工學(xué)院和上海交通大學(xué)獲得碩士和學(xué)士學(xué)位,主要研究方向?yàn)樵诰€稠密重建和 3D 場(chǎng)景理解。
馬麒,蘇黎世聯(lián)邦理工INSAIT共同培養(yǎng)博士二年級(jí)學(xué)生,本科畢業(yè)于上海交通大學(xué)和碩士畢業(yè)于蘇黎世聯(lián)邦理工,主要研究方向是 3D 重建和理解方向,目前在 ICCV, CVPR, Neurips 等國(guó)際會(huì)議發(fā)表多篇論文。
楊潤(rùn)一,INSAIT 博士生,導(dǎo)師為 Dr. Danda Paudel 和 Prof. Luc Van Gool,碩士畢業(yè)于帝國(guó)理工學(xué)院 MRes AIML,本科畢業(yè)于北京理工大學(xué)自動(dòng)化專業(yè)。曾在索尼 Pixomondo Innovation Lab 擔(dān)任研究員。主要研究方向?yàn)槿S重建、場(chǎng)景理解和生成。CICAI 2023 獲得 Best Paper Runner-up 獎(jiǎng)項(xiàng)。
馬夢(mèng)姣,INSAIT 計(jì)算機(jī)科學(xué)與人工智能研究所博士生,學(xué)士畢業(yè)于南京航空航天大學(xué),主要研究興趣為三維場(chǎng)景理解。
任斌,比薩大學(xué)和特倫托大學(xué)聯(lián)合培養(yǎng) “意大利國(guó)家 AI 博士” 項(xiàng)目博士生,INSAIT 和蘇黎世聯(lián)邦理工訪問(wèn)學(xué)者,此前分別于北京大學(xué)和中南大學(xué)獲得碩士和學(xué)士學(xué)位。主要研究方向?yàn)楸碚鲗W(xué)習(xí),場(chǎng)景理解,以及多模態(tài)推理。
Luc Van Gool 教授是計(jì)算機(jī)視覺(jué)與人工智能領(lǐng)域的國(guó)際頂尖學(xué)者,現(xiàn)任 INSAIT 全職教授,曾任蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)和比利時(shí)魯汶大學(xué)(KU Leuven)教授,同時(shí)領(lǐng)導(dǎo)多個(gè)跨學(xué)科研究團(tuán)隊(duì)。他的研究涵蓋三維視覺(jué)、物體與場(chǎng)景識(shí)別、生成建模以及智能系統(tǒng)等方向,發(fā)表了數(shù)百篇在 CVPR、ICCV、ECCV、NeurIPS 等頂級(jí)會(huì)議和期刊上的論文,共計(jì) 25 萬(wàn) + 引用,H-index 207。
INSAIT 簡(jiǎn)介:
INSAIT(Institute for Computer Science, Artificial Intelligence and Technology)成立于 2022 年、坐落保加利亞索菲亞,面向計(jì)算機(jī)科學(xué)與人工智能的前沿基礎(chǔ)與系統(tǒng)研究,方向覆蓋計(jì)算機(jī)視覺(jué)、機(jī)器人、自然語(yǔ)言處理、安全與可信 AI、量子計(jì)算、算法與理論及信息安全;與ETH Zürich、EPFL 建立戰(zhàn)略合作,師資與博士后來(lái)自 ETH、EPFL、CMU、MIT 等頂尖院校。研究院與 Google、華為、AWS、Toyota、vivo 等開(kāi)展產(chǎn)學(xué)協(xié)同,并參與歐盟 “AI 工廠” 計(jì)劃(總額 €90M)。近年學(xué)術(shù)產(chǎn)出亮眼:ICCV’25 接收 13 篇、CVPR’25 接收 7 篇、CVPR’24 接收 16 篇,獲 FOCS’24 最佳論文。INSAIT 長(zhǎng)期招募 Faculty、PostDoc、PhD 與 RA(可 host 碩士畢設(shè)),提供具競(jìng)爭(zhēng)力的資助與支持,并提供往返機(jī)票與住宿,科研環(huán)境開(kāi)放、高效、國(guó)際化。歡迎私信了解更多情況~
近期招生信息:
博士研究生招生信息 | INSAIT & Google 聯(lián)合項(xiàng)目
我們正在招收多名博士研究生,研究方向?yàn)椋夯诙嗄B(tài)模型的 Egocentric(第一人稱)視頻理解。
本項(xiàng)目由 INSAIT 與 Google 聯(lián)合支持,為有志于在人工智能與計(jì)算機(jī)視覺(jué)前沿領(lǐng)域深造的同學(xué)提供優(yōu)越的研究環(huán)境與資源支持。
申請(qǐng)方式
請(qǐng)通過(guò) INSAIT PhD 招生頁(yè)面 https://insait.ai/phd/ 提交申請(qǐng),并注明 【INSAIT-Google-Egocentric】;
如有相關(guān)問(wèn)題,可郵件聯(lián)系 yuqian.fu@insait.ai。
我們熱忱歡迎對(duì) Egocentric 視頻理解與多模態(tài) AI 充滿興趣的同學(xué)加入!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.