網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

將數(shù)據(jù)優(yōu)勢發(fā)揮到極致：「杭州六小龍」開源搭建空間智能的第一步

2025-08-26 19:18:46　來源: 機器之心Pro

河北舉報

分享至

機器之心報道

編輯：冷貓

如果你擁有了龐大的三維空間數(shù)據(jù)，你會用來做什么？

大模型時代之后，數(shù)據(jù)成了支撐模型的承重柱。能否獲取足夠的可用高質(zhì)量數(shù)據(jù)，直接決定了某個領(lǐng)域的 AI 的發(fā)展上限。

而有了足夠的數(shù)據(jù)，構(gòu)建一個強大的大模型和生成模型，似乎總是水到渠成的事情。

想想看，視頻生成模型里，可靈即夢等高質(zhì)量模型，都是依托最大的視頻內(nèi)容 UGC 平臺的海量數(shù)據(jù)而生的。這些數(shù)據(jù)自然也成為了模型進步最大優(yōu)勢。

數(shù)據(jù)可以用來訓(xùn)練模型，這些模型又可以進一步強化工具的能力，以此形成了數(shù)據(jù)飛輪，在三個環(huán)節(jié)（工具、數(shù)據(jù)、模型）相互循環(huán)。

在三維領(lǐng)域，數(shù)據(jù)一直是困擾人工智能對空間理解的長期問題。在昨天，我們應(yīng)邀參加了「杭州六小龍」之一群核科技的首屆 TechDay，看到了在室內(nèi)空間設(shè)計領(lǐng)域的企業(yè)對于空間智能的思考。

我們想象的人工智能改變生活，都希望人工智能幫助我們打掃衛(wèi)生做飯，我們可以吟詩作畫。但現(xiàn)在反過來了，人工智能在吟詩作畫，我們在那邊打掃衛(wèi)生

要實現(xiàn)對人工智能改變生活的美好愿景，必須讓人工智能從數(shù)字世界走向物理世界。

群核科技的聯(lián)合創(chuàng)始人黃曉煌認(rèn)為，「空間智能是非常關(guān)鍵的橋梁。」

首席科學(xué)家周子寒在演講中提到：「群核空間大模型可以用這三個特點來描述，第一是真實感的全息漫游，第二是結(jié)構(gòu)化可交互，第三是復(fù)雜的室內(nèi)場景?！?/p>

在這次的活動中，他們?yōu)榭臻g智能發(fā)布了兩個模型，一個空間語言模型和一個空間生成模型。

空間作為語言訓(xùn)練

大模型助力數(shù)據(jù)合成

大語言模型的最大優(yōu)勢就是語言的理解和輸出，三維世界是否也能作為一門語言讓大模型去學(xué)習(xí)呢？

今年 3 月的 SpatialLM 的空間理解模型，是基于大語言模型訓(xùn)練的。當(dāng)輸入一段視頻時，模型能夠提取這個視頻當(dāng)中的空間信息，用一段文本的形式將這個空間當(dāng)中的物體方位和類別解釋出來，在開源不久登上了 Hugging Face 趨勢榜的前三名。

這一次 SpatialLM 1.5 有了一次巨大的飛躍，被稱為空間語言模型。在采用Qwen3 作為底層模型的基礎(chǔ)上，疊加了3D 空間描述語言能力構(gòu)建增強型模型，使其既能理解自然語言，又能以類編程語言（如 Python）的結(jié)構(gòu)化方式對室內(nèi)場景進行理解、推理和編輯。

簡單來說，就是大模型學(xué)會了空間語言。空間語言是一種結(jié)構(gòu)化的語言，就像參數(shù)列一樣，用數(shù)學(xué)的長、寬、高或 X、Y、Z 的方式去描述每一個物體在空間中的位置，描述物體類別，甚至可以從一個已有的素材庫中找到對應(yīng)的模型 ID，通過空間語言的描述就可以去獲得整個場景的完整的 3D 信息。

空間語言模型 SpatialLM1.5 能力示意圖

支持用戶通過對話交互系統(tǒng) SpatialLM-Chat 進行可交互場景的端到端生成。

例如，當(dāng)用戶輸入簡單文本描述時，SpatialLM 1.5 可自動生成結(jié)構(gòu)化場景腳本，智能匹配家具模型并完成布局，并支持后續(xù)通過自然語言進行問答或編輯。

patialLM-Chat 演示

視頻中展示了從戶型圖生成結(jié)構(gòu)正確的房間信息，通過語言指令生成不同房間場景的家具，甚至完成移動路徑的規(guī)劃。

SpatialLM 1.5 生成的場景富含物理正確的結(jié)構(gòu)化信息，且能快速批量輸出大量符合要求的多樣化場景，可用于機器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場景，讓具身智能的數(shù)據(jù)合成變的更加簡單

場景數(shù)據(jù)實現(xiàn)「時空一致」

3DGS 渲染沉浸視頻

SpatialGen 生成場景渲染的漫游視頻

在剛進入 TechDay 會場的時候，每個人都領(lǐng)了一張小卡片，在演示設(shè)備前刷下卡，就能看到對應(yīng)的三維漫游場景。

在視頻演示中，我們發(fā)現(xiàn)了明顯的 3DGS 渲染特征，存在一些空間高斯點云的渲染模糊。但是，隨著鏡頭的運動，這個三維場景表現(xiàn)出了驚人的「時空一致性」，并且隨著鏡頭大范圍的運動，3DGS 渲染常見的偽影、模糊、形變失真等現(xiàn)象也沒有出現(xiàn)。

這一切都是由基于擴散模型架構(gòu)的多視角圖像生成模型 SpatialGen 來實現(xiàn)的。

如果說 SpatialLM 解決的是「理解與交互」問題，那么 SpatialGen 則專注于「生成與呈現(xiàn)」。

SpatialGen 依托群核科技海量室內(nèi) 3D 場景數(shù)據(jù)與多視角擴散模型技術(shù)，其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準(zhǔn)確的空間屬性和物理關(guān)系。

群核空間生成模型 SpatialGen 數(shù)據(jù)集情況

在實現(xiàn)細(xì)節(jié)方面，首席科學(xué)家周子寒在演講中闡述了基本原理。其輸入是場景的一張原圖，以及場景布局圖。輸出則是相應(yīng)場景的多視角圖像，也可以進行深度圖、語義圖等其他類別的輸出。

SpatialGen 模型架構(gòu)

SpatialGen 可以生成任意視角圖片，可以從一張圖片生成八張圖片，通過環(huán)形的視角的限定，它就會去盡量生成不同視角的圖片，模擬相機在空間中的旋轉(zhuǎn)。也可以基于這些圖片再去生成更多圖片，生成更多圖片時可以用不同相機的約定的軌跡，這樣就可以去生成更加復(fù)雜的運鏡。

有了多視角圖像結(jié)果，就可以通過一個開源的高斯重建的算法（AnySplat）重建高斯點云，隨后可以進行視頻的渲染，最終得到了一個漫游視頻。

SpatialGen 的三大技術(shù)優(yōu)勢

大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù)集：由于開源 3D 場景數(shù)據(jù)稀缺，已有的工作在算法選擇上受限，一般通過蒸餾 2D 生成模型，導(dǎo)致結(jié)果視覺真實性不足；基于群核數(shù)據(jù)集，能夠設(shè)計并訓(xùn)練面向場景的多視角擴散模型（multi-view diffusion model）以生成高質(zhì)量圖像。
靈活視角選擇：已有方法基于全景圖生成還原，3D 場景完整性較差；或基于視頻底模，無法支持相機運動控制等。
參數(shù)化布局可控生成：基于參數(shù)化布局生成，未來可支持更豐富的結(jié)構(gòu)化場景信息控制。

針對 3DGS 的場景生成的問題，機器之心在技術(shù)交流會上與周子寒教授進行了一些技術(shù)上的交流：

機器之心：3DGS 生成領(lǐng)域中，傳統(tǒng)的方法都是從圖像生成的技術(shù)去入手做一個 3D 高斯生成，始終無法擺脫多視角生成圖像的一致性問題。對于 SpatialGen 而言，使用了大量數(shù)據(jù)集，在多視角圖像一致性上群核科技是否仍在用 Scaling Law 取得進步，在未來我們是不是有新的進步空間？

周子寒：對，現(xiàn)在的多視角的生成模型還是基于圖像生成的，它之所以能呈現(xiàn)比較好的空間一致性，更多是依賴于我們在室內(nèi)空間數(shù)據(jù)方面的優(yōu)勢，我們可以很高效地獲取非常多的任意視角的圖片進行訓(xùn)練，當(dāng)你在訓(xùn)練了足夠久的時間以后，未來我們可以繼續(xù)去 scale up，空間一致性也會做得越來越好。

這里有一些與視頻模型不同的點，我們一開始就不想讓這樣的一個模型受到時間軸的約束，而是讓它在空間當(dāng)中能隨意跳躍。這種隨意跳躍在工作流當(dāng)中做任意的運鏡視頻的時候，會比純視頻模型，一定要從 A 到 B 的固定過程，要更加方便，這是一種新的視角，并不代表著新的技術(shù)路線。

當(dāng)你去反復(fù)迭代使用時，這個東西顯然不是無止境的，當(dāng)你用了幾輪以后，一致性一定會受到影響，我們相信 scaling law 一定會讓它越做越好，但無法從根本上去消除這樣的東西，就像你說的那樣。

機器之心：如果依靠群核科技的三維數(shù)據(jù)集是否會有些進步，例如從文本直接到三維，而不經(jīng)過二維圖像的過程。

周子寒：我們有在探索這樣一條路線，希望能將文本和 3DGS，或是 3D 表征直接去做一個連接，而不用中間的這一個多視角圖像的東西。

目前來看，它有一個視覺效果與空間一致性的 trade off，如果用圖像作為中間過程的視覺效果會好很多，如果直接從文本到 3D 的話，目前視覺效果稍微差了一點，這是在我們自己的過程當(dāng)中（發(fā)現(xiàn)）的，這是兩個不同的技術(shù)路線，在未來一定會有新突破。

開源方向的思考

目前，在空間語言模型，從參數(shù)量而言仍處于 GPT-2 的階段。雖然空間大模型能夠彌補現(xiàn)有模型能力的很多缺陷，但空間大模型的 chatGPT 時代還遠未到來。

群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌表達了一個明確的觀點：

「目前空間智能肯定還是在一個發(fā)展的初期階段的，我覺得任何一家公司都不可能獨享這個市場，所以我們在不斷地開源數(shù)據(jù)、模型，我們希望跟全細(xì)節(jié)最聰明的大腦，全世界最有創(chuàng)新能力的人一起將這個 “蛋糕” 做大。」

在與周子寒教授的交流中，他也表示說：

「我們在設(shè)計的時候，刻意地讓資產(chǎn)庫與模型本身是解耦的，可以讓這個模型去對接任何的資產(chǎn)庫。這個東西跟群核自己的資產(chǎn)庫并沒有任何特定的綁定關(guān)系，這是為什么我們可以將整個系統(tǒng)做開源的原因，只要大家用任何的資產(chǎn)庫都可以同樣使用。」

SpatialGen 已面向全球開源，可在以下開源網(wǎng)站下載并部署使用：

Hugging Face：https://huggingface.co/manycore-research/SpatialGen-1.0
Github：https://github.com/manycore-research/SpatialGen
魔搭社區(qū)：https://modelscope.cn/models/manycore-research/SpatialGen-1.0

隨著越來越多優(yōu)秀的方法和高質(zhì)量的數(shù)據(jù)集開源，不僅推動了不同 AI 領(lǐng)域的發(fā)展，也為研究社區(qū)帶來了更多交流與碰撞的機會，催生新的靈感與突破，始終是一件令人振奮的事。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.