機器之心報道
編輯:冷貓
如果你擁有了龐大的三維空間數(shù)據(jù),你會用來做什么?
大模型時代之后,數(shù)據(jù)成了支撐模型的承重柱。能否獲取足夠的可用高質(zhì)量數(shù)據(jù),直接決定了某個領(lǐng)域的 AI 的發(fā)展上限。
而有了足夠的數(shù)據(jù),構(gòu)建一個強大的大模型和生成模型,似乎總是水到渠成的事情。
想想看,視頻生成模型里,可靈即夢等高質(zhì)量模型,都是依托最大的視頻內(nèi)容 UGC 平臺的海量數(shù)據(jù)而生的。這些數(shù)據(jù)自然也成為了模型進步最大優(yōu)勢。
數(shù)據(jù)可以用來訓(xùn)練模型,這些模型又可以進一步強化工具的能力,以此形成了數(shù)據(jù)飛輪,在三個環(huán)節(jié)(工具、數(shù)據(jù)、模型)相互循環(huán)。
在三維領(lǐng)域,數(shù)據(jù)一直是困擾人工智能對空間理解的長期問題。在昨天,我們應(yīng)邀參加了「杭州六小龍」之一群核科技的首屆 TechDay,看到了在室內(nèi)空間設(shè)計領(lǐng)域的企業(yè)對于空間智能的思考。
我們想象的人工智能改變生活,都希望人工智能幫助我們打掃衛(wèi)生做飯,我們可以吟詩作畫。但現(xiàn)在反過來了,人工智能在吟詩作畫,我們在那邊打掃衛(wèi)生
要實現(xiàn)對人工智能改變生活的美好愿景,必須讓人工智能從數(shù)字世界走向物理世界。
群核科技的聯(lián)合創(chuàng)始人黃曉煌認(rèn)為,「空間智能是非常關(guān)鍵的橋梁。」
首席科學(xué)家周子寒在演講中提到:「群核空間大模型可以用這三個特點來描述,第一是真實感的全息漫游,第二是結(jié)構(gòu)化可交互,第三是復(fù)雜的室內(nèi)場景?!?/p>
在這次的活動中,他們?yōu)榭臻g智能發(fā)布了兩個模型,一個空間語言模型和一個空間生成模型。
空間作為語言訓(xùn)練
大模型助力數(shù)據(jù)合成
大語言模型的最大優(yōu)勢就是語言的理解和輸出,三維世界是否也能作為一門語言讓大模型去學(xué)習(xí)呢?
今年 3 月的 SpatialLM 的空間理解模型,是基于大語言模型訓(xùn)練的。當(dāng)輸入一段視頻時,模型能夠提取這個視頻當(dāng)中的空間信息,用一段文本的形式將這個空間當(dāng)中的物體方位和類別解釋出來,在開源不久登上了 Hugging Face 趨勢榜的前三名。
這一次 SpatialLM 1.5 有了一次巨大的飛躍,被稱為空間語言模型。在采用Qwen3 作為底層模型的基礎(chǔ)上,疊加了3D 空間描述語言能力構(gòu)建增強型模型,使其既能理解自然語言,又能以類編程語言(如 Python)的結(jié)構(gòu)化方式對室內(nèi)場景進行理解、推理和編輯。
簡單來說,就是大模型學(xué)會了空間語言。空間語言是一種結(jié)構(gòu)化的語言,就像參數(shù)列一樣,用數(shù)學(xué)的長、寬、高或 X、Y、Z 的方式去描述每一個物體在空間中的位置,描述物體類別,甚至可以從一個已有的素材庫中找到對應(yīng)的模型 ID,通過空間語言的描述就可以去獲得整個場景的完整的 3D 信息。
空間語言模型 SpatialLM1.5 能力示意圖
支持用戶通過對話交互系統(tǒng) SpatialLM-Chat 進行可交互場景的端到端生成。
例如,當(dāng)用戶輸入簡單文本描述時,SpatialLM 1.5 可自動生成結(jié)構(gòu)化場景腳本,智能匹配家具模型并完成布局,并支持后續(xù)通過自然語言進行問答或編輯。
patialLM-Chat 演示
視頻中展示了從戶型圖生成結(jié)構(gòu)正確的房間信息,通過語言指令生成不同房間場景的家具,甚至完成移動路徑的規(guī)劃。
SpatialLM 1.5 生成的場景富含物理正確的結(jié)構(gòu)化信息,且能快速批量輸出大量符合要求的多樣化場景,可用于機器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場景,讓具身智能的數(shù)據(jù)合成變的更加簡單
場景數(shù)據(jù)實現(xiàn)「時空一致」
3DGS 渲染沉浸視頻
SpatialGen 生成場景渲染的漫游視頻
在剛進入 TechDay 會場的時候,每個人都領(lǐng)了一張小卡片,在演示設(shè)備前刷下卡,就能看到對應(yīng)的三維漫游場景。
在視頻演示中,我們發(fā)現(xiàn)了明顯的 3DGS 渲染特征,存在一些空間高斯點云的渲染模糊。但是,隨著鏡頭的運動,這個三維場景表現(xiàn)出了驚人的「時空一致性」,并且隨著鏡頭大范圍的運動,3DGS 渲染常見的偽影、模糊、形變失真等現(xiàn)象也沒有出現(xiàn)。
這一切都是由基于擴散模型架構(gòu)的多視角圖像生成模型 SpatialGen 來實現(xiàn)的。
如果說 SpatialLM 解決的是「理解與交互」問題,那么 SpatialGen 則專注于「生成與呈現(xiàn)」。
SpatialGen 依托群核科技海量室內(nèi) 3D 場景數(shù)據(jù)與多視角擴散模型技術(shù),其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準(zhǔn)確的空間屬性和物理關(guān)系。
群核空間生成模型 SpatialGen 數(shù)據(jù)集情況
在實現(xiàn)細(xì)節(jié)方面,首席科學(xué)家周子寒在演講中闡述了基本原理。其輸入是場景的一張原圖,以及場景布局圖。輸出則是相應(yīng)場景的多視角圖像,也可以進行深度圖、語義圖等其他類別的輸出。
SpatialGen 模型架構(gòu)
SpatialGen 可以生成任意視角圖片,可以從一張圖片生成八張圖片,通過環(huán)形的視角的限定,它就會去盡量生成不同視角的圖片,模擬相機在空間中的旋轉(zhuǎn)。也可以基于這些圖片再去生成更多圖片,生成更多圖片時可以用不同相機的約定的軌跡,這樣就可以去生成更加復(fù)雜的運鏡。
有了多視角圖像結(jié)果,就可以通過一個開源的高斯重建的算法(AnySplat)重建高斯點云,隨后可以進行視頻的渲染,最終得到了一個漫游視頻。
SpatialGen 的三大技術(shù)優(yōu)勢
- 大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù)集:由于開源 3D 場景數(shù)據(jù)稀缺,已有的工作在算法選擇上受限,一般通過蒸餾 2D 生成模型,導(dǎo)致結(jié)果視覺真實性不足;基于群核數(shù)據(jù)集,能夠設(shè)計并訓(xùn)練面向場景的多視角擴散模型(multi-view diffusion model)以生成高質(zhì)量圖像。
- 靈活視角選擇:已有方法基于全景圖生成還原,3D 場景完整性較差;或基于視頻底模,無法支持相機運動控制等。
- 參數(shù)化布局可控生成:基于參數(shù)化布局生成,未來可支持更豐富的結(jié)構(gòu)化場景信息控制。
針對 3DGS 的場景生成的問題,機器之心在技術(shù)交流會上與周子寒教授進行了一些技術(shù)上的交流:
機器之心:3DGS 生成領(lǐng)域中,傳統(tǒng)的方法都是從圖像生成的技術(shù)去入手做一個 3D 高斯生成,始終無法擺脫多視角生成圖像的一致性問題。對于 SpatialGen 而言,使用了大量數(shù)據(jù)集,在多視角圖像一致性上群核科技是否仍在用 Scaling Law 取得進步,在未來我們是不是有新的進步空間?
周子寒:對,現(xiàn)在的多視角的生成模型還是基于圖像生成的,它之所以能呈現(xiàn)比較好的空間一致性,更多是依賴于我們在室內(nèi)空間數(shù)據(jù)方面的優(yōu)勢,我們可以很高效地獲取非常多的任意視角的圖片進行訓(xùn)練,當(dāng)你在訓(xùn)練了足夠久的時間以后,未來我們可以繼續(xù)去 scale up,空間一致性也會做得越來越好。
這里有一些與視頻模型不同的點,我們一開始就不想讓這樣的一個模型受到時間軸的約束,而是讓它在空間當(dāng)中能隨意跳躍。這種隨意跳躍在工作流當(dāng)中做任意的運鏡視頻的時候,會比純視頻模型,一定要從 A 到 B 的固定過程,要更加方便,這是一種新的視角,并不代表著新的技術(shù)路線。
當(dāng)你去反復(fù)迭代使用時,這個東西顯然不是無止境的,當(dāng)你用了幾輪以后,一致性一定會受到影響,我們相信 scaling law 一定會讓它越做越好,但無法從根本上去消除這樣的東西,就像你說的那樣。
機器之心:如果依靠群核科技的三維數(shù)據(jù)集是否會有些進步,例如從文本直接到三維,而不經(jīng)過二維圖像的過程。
周子寒:我們有在探索這樣一條路線,希望能將文本和 3DGS,或是 3D 表征直接去做一個連接,而不用中間的這一個多視角圖像的東西。
目前來看,它有一個視覺效果與空間一致性的 trade off,如果用圖像作為中間過程的視覺效果會好很多,如果直接從文本到 3D 的話,目前視覺效果稍微差了一點,這是在我們自己的過程當(dāng)中(發(fā)現(xiàn))的,這是兩個不同的技術(shù)路線,在未來一定會有新突破。
開源方向的思考
目前,在空間語言模型,從參數(shù)量而言仍處于 GPT-2 的階段。雖然空間大模型能夠彌補現(xiàn)有模型能力的很多缺陷,但空間大模型的 chatGPT 時代還遠未到來。
群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌表達了一個明確的觀點:
「目前空間智能肯定還是在一個發(fā)展的初期階段的,我覺得任何一家公司都不可能獨享這個市場,所以我們在不斷地開源數(shù)據(jù)、模型,我們希望跟全細(xì)節(jié)最聰明的大腦,全世界最有創(chuàng)新能力的人一起將這個 “蛋糕” 做大。」
在與周子寒教授的交流中,他也表示說:
「我們在設(shè)計的時候,刻意地讓資產(chǎn)庫與模型本身是解耦的,可以讓這個模型去對接任何的資產(chǎn)庫。這個東西跟群核自己的資產(chǎn)庫并沒有任何特定的綁定關(guān)系,這是為什么我們可以將整個系統(tǒng)做開源的原因,只要大家用任何的資產(chǎn)庫都可以同樣使用。」
SpatialGen 已面向全球開源,可在以下開源網(wǎng)站下載并部署使用:
- Hugging Face:https://huggingface.co/manycore-research/SpatialGen-1.0
- Github:https://github.com/manycore-research/SpatialGen
- 魔搭社區(qū):https://modelscope.cn/models/manycore-research/SpatialGen-1.0
隨著越來越多優(yōu)秀的方法和高質(zhì)量的數(shù)據(jù)集開源,不僅推動了不同 AI 領(lǐng)域的發(fā)展,也為研究社區(qū)帶來了更多交流與碰撞的機會,催生新的靈感與突破,始終是一件令人振奮的事。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.