智東西
作者 ZeR0
編輯 漠影
智東西8月25日?qǐng)?bào)道,AI不僅能生成文章、圖像和視頻,還能生成可以動(dòng)的室內(nèi)空間設(shè)計(jì)了!
只需用文字描述3D空間,或者上傳一張戶(hù)型圖,你就能讓AI創(chuàng)建出一個(gè)可交互的3D室內(nèi)空間。
問(wèn)客廳一共幾個(gè)門(mén),AI迅速給出答案“6扇門(mén)”。你也可以上難度,一句話(huà)讓它生成適合老人居住的客廳:
AI能意識(shí)到“老人居住”需要的防滑扶手以及家具擺放方式,化身虛擬室內(nèi)空間設(shè)計(jì)師,直接替你把防滑扶手、桌椅、窗簾、冰箱、落地?zé)舻榷疾贾煤昧恕?/p>
你還可以要求更改細(xì)節(jié),比如加一些裝飾畫(huà):
或者提出更具體的要求,例如讓AI生成一個(gè)適合老人居住的臥室,并需要一個(gè)帶扶手的單人床,AI會(huì)立即生成滿(mǎn)足訴求的新布局:
讓AI規(guī)劃從臥室床尾到餐桌邊的路徑,它能直接生成動(dòng)態(tài)的3D空間漫游演示:
批量生成也不在話(huà)下,比如讓AI生成三口之家的客廳,然后從AI輸出的多樣化設(shè)計(jì)稿中盡情挑選。
對(duì)比之下,以GPT-5為代表的大語(yǔ)言模型,輸出可視化空間布局的能力就顯現(xiàn)局限性了。
這么好用的空間生成與編輯能力,來(lái)自“杭州六小龍”之一群核科技剛剛發(fā)布的空間語(yǔ)言模型SpatialLM 1.5。
以前,群核科技的代表作是全球最大空間設(shè)計(jì)軟件酷家樂(lè)。如今,這家沖刺科創(chuàng)板“空間智能第一股”的杭州AI公司正在講出新故事。
在今日下午的群核科技首屆技術(shù)開(kāi)放日上,群核科技宣布開(kāi)源3D場(chǎng)景生成模型SpatialGen,即將開(kāi)源空間語(yǔ)言模型SpatialLM 1.5,并首次分享基于SpatialGen探索的AI視頻生成解決方案,旨在解決時(shí)空一致性難題。
群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌發(fā)布了群核科技空間智能全景圖。
傳統(tǒng)大語(yǔ)言模型對(duì)物理世界幾何與空間關(guān)系的理解存在局限性。而SpatialLM 1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語(yǔ)言”,可被用具身智能機(jī)器人的虛擬訓(xùn)練上,解決數(shù)據(jù)難題。
今年3月,SpatialLM1.5的前代版本、開(kāi)源空間理解模型SpatialLM 1.0曾與DeepSeek-V3-0324、Qwen2.5-Omni一起登上了全球最大AI開(kāi)源平臺(tái)Hugging Face的模型趨勢(shì)榜前三。
SpatialLM 1.5將很快以空間語(yǔ)言對(duì)話(huà)Agent “SpatialLM-Chat” 形式開(kāi)源。
SpatialGen已在Hugging Face、GitHub、魔搭開(kāi)源。
Hugging Face地址:https://huggingface.co/manycore-research/SpatialGen-1.0
Github地址:https://github.com/manycore-research/SpatialGen
魔搭地址:https://modelscope.cn/models/manycore-research/SpatialGen-1.0
群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚赏嘎?,群核科技正在做一個(gè)“SpatialGen + AI視頻創(chuàng)作”的內(nèi)部保密項(xiàng)目,代號(hào)X。
其基于3D技術(shù)的AI視頻生成產(chǎn)品計(jì)劃在今年發(fā)布,可能成為“全球首款深度融合3D能力的AI視頻生成Agent”。
他還現(xiàn)場(chǎng)播放了用該工具生成讓群核科技三位聯(lián)合創(chuàng)始人在不同場(chǎng)景中跳舞的搞笑視頻。
這個(gè)視頻呈現(xiàn)出幾個(gè)特點(diǎn):在有超過(guò)十個(gè)分鏡的情況下保持精準(zhǔn)的一致性,動(dòng)作沒(méi)有崩壞,能夠精準(zhǔn)卡點(diǎn),在復(fù)雜運(yùn)鏡下畫(huà)面內(nèi)容依然合理,并實(shí)現(xiàn)內(nèi)容可控性。
龍?zhí)鞚烧f(shuō),群核科技的愿景是,讓任何有創(chuàng)意想法并渴望將其視覺(jué)化的人,都可以利用AI 3D+視頻產(chǎn)品來(lái)釋放創(chuàng)造力。
會(huì)后,群核科技首席科學(xué)家周子寒進(jìn)一步詳細(xì)解釋了群核空間大模型的技術(shù)細(xì)節(jié)與特點(diǎn)。
一、啟動(dòng)空間智能飛輪戰(zhàn)略,邁向空間大模型的“DeepSeek時(shí)刻”
當(dāng)前AI仍主要局限于文本、圖像等二維交互領(lǐng)域,能夠完成寫(xiě)作、繪圖等任務(wù),但要實(shí)現(xiàn)諸如家務(wù)協(xié)助等三維空間操作,仍有相當(dāng)距離。
群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)分享了群核科技在空間智能布局上的最新思考。
黃曉煌談道,空間智能是AI從數(shù)字世界走向物理世界的關(guān)鍵橋梁。當(dāng)前空間大模型仍面臨三大技術(shù)挑戰(zhàn):室內(nèi)空間數(shù)據(jù)獲取比室外空間數(shù)據(jù)更困難、空間結(jié)構(gòu)復(fù)雜度高、具身智能等場(chǎng)景中的交互需求更高。
基于全球最大的空間設(shè)計(jì)平臺(tái)酷家樂(lè),群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,讓工具沉淀數(shù)據(jù),用數(shù)據(jù)加速模型訓(xùn)練,用模型提升工具體驗(yàn),再在工具的廣泛應(yīng)用中沉淀更為豐富的場(chǎng)景數(shù)據(jù)。
截至2025年6月30日,群核科技擁有包含超過(guò)4.41億個(gè)3D模型及超過(guò)5億個(gè)結(jié)構(gòu)化3D空間場(chǎng)景。
群核科技從2018年開(kāi)始開(kāi)源,逐步開(kāi)放其在數(shù)據(jù)和算法上的能力。
“開(kāi)源是我們戰(zhàn)略的重要關(guān)鍵詞之一。”黃曉煌說(shuō),“相比大語(yǔ)言模型,當(dāng)前空間大模型還處于初級(jí)階段。我們希望通過(guò)開(kāi)源推動(dòng)全球空間智能技術(shù)快速前進(jìn),成為全球空間智能服務(wù)提供商,推動(dòng)屬于空間大模型的‘DeepSeek時(shí)刻’盡快來(lái)臨?!?/p>
二、和視頻模型、世界模型相比,空間大模型有什么不同?
據(jù)介紹,群核空間大模型是業(yè)界首個(gè)專(zhuān)注于3D室內(nèi)場(chǎng)景認(rèn)知和生成的空間大模型,基于大規(guī)模、高質(zhì)量的3D場(chǎng)景數(shù)據(jù)訓(xùn)練而成。
近年來(lái)世界模型研究成果層出不窮,那么空間大模型與世界模型、視頻模型有什么區(qū)別?群核科技首席科學(xué)家周子寒對(duì)此做了解釋。
視頻生成模型、世界模型面臨空間一致性、視角靈活度兩大挑戰(zhàn)。
Sora、Genie3等視頻生成模型,能還原看似豐富的視覺(jué)效果,但視覺(jué)一致性、可控性方面仍有不足。
World Labs、混元3D世界模型等3D場(chǎng)景類(lèi)模型,可以保證視角一致性,但在視角靈活性受限,而且模型通常基于游戲數(shù)據(jù)場(chǎng)景訓(xùn)練,難以很好地實(shí)現(xiàn)真實(shí)感。
與世界模型相比,群核科技空間大模型有三大核心優(yōu)勢(shì):真實(shí)感全息漫游、結(jié)構(gòu)化可交互、復(fù)雜室內(nèi)空間場(chǎng)景生成能力。
(1)真實(shí)感全息漫游場(chǎng)景:由于開(kāi)源3D場(chǎng)景數(shù)據(jù)稀缺,已有的工作在算法選擇上受限,一般通過(guò)蒸餾2D生成模型,導(dǎo)致結(jié)果視覺(jué)真實(shí)性不足;基于群核數(shù)據(jù)集,我們?cè)O(shè)計(jì)并訓(xùn)練面向場(chǎng)景的多視角擴(kuò)散模型以生成高質(zhì)量圖像。
(2)結(jié)構(gòu)化可交互:可生成包含空間結(jié)構(gòu)、空間關(guān)系等豐富物理參數(shù)信息的場(chǎng)景語(yǔ)言,相較于傳統(tǒng)大語(yǔ)言模型可精準(zhǔn)解析空間布局與物體關(guān)系,支持參數(shù)化場(chǎng)景生成和編輯,為機(jī)器人的路徑規(guī)劃等任務(wù)提供必要場(chǎng)景可交互信息。
(3)復(fù)雜室內(nèi)空間處理能力:作為全球最大的空間設(shè)計(jì)平臺(tái),沉淀了數(shù)以?xún)|計(jì)的3D模型和空間場(chǎng)景資產(chǎn),其InteriorNet也成為了當(dāng)時(shí)全球最大的室內(nèi)空間深度學(xué)習(xí)數(shù)據(jù)集,群核在室內(nèi)空間數(shù)據(jù)的優(yōu)勢(shì)使空間大模型可處理更復(fù)雜的場(chǎng)內(nèi)場(chǎng)景生成和交互。
得益于上述優(yōu)勢(shì),群核空間大模型可處理更復(fù)雜的場(chǎng)內(nèi)場(chǎng)景生成和交互,并能精準(zhǔn)解析空間布局與物體關(guān)系,支持參數(shù)化場(chǎng)景生成和編輯,為機(jī)器人的路徑規(guī)劃等任務(wù)提供必要場(chǎng)景可交互信息。
目前,該模型已開(kāi)源兩大核心子模型:空間語(yǔ)言模型SpatialLM(結(jié)構(gòu)化可交互)和空間生成模型SpatialGen(真實(shí)感全息漫游)。
三、空間語(yǔ)言模型SpatialLM 1.5:一句話(huà)生成結(jié)構(gòu)化3D場(chǎng)景,解決機(jī)器人訓(xùn)練數(shù)據(jù)難題
今日發(fā)布的SpatialLM 1.5,是一款基于大語(yǔ)言模型訓(xùn)練的空間語(yǔ)言模型,支持用戶(hù)通過(guò)對(duì)話(huà)交互系統(tǒng)SpatialLM-Chat進(jìn)行可交互場(chǎng)景的端到端生成。
SpatialLM 1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語(yǔ)言”。
例如,用戶(hù)輸入簡(jiǎn)單文本描述,SpatialLM 1.5就能生成結(jié)構(gòu)化場(chǎng)景腳本,智能匹配家具模型并完成布局,還支持通過(guò)自然語(yǔ)言對(duì)現(xiàn)有場(chǎng)景進(jìn)行問(wèn)答或編輯。
其核心技術(shù)路徑是在GPT等大語(yǔ)言模型(LLM)基礎(chǔ)上,通過(guò)融合3D空間描述語(yǔ)言能力構(gòu)建增強(qiáng)型模型,使其既能理解自然語(yǔ)言,又能以類(lèi)編程語(yǔ)言(如Python)的結(jié)構(gòu)化方式對(duì)室內(nèi)場(chǎng)景進(jìn)行理解、推理和編輯。
據(jù)周子寒分享,SpatialLM 1.5的底模是通義千問(wèn),然后增加空間數(shù)據(jù)做訓(xùn)練。沒(méi)選DeepSeek是因?yàn)椴恍枰敲创蟮牡啄?,需要的是一款“小而美”的模型?/p>
由于SpatialLM 1.5生成的場(chǎng)景富含物理正確的結(jié)構(gòu)化信息,且能快速批量輸出大量符合要求的多樣化場(chǎng)景,可用于機(jī)器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場(chǎng)景,有效解決當(dāng)前機(jī)器人訓(xùn)練“缺數(shù)據(jù)”的難題。
借助SpatialLM的空間參數(shù)化生成能力,可以高效創(chuàng)建具備物理準(zhǔn)確性的具身智能機(jī)器人訓(xùn)練場(chǎng)景:首先基于自然語(yǔ)言描述生成結(jié)構(gòu)化空間方案,繼而自動(dòng)匹配素材庫(kù)構(gòu)建三維環(huán)境,最終輸出可供機(jī)器人進(jìn)行路徑仿真的可交互場(chǎng)景。
現(xiàn)場(chǎng),周子寒演示了機(jī)器人養(yǎng)老場(chǎng)景的應(yīng)用,當(dāng)輸入“去客廳餐桌拿藥”這一指令后,該模型不僅理解了相關(guān)的物體對(duì)象,還調(diào)用工具自動(dòng)規(guī)劃出最優(yōu)行動(dòng)路徑,展示了機(jī)器人在復(fù)雜家庭環(huán)境中執(zhí)行任務(wù)的潛力。
四、多視角圖像生成模型SpatialGen:搞定時(shí)空一致性,打造可自由漫游的3D世界
SpatialLM解決的是“理解與交互”問(wèn)題,SpatialGen則專(zhuān)注于“生成與呈現(xiàn)”。
SpatialGen是一款基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型,可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時(shí)空一致性的多視角圖像,并支持進(jìn)一步得到3D高斯(3DGS)場(chǎng)景并渲染漫游視頻。
該模型依托群核科技海量室內(nèi)3D場(chǎng)景數(shù)據(jù)與多視角擴(kuò)散模型技術(shù),其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準(zhǔn)確的空間屬性和物理關(guān)系。
基于SpatialGen生成的3D高斯場(chǎng)景和真實(shí)感全息漫游視頻,用戶(hù)可以如同在真實(shí)空間中一樣,自由穿梭于生成的場(chǎng)景內(nèi),獲得沉浸式的體驗(yàn)。
對(duì)比之下,其他開(kāi)源視頻模型會(huì)在移動(dòng)過(guò)程中生成一些幻覺(jué)。
SpatialGen有三大技術(shù)優(yōu)勢(shì):
(1)大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù)集:由于開(kāi)源3D場(chǎng)景數(shù)據(jù)稀缺,已有的工作在算法選擇上受限,一般通過(guò)蒸餾2D生成模型,導(dǎo)致結(jié)果視覺(jué)真實(shí)性不足;基于群核數(shù)據(jù)集,群核科技設(shè)計(jì)并訓(xùn)練面向場(chǎng)景的多視角擴(kuò)散模型,以生成高質(zhì)量圖像。
(2)靈活視角選擇:已有方法基于全景圖生成還原,3D場(chǎng)景完整性較差;或基于視頻底模,無(wú)法支持相機(jī)運(yùn)動(dòng)控制等。SpatialGen在這一方面具有優(yōu)勢(shì)。
(3)參數(shù)化布局可控生成:基于參數(shù)化布局生成,未來(lái)可支持更豐富的結(jié)構(gòu)化場(chǎng)景信息控制。
其工作流是:給定一個(gè)3D空間布局,首先在空間中采樣多個(gè)相機(jī)視角,然后基于每個(gè)視角將3D布局轉(zhuǎn)為對(duì)應(yīng)2D語(yǔ)義圖和深度圖。
將它與文字、參考圖一起,通過(guò)一個(gè)多視角擴(kuò)散模型生成每個(gè)視角對(duì)應(yīng)的RGB圖,以及語(yǔ)義圖和深度圖(戶(hù)型、家具物體等在相機(jī)視角的投影)。最后,通過(guò)重建算法得到場(chǎng)景的3DGS。
群核科技發(fā)現(xiàn),基于SpatialGen的能力,能夠快速補(bǔ)足現(xiàn)有視頻生成能力無(wú)法解決空間一致性的問(wèn)題。
例如一些視頻生成類(lèi)模型,物體在形狀和空間關(guān)系,在多幀畫(huà)面中無(wú)法保持穩(wěn)定和連貫。而能用于商業(yè)化短劇創(chuàng)作的AIGC,不僅要求每一幀畫(huà)面“看起來(lái)合理”,更要求整個(gè)視頻序列在空間中像真實(shí)世界一樣“合理存在”。
四、深度融合3D能力,首款A(yù)I視頻生成Agent今年發(fā)布
群核科技正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品,計(jì)劃在今年內(nèi)發(fā)布。
“這可能是全球首款深度融合3D能力的AI視頻生成Agent?!比汉丝萍糀I產(chǎn)品總監(jiān)龍?zhí)鞚赏嘎墩f(shuō)。
該產(chǎn)品通過(guò)構(gòu)建3D渲染與視頻增強(qiáng)一體化的生成管線(xiàn),有望顯著彌補(bǔ)當(dāng)前AIGC視頻生成中時(shí)空一致性不足的問(wèn)題。
空間一致性是指在生成視頻的過(guò)程中,物體的形狀和空間關(guān)系在多幀畫(huà)面中保持穩(wěn)定和連貫。
據(jù)龍?zhí)鞚煞窒恚臻g一致性對(duì)人類(lèi)很基本,但對(duì)AI很難。
現(xiàn)有的AI視頻創(chuàng)作中,常因視角切換導(dǎo)致物體位置偏移、空間邏輯混亂、遮擋錯(cuò)誤等問(wèn)題。這背后的原因是,多數(shù)視頻生成模型基于2D圖像或視頻數(shù)據(jù)訓(xùn)練,缺乏對(duì)3D空間結(jié)構(gòu)和物理法則的理解和推演能力。圖像缺少人類(lèi)感知空間時(shí)所依賴(lài)的深度線(xiàn)索,因此僅憑自然語(yǔ)言難以讓AI建立精確的空間關(guān)系認(rèn)知。
群核科技基于SpatialGen的空間生成能力,搭建了一個(gè)高效易用的空間視頻創(chuàng)作工具,可以讓AI視頻生成跨過(guò)“時(shí)空一致性”陷阱,天然具備空間邏輯,真正理解3D空間運(yùn)行的規(guī)律及內(nèi)在邏輯。
群核通過(guò)“三位一體”來(lái)構(gòu)建可控的視頻生成:
(1)SpatialGen:提供強(qiáng)大的理解與生成能力,可低門(mén)檻獲得高真實(shí)還原度的3D場(chǎng)景。用戶(hù)只需提供 簡(jiǎn)單的輸入,工具就能智能地生成符合真實(shí)物理規(guī)律和用戶(hù)具體需求的三維物體、空間關(guān)系和運(yùn)動(dòng)軌跡。它為后續(xù)的視頻生成模型提供了 高品質(zhì)、結(jié)構(gòu)化、可依賴(lài)的三維信息基礎(chǔ)。
(2)自研渲染引擎:群核科技自研的KooEngine采用光線(xiàn)追蹤渲染技術(shù),精確模擬每一條光線(xiàn)的物理運(yùn)行軌跡 ,渲染出的3D空間和物體。其質(zhì)感、光影、氛圍都無(wú)限接近人類(lèi)在現(xiàn)實(shí)生活中的視覺(jué)觀察效果,這種物理級(jí)的真實(shí)感 ,為AI模型理解空間提供了與人類(lèi)視覺(jué)認(rèn)知高度一致的參考依據(jù)。
(3)DiT架構(gòu)AI視頻生成模型:融合了擴(kuò)散模型在高質(zhì)量圖像生成方面的優(yōu)勢(shì),以及Transformer模型在捕捉長(zhǎng)序列依賴(lài)關(guān)系和復(fù)雜時(shí)空動(dòng)態(tài)方面的強(qiáng)大能力,提升視頻效果的豐富性和多樣性。結(jié)合用戶(hù)指令,模型能在保證空間一致性的前提下,靈活地生成符合要求的、富有創(chuàng)意的視頻片段,進(jìn)一步刻畫(huà)3D場(chǎng)景沒(méi)有呈現(xiàn)的豐富變化(如群星閃爍、水面漣漪)。
未來(lái)AI視頻創(chuàng)作工具可應(yīng)用電商、廣告、產(chǎn)品演示乃至短視頻、短劇創(chuàng)作。
龍?zhí)鞚涩F(xiàn)場(chǎng)展示了酷家樂(lè)的一個(gè)渲染工具頁(yè)面,左側(cè)提供場(chǎng)景、光影、視頻三類(lèi)模板,用戶(hù)可以直接點(diǎn)擊模板選項(xiàng),也可以選擇下方“AI設(shè)計(jì)助手”,在聊天框輸入需求,它就會(huì)進(jìn)行快速推理,然后自動(dòng)調(diào)出符合需求的對(duì)應(yīng)模板。
結(jié)語(yǔ):推動(dòng)AI走向物理世界
群核科技團(tuán)隊(duì)認(rèn)為,當(dāng)前空間大模型處于GPT-2到GPT-3階段,“空間大模型的ChatGPT時(shí)代”還遠(yuǎn)未到來(lái)。
GPT-2的核心是自然語(yǔ)言建模,首次提出用不同prompt來(lái)描述不同任務(wù)。而SpatialLM的核心是空間語(yǔ)言建模,訓(xùn)練模型基于輸入prompt,使用空間語(yǔ)言來(lái)完成不同任務(wù)。
群核科技希望其所提供的特性,能夠彌補(bǔ)一些全球范圍內(nèi)的能力缺失,為邁向AGI添一份力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.