網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“杭州六小龍”又開(kāi)源了！一句話(huà)爆改空間設(shè)計(jì)，AI視頻生成Agent今年發(fā)

2025-08-25 19:07:09　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者 ZeR0
編輯漠影

智東西8月25日?qǐng)?bào)道，AI不僅能生成文章、圖像和視頻，還能生成可以動(dòng)的室內(nèi)空間設(shè)計(jì)了！

只需用文字描述3D空間，或者上傳一張戶(hù)型圖，你就能讓AI創(chuàng)建出一個(gè)可交互的3D室內(nèi)空間。

問(wèn)客廳一共幾個(gè)門(mén)，AI迅速給出答案“6扇門(mén)”。你也可以上難度，一句話(huà)讓它生成適合老人居住的客廳：

AI能意識(shí)到“老人居住”需要的防滑扶手以及家具擺放方式，化身虛擬室內(nèi)空間設(shè)計(jì)師，直接替你把防滑扶手、桌椅、窗簾、冰箱、落地?zé)舻榷疾贾煤昧恕?/p>

你還可以要求更改細(xì)節(jié)，比如加一些裝飾畫(huà)：

或者提出更具體的要求，例如讓AI生成一個(gè)適合老人居住的臥室，并需要一個(gè)帶扶手的單人床，AI會(huì)立即生成滿(mǎn)足訴求的新布局：

讓AI規(guī)劃從臥室床尾到餐桌邊的路徑，它能直接生成動(dòng)態(tài)的3D空間漫游演示：

批量生成也不在話(huà)下，比如讓AI生成三口之家的客廳，然后從AI輸出的多樣化設(shè)計(jì)稿中盡情挑選。

對(duì)比之下，以GPT-5為代表的大語(yǔ)言模型，輸出可視化空間布局的能力就顯現(xiàn)局限性了。

這么好用的空間生成與編輯能力，來(lái)自“杭州六小龍”之一群核科技剛剛發(fā)布的空間語(yǔ)言模型SpatialLM 1.5。

以前，群核科技的代表作是全球最大空間設(shè)計(jì)軟件酷家樂(lè)。如今，這家沖刺科創(chuàng)板“空間智能第一股”的杭州AI公司正在講出新故事。

在今日下午的群核科技首屆技術(shù)開(kāi)放日上，群核科技宣布開(kāi)源3D場(chǎng)景生成模型SpatialGen，即將開(kāi)源空間語(yǔ)言模型SpatialLM 1.5，并首次分享基于SpatialGen探索的AI視頻生成解決方案，旨在解決時(shí)空一致性難題。

群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌發(fā)布了群核科技空間智能全景圖。

傳統(tǒng)大語(yǔ)言模型對(duì)物理世界幾何與空間關(guān)系的理解存在局限性。而SpatialLM 1.5不僅能理解文本指令，還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語(yǔ)言”，可被用具身智能機(jī)器人的虛擬訓(xùn)練上，解決數(shù)據(jù)難題。

今年3月，SpatialLM1.5的前代版本、開(kāi)源空間理解模型SpatialLM 1.0曾與DeepSeek-V3-0324、Qwen2.5-Omni一起登上了全球最大AI開(kāi)源平臺(tái)Hugging Face的模型趨勢(shì)榜前三。

SpatialLM 1.5將很快以空間語(yǔ)言對(duì)話(huà)Agent “SpatialLM-Chat” 形式開(kāi)源。

SpatialGen已在Hugging Face、GitHub、魔搭開(kāi)源。

Hugging Face地址：https://huggingface.co/manycore-research/SpatialGen-1.0
Github地址：https://github.com/manycore-research/SpatialGen
魔搭地址：https://modelscope.cn/models/manycore-research/SpatialGen-1.0

群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚赏嘎?，群核科技正在做一個(gè)“SpatialGen + AI視頻創(chuàng)作”的內(nèi)部保密項(xiàng)目，代號(hào)X。

其基于3D技術(shù)的AI視頻生成產(chǎn)品計(jì)劃在今年發(fā)布，可能成為“全球首款深度融合3D能力的AI視頻生成Agent”。

他還現(xiàn)場(chǎng)播放了用該工具生成讓群核科技三位聯(lián)合創(chuàng)始人在不同場(chǎng)景中跳舞的搞笑視頻。

這個(gè)視頻呈現(xiàn)出幾個(gè)特點(diǎn)：在有超過(guò)十個(gè)分鏡的情況下保持精準(zhǔn)的一致性，動(dòng)作沒(méi)有崩壞，能夠精準(zhǔn)卡點(diǎn)，在復(fù)雜運(yùn)鏡下畫(huà)面內(nèi)容依然合理，并實(shí)現(xiàn)內(nèi)容可控性。

龍?zhí)鞚烧f(shuō)，群核科技的愿景是，讓任何有創(chuàng)意想法并渴望將其視覺(jué)化的人，都可以利用AI 3D+視頻產(chǎn)品來(lái)釋放創(chuàng)造力。

會(huì)后，群核科技首席科學(xué)家周子寒進(jìn)一步詳細(xì)解釋了群核空間大模型的技術(shù)細(xì)節(jié)與特點(diǎn)。

一、啟動(dòng)空間智能飛輪戰(zhàn)略，邁向空間大模型的“DeepSeek時(shí)刻”

當(dāng)前AI仍主要局限于文本、圖像等二維交互領(lǐng)域，能夠完成寫(xiě)作、繪圖等任務(wù)，但要實(shí)現(xiàn)諸如家務(wù)協(xié)助等三維空間操作，仍有相當(dāng)距離。

群核科技聯(lián)合創(chuàng)始人兼董事長(zhǎng)分享了群核科技在空間智能布局上的最新思考。

黃曉煌談道，空間智能是AI從數(shù)字世界走向物理世界的關(guān)鍵橋梁。當(dāng)前空間大模型仍面臨三大技術(shù)挑戰(zhàn)：室內(nèi)空間數(shù)據(jù)獲取比室外空間數(shù)據(jù)更困難、空間結(jié)構(gòu)復(fù)雜度高、具身智能等場(chǎng)景中的交互需求更高。

基于全球最大的空間設(shè)計(jì)平臺(tái)酷家樂(lè)，群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪，讓工具沉淀數(shù)據(jù)，用數(shù)據(jù)加速模型訓(xùn)練，用模型提升工具體驗(yàn)，再在工具的廣泛應(yīng)用中沉淀更為豐富的場(chǎng)景數(shù)據(jù)。

截至2025年6月30日，群核科技擁有包含超過(guò)4.41億個(gè)3D模型及超過(guò)5億個(gè)結(jié)構(gòu)化3D空間場(chǎng)景。

群核科技從2018年開(kāi)始開(kāi)源，逐步開(kāi)放其在數(shù)據(jù)和算法上的能力。

“開(kāi)源是我們戰(zhàn)略的重要關(guān)鍵詞之一。”黃曉煌說(shuō)，“相比大語(yǔ)言模型，當(dāng)前空間大模型還處于初級(jí)階段。我們希望通過(guò)開(kāi)源推動(dòng)全球空間智能技術(shù)快速前進(jìn)，成為全球空間智能服務(wù)提供商，推動(dòng)屬于空間大模型的‘DeepSeek時(shí)刻’盡快來(lái)臨?！?/p>

二、和視頻模型、世界模型相比，空間大模型有什么不同？

據(jù)介紹，群核空間大模型是業(yè)界首個(gè)專(zhuān)注于3D室內(nèi)場(chǎng)景認(rèn)知和生成的空間大模型，基于大規(guī)模、高質(zhì)量的3D場(chǎng)景數(shù)據(jù)訓(xùn)練而成。

近年來(lái)世界模型研究成果層出不窮，那么空間大模型與世界模型、視頻模型有什么區(qū)別？群核科技首席科學(xué)家周子寒對(duì)此做了解釋。

視頻生成模型、世界模型面臨空間一致性、視角靈活度兩大挑戰(zhàn)。

Sora、Genie3等視頻生成模型，能還原看似豐富的視覺(jué)效果，但視覺(jué)一致性、可控性方面仍有不足。

World Labs、混元3D世界模型等3D場(chǎng)景類(lèi)模型，可以保證視角一致性，但在視角靈活性受限，而且模型通常基于游戲數(shù)據(jù)場(chǎng)景訓(xùn)練，難以很好地實(shí)現(xiàn)真實(shí)感。

與世界模型相比，群核科技空間大模型有三大核心優(yōu)勢(shì)：真實(shí)感全息漫游、結(jié)構(gòu)化可交互、復(fù)雜室內(nèi)空間場(chǎng)景生成能力。

（1）真實(shí)感全息漫游場(chǎng)景：由于開(kāi)源3D場(chǎng)景數(shù)據(jù)稀缺，已有的工作在算法選擇上受限，一般通過(guò)蒸餾2D生成模型，導(dǎo)致結(jié)果視覺(jué)真實(shí)性不足；基于群核數(shù)據(jù)集，我們?cè)O(shè)計(jì)并訓(xùn)練面向場(chǎng)景的多視角擴(kuò)散模型以生成高質(zhì)量圖像。

（2）結(jié)構(gòu)化可交互：可生成包含空間結(jié)構(gòu)、空間關(guān)系等豐富物理參數(shù)信息的場(chǎng)景語(yǔ)言，相較于傳統(tǒng)大語(yǔ)言模型可精準(zhǔn)解析空間布局與物體關(guān)系，支持參數(shù)化場(chǎng)景生成和編輯，為機(jī)器人的路徑規(guī)劃等任務(wù)提供必要場(chǎng)景可交互信息。

（3）復(fù)雜室內(nèi)空間處理能力：作為全球最大的空間設(shè)計(jì)平臺(tái)，沉淀了數(shù)以?xún)|計(jì)的3D模型和空間場(chǎng)景資產(chǎn)，其InteriorNet也成為了當(dāng)時(shí)全球最大的室內(nèi)空間深度學(xué)習(xí)數(shù)據(jù)集，群核在室內(nèi)空間數(shù)據(jù)的優(yōu)勢(shì)使空間大模型可處理更復(fù)雜的場(chǎng)內(nèi)場(chǎng)景生成和交互。

得益于上述優(yōu)勢(shì)，群核空間大模型可處理更復(fù)雜的場(chǎng)內(nèi)場(chǎng)景生成和交互，并能精準(zhǔn)解析空間布局與物體關(guān)系，支持參數(shù)化場(chǎng)景生成和編輯，為機(jī)器人的路徑規(guī)劃等任務(wù)提供必要場(chǎng)景可交互信息。

目前，該模型已開(kāi)源兩大核心子模型：空間語(yǔ)言模型SpatialLM（結(jié)構(gòu)化可交互）和空間生成模型SpatialGen（真實(shí)感全息漫游）。

三、空間語(yǔ)言模型SpatialLM 1.5：一句話(huà)生成結(jié)構(gòu)化3D場(chǎng)景，解決機(jī)器人訓(xùn)練數(shù)據(jù)難題

今日發(fā)布的SpatialLM 1.5，是一款基于大語(yǔ)言模型訓(xùn)練的空間語(yǔ)言模型，支持用戶(hù)通過(guò)對(duì)話(huà)交互系統(tǒng)SpatialLM-Chat進(jìn)行可交互場(chǎng)景的端到端生成。

SpatialLM 1.5不僅能理解文本指令，還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語(yǔ)言”。

例如，用戶(hù)輸入簡(jiǎn)單文本描述，SpatialLM 1.5就能生成結(jié)構(gòu)化場(chǎng)景腳本，智能匹配家具模型并完成布局，還支持通過(guò)自然語(yǔ)言對(duì)現(xiàn)有場(chǎng)景進(jìn)行問(wèn)答或編輯。

其核心技術(shù)路徑是在GPT等大語(yǔ)言模型（LLM）基礎(chǔ)上，通過(guò)融合3D空間描述語(yǔ)言能力構(gòu)建增強(qiáng)型模型，使其既能理解自然語(yǔ)言，又能以類(lèi)編程語(yǔ)言（如Python）的結(jié)構(gòu)化方式對(duì)室內(nèi)場(chǎng)景進(jìn)行理解、推理和編輯。

據(jù)周子寒分享，SpatialLM 1.5的底模是通義千問(wèn)，然后增加空間數(shù)據(jù)做訓(xùn)練。沒(méi)選DeepSeek是因?yàn)椴恍枰敲创蟮牡啄?，需要的是一款“小而美”的模型?/p>

由于SpatialLM 1.5生成的場(chǎng)景富含物理正確的結(jié)構(gòu)化信息，且能快速批量輸出大量符合要求的多樣化場(chǎng)景，可用于機(jī)器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場(chǎng)景，有效解決當(dāng)前機(jī)器人訓(xùn)練“缺數(shù)據(jù)”的難題。

借助SpatialLM的空間參數(shù)化生成能力，可以高效創(chuàng)建具備物理準(zhǔn)確性的具身智能機(jī)器人訓(xùn)練場(chǎng)景：首先基于自然語(yǔ)言描述生成結(jié)構(gòu)化空間方案，繼而自動(dòng)匹配素材庫(kù)構(gòu)建三維環(huán)境，最終輸出可供機(jī)器人進(jìn)行路徑仿真的可交互場(chǎng)景。

現(xiàn)場(chǎng)，周子寒演示了機(jī)器人養(yǎng)老場(chǎng)景的應(yīng)用，當(dāng)輸入“去客廳餐桌拿藥”這一指令后，該模型不僅理解了相關(guān)的物體對(duì)象，還調(diào)用工具自動(dòng)規(guī)劃出最優(yōu)行動(dòng)路徑，展示了機(jī)器人在復(fù)雜家庭環(huán)境中執(zhí)行任務(wù)的潛力。

四、多視角圖像生成模型SpatialGen：搞定時(shí)空一致性，打造可自由漫游的3D世界

SpatialLM解決的是“理解與交互”問(wèn)題，SpatialGen則專(zhuān)注于“生成與呈現(xiàn)”。

SpatialGen是一款基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型，可根據(jù)文字描述、參考圖像和3D空間布局，生成具有時(shí)空一致性的多視角圖像，并支持進(jìn)一步得到3D高斯（3DGS）場(chǎng)景并渲染漫游視頻。

該模型依托群核科技海量室內(nèi)3D場(chǎng)景數(shù)據(jù)與多視角擴(kuò)散模型技術(shù)，其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準(zhǔn)確的空間屬性和物理關(guān)系。

基于SpatialGen生成的3D高斯場(chǎng)景和真實(shí)感全息漫游視頻，用戶(hù)可以如同在真實(shí)空間中一樣，自由穿梭于生成的場(chǎng)景內(nèi)，獲得沉浸式的體驗(yàn)。

對(duì)比之下，其他開(kāi)源視頻模型會(huì)在移動(dòng)過(guò)程中生成一些幻覺(jué)。

SpatialGen有三大技術(shù)優(yōu)勢(shì)：

（1）大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù)集：由于開(kāi)源3D場(chǎng)景數(shù)據(jù)稀缺，已有的工作在算法選擇上受限，一般通過(guò)蒸餾2D生成模型，導(dǎo)致結(jié)果視覺(jué)真實(shí)性不足；基于群核數(shù)據(jù)集，群核科技設(shè)計(jì)并訓(xùn)練面向場(chǎng)景的多視角擴(kuò)散模型，以生成高質(zhì)量圖像。

（2）靈活視角選擇：已有方法基于全景圖生成還原，3D場(chǎng)景完整性較差；或基于視頻底模，無(wú)法支持相機(jī)運(yùn)動(dòng)控制等。SpatialGen在這一方面具有優(yōu)勢(shì)。

（3）參數(shù)化布局可控生成：基于參數(shù)化布局生成，未來(lái)可支持更豐富的結(jié)構(gòu)化場(chǎng)景信息控制。

其工作流是：給定一個(gè)3D空間布局，首先在空間中采樣多個(gè)相機(jī)視角，然后基于每個(gè)視角將3D布局轉(zhuǎn)為對(duì)應(yīng)2D語(yǔ)義圖和深度圖。

將它與文字、參考圖一起，通過(guò)一個(gè)多視角擴(kuò)散模型生成每個(gè)視角對(duì)應(yīng)的RGB圖，以及語(yǔ)義圖和深度圖（戶(hù)型、家具物體等在相機(jī)視角的投影）。最后，通過(guò)重建算法得到場(chǎng)景的3DGS。

群核科技發(fā)現(xiàn)，基于SpatialGen的能力，能夠快速補(bǔ)足現(xiàn)有視頻生成能力無(wú)法解決空間一致性的問(wèn)題。

例如一些視頻生成類(lèi)模型，物體在形狀和空間關(guān)系，在多幀畫(huà)面中無(wú)法保持穩(wěn)定和連貫。而能用于商業(yè)化短劇創(chuàng)作的AIGC，不僅要求每一幀畫(huà)面“看起來(lái)合理”，更要求整個(gè)視頻序列在空間中像真實(shí)世界一樣“合理存在”。

四、深度融合3D能力，首款A(yù)I視頻生成Agent今年發(fā)布

群核科技正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品，計(jì)劃在今年內(nèi)發(fā)布。

“這可能是全球首款深度融合3D能力的AI視頻生成Agent?！比汉丝萍糀I產(chǎn)品總監(jiān)龍?zhí)鞚赏嘎墩f(shuō)。

該產(chǎn)品通過(guò)構(gòu)建3D渲染與視頻增強(qiáng)一體化的生成管線(xiàn)，有望顯著彌補(bǔ)當(dāng)前AIGC視頻生成中時(shí)空一致性不足的問(wèn)題。

空間一致性是指在生成視頻的過(guò)程中，物體的形狀和空間關(guān)系在多幀畫(huà)面中保持穩(wěn)定和連貫。

據(jù)龍?zhí)鞚煞窒恚臻g一致性對(duì)人類(lèi)很基本，但對(duì)AI很難。

現(xiàn)有的AI視頻創(chuàng)作中，常因視角切換導(dǎo)致物體位置偏移、空間邏輯混亂、遮擋錯(cuò)誤等問(wèn)題。這背后的原因是，多數(shù)視頻生成模型基于2D圖像或視頻數(shù)據(jù)訓(xùn)練，缺乏對(duì)3D空間結(jié)構(gòu)和物理法則的理解和推演能力。圖像缺少人類(lèi)感知空間時(shí)所依賴(lài)的深度線(xiàn)索，因此僅憑自然語(yǔ)言難以讓AI建立精確的空間關(guān)系認(rèn)知。

群核科技基于SpatialGen的空間生成能力，搭建了一個(gè)高效易用的空間視頻創(chuàng)作工具，可以讓AI視頻生成跨過(guò)“時(shí)空一致性”陷阱，天然具備空間邏輯，真正理解3D空間運(yùn)行的規(guī)律及內(nèi)在邏輯。

群核通過(guò)“三位一體”來(lái)構(gòu)建可控的視頻生成：

（1）SpatialGen：提供強(qiáng)大的理解與生成能力，可低門(mén)檻獲得高真實(shí)還原度的3D場(chǎng)景。用戶(hù)只需提供簡(jiǎn)單的輸入，工具就能智能地生成符合真實(shí)物理規(guī)律和用戶(hù)具體需求的三維物體、空間關(guān)系和運(yùn)動(dòng)軌跡。它為后續(xù)的視頻生成模型提供了高品質(zhì)、結(jié)構(gòu)化、可依賴(lài)的三維信息基礎(chǔ)。

（2）自研渲染引擎：群核科技自研的KooEngine采用光線(xiàn)追蹤渲染技術(shù)，精確模擬每一條光線(xiàn)的物理運(yùn)行軌跡，渲染出的3D空間和物體。其質(zhì)感、光影、氛圍都無(wú)限接近人類(lèi)在現(xiàn)實(shí)生活中的視覺(jué)觀察效果，這種物理級(jí)的真實(shí)感，為AI模型理解空間提供了與人類(lèi)視覺(jué)認(rèn)知高度一致的參考依據(jù)。

（3）DiT架構(gòu)AI視頻生成模型：融合了擴(kuò)散模型在高質(zhì)量圖像生成方面的優(yōu)勢(shì)，以及Transformer模型在捕捉長(zhǎng)序列依賴(lài)關(guān)系和復(fù)雜時(shí)空動(dòng)態(tài)方面的強(qiáng)大能力，提升視頻效果的豐富性和多樣性。結(jié)合用戶(hù)指令，模型能在保證空間一致性的前提下，靈活地生成符合要求的、富有創(chuàng)意的視頻片段，進(jìn)一步刻畫(huà)3D場(chǎng)景沒(méi)有呈現(xiàn)的豐富變化（如群星閃爍、水面漣漪）。

未來(lái)AI視頻創(chuàng)作工具可應(yīng)用電商、廣告、產(chǎn)品演示乃至短視頻、短劇創(chuàng)作。

龍?zhí)鞚涩F(xiàn)場(chǎng)展示了酷家樂(lè)的一個(gè)渲染工具頁(yè)面，左側(cè)提供場(chǎng)景、光影、視頻三類(lèi)模板，用戶(hù)可以直接點(diǎn)擊模板選項(xiàng)，也可以選擇下方“AI設(shè)計(jì)助手”，在聊天框輸入需求，它就會(huì)進(jìn)行快速推理，然后自動(dòng)調(diào)出符合需求的對(duì)應(yīng)模板。

結(jié)語(yǔ)：推動(dòng)AI走向物理世界

群核科技團(tuán)隊(duì)認(rèn)為，當(dāng)前空間大模型處于GPT-2到GPT-3階段，“空間大模型的ChatGPT時(shí)代”還遠(yuǎn)未到來(lái)。

GPT-2的核心是自然語(yǔ)言建模，首次提出用不同prompt來(lái)描述不同任務(wù)。而SpatialLM的核心是空間語(yǔ)言建模，訓(xùn)練模型基于輸入prompt，使用空間語(yǔ)言來(lái)完成不同任務(wù)。

群核科技希望其所提供的特性，能夠彌補(bǔ)一些全球范圍內(nèi)的能力缺失，為邁向AGI添一份力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.