8 月初,Google DeepMind 發(fā)布 Genie 3,搶走了 OpenAI 好不容易開源倆模型的頭條。
「世界模型」,這是一個近幾年突然火起來的 buzzword。從 Yann LeCun 的頻繁喊話,到李飛飛投身創(chuàng)業(yè),再到 24 年年初的 Sora 和年底的 Genie 2,以及剛剛發(fā)布的 Genie 3,定位世界模型的 AI 切入了與語言模型不同的賽道。
他們主要分為兩種流派。
第一種,Sora 類的視頻模型,包括 Genie 3,基于 2D 的圖像序列做數(shù)字世界的模擬,是對物理世界很好的可視化仿真。
第二種,李飛飛 World Labs 宣稱要做的大型世界模型,以及各類基于 3D 的世界模型,和視頻模型最重要的區(qū)別在于,它的基礎(chǔ)是 3D 場景還原。
這兩類模型現(xiàn)階段都有很好的 demo 呈現(xiàn)效果,但如果要落地到具體場景,還是會存在很多問題和困難。
最重要的一個問題:視頻模型的空間一致性。視頻模型本質(zhì)是基于圖像去表達這個世界,但世界是 3D 的,缺少一個維度導(dǎo)致它無法保持完整的空間一致性,場景的內(nèi)容會動態(tài)變化。
而 3D 模型會出現(xiàn)的問題是,如果用戶要創(chuàng)作一個空間,ta 需要把每一個角度的每一個內(nèi)容都創(chuàng)作出來,然后拼在一起。因為數(shù)據(jù)的短缺,空間內(nèi)容的創(chuàng)作很難保證每個視角都有合理的內(nèi)容,所以就導(dǎo)致現(xiàn)在一些 3D 空間模型只有固定一些角度看起來是合理的,一旦切換角度就會有崩壞的情況。
2025 年 8 月 25 日,群核科技在杭州舉辦的首屆 TechDay 上,為這一難題帶來了解決方案。大會上,群核科技發(fā)布了業(yè)界首個專注于 3D 室內(nèi)場景認(rèn)知與生成的空間大模型,并將開源兩大核心子模型:空間語言模型 SpatialLM 1.5 和空間生成模型 SpatialGen。
圖:群核科技聯(lián)合創(chuàng)始人兼董事長,黃曉煌
這兩款模型,尤其是 SpatialGen,首次基于多視角擴散 +3DGS 重建技術(shù),從源頭解決空間一致性問題——它不是單純生成視頻,而是生成一個可自由漫游的真實 3D 空間(也支持生成漫游視頻),支持任意視角切換、路徑漫游,光照、紋理、遮擋關(guān)系全程物理一致。或許,困擾行業(yè)許久的空間穿幫問題將要被徹底解決。目前 SpatialGen 已在開源平臺上線。
開源鏈接指路
Hugging Face:
https://huggingface.co/manycore-research/SpatialGen-1.0
Github:
https://github.com/manycore-research/SpatialGen
魔搭社區(qū):
https://modelscope.cn/models/manycore-research/SpatialGen-1.0
超 12000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。
邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關(guān)注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準(zhǔn)的AI產(chǎn)品曝光渠道
01兩大開源模型,定義空間大模型范式
高一致性交互要做到的,不是簡單的時長延長,而是用戶能在里面做更復(fù)雜的事。
群核科技選擇從源頭構(gòu)建「真實的 3D 空間」,重新定義了「空間大模型」的價值:它不是泛化的「世界模擬器」,而是聚焦「三維空間本身」的智能工具。
SpatialLM 1.5 是一款基于大語言模型訓(xùn)練的空間語言模型,支持用戶通過對話交互系統(tǒng) SpatialLM-Chat 進行可交互場景的端到端生成。
相比于傳統(tǒng)大語言模型對物理世界幾何與空間關(guān)系的理解局限,SpatialLM 1.5 不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”。例如,當(dāng)用戶輸入簡單文本描述時,SpatialLM 1.5 可自動生成結(jié)構(gòu)化場景腳本,智能匹配家具模型并完成布局,并支持后續(xù)通過自然語言進行問答或編輯。
因為它生成的是結(jié)構(gòu)化可交互 3D 場景,它能很好地用于機器人訓(xùn)練場景中。
比如機器人領(lǐng)域,家庭環(huán)境中機器人要實現(xiàn)自主行動首先得「看懂」空間,知道臥室是哪扇門、客廳茶幾的位置、廚房的路線怎么走。機器人要看的不是 2D 圖片,而是帶物理參數(shù)和空間關(guān)系的 3D 數(shù)據(jù)。這便是群核 SpatialLM 模型的強項 ,能自動批量生成標(biāo)清物體坐標(biāo)、動線和物理屬性的結(jié)構(gòu)化信息。
新增的 SpatialLM-Chat 功能,打破了「3D 操作需專業(yè)技術(shù)」的門檻。用戶只需輸入一段日常語言指令,就能生成可交互的 3D 場景。比如輸入「生成 1000 個有寵物的家庭環(huán)境,每個場景包含貓爬架、狗窩與喂食器」,系統(tǒng) 10 秒內(nèi)就能完成輸出,且每個場景的寵物用品布局、空間動線都不重復(fù)——這意味著,即便是不懂 3D 建模的普通人,也能通過自然語言指揮 AI 構(gòu)建空間。
另外,SpatialLM1.5 其前代版本 SpatialLM 1.0 今年 3 月開源后,迅速登上 Hugging Face 趨勢榜前三,目前已有初創(chuàng)企業(yè)基于其代碼和架構(gòu)訓(xùn)練出自有模型,驗證了開源模式的技術(shù)輻射力。
如果說 SpatialLM 1.5 解決的是“理解與交互”問題,那么 SpatialGen 則專注于“生成與呈現(xiàn)”,和解決當(dāng)前視頻模型的核心痛點:空間一致性。
「多視角擴散 +3DGS 重建」的技術(shù)路徑,不同于傳統(tǒng)視頻模型生成 2D 視頻幀的思路,SpatialGen 依托群核積累的數(shù)億 3D 空間數(shù)據(jù)集和自研渲染引擎,訓(xùn)練可以生成任意指定視角圖片的擴散模型。進一步通過 3D 高斯重建技術(shù)搭建工作流,可以實現(xiàn)無論用戶從哪個角度觀察,光影的投射都能保持 100%一致性。比如在虛擬短劇制作中,角色從沙發(fā)起身走向餐桌的過程中,吊燈的影子會隨角色移動自然變化,餐桌椅的相對位置始終不變——徹底告別了「視角切換就穿幫」的尷尬。
圖:TechDay現(xiàn)場,群核科技首席科學(xué)家周子寒介紹空間大模型
據(jù)了解,SpatialLM 是依托于群核科技自研的矩陣(CAD)引擎,通過該引擎用戶可直接在生成的 3D 空間中調(diào)整參數(shù):比如將墻體厚度從 24 厘米改為 18 厘米、把臥室門的位置從東側(cè)墻移到南側(cè)墻,場景會自動適配這些變化;而 SpatialGen 依托群核 KooEngine 光線追蹤技術(shù),場景的材質(zhì)質(zhì)感與光影效果達到影視級水準(zhǔn)——模擬玻璃茶幾的反光時,能精確計算光線的折射角度;渲染木質(zhì)地板時,能還原木紋的肌理與光澤,讓 3D 空間不僅「邏輯正確」,更「看起來像真實世界」。
02工具 - 數(shù)據(jù) - 模型,空間智能的飛輪效應(yīng)
要理解群核科技的突破,首先得看清空間數(shù)據(jù)的「難」到底難在哪。
AI 理解空間,需要的不是「客廳有沙發(fā)」這種模糊描述,而是「沙發(fā)長 2.2 米、寬 0.9 米,承重 300 公斤,面料是防污布」這類物理參數(shù)。但現(xiàn)實中,你可以用相機拍一張客廳照片,卻拍不到墻體的厚度;可以錄一段開門的視頻,卻錄不出門的鉸鏈方向、開合角度限制;能看到玻璃反光,卻測不出光線的折射系數(shù)……
更關(guān)鍵的是,「看起來像沙發(fā)的圖片」和「能讓 AI 理解沙發(fā)物理屬性的數(shù)據(jù)」完全是兩回事。前者是 2D 表象,后者是 3D 結(jié)構(gòu)化信息。文本數(shù)據(jù)可以爬取全網(wǎng)信息,圖像數(shù)據(jù)能通過攝像頭批量采集,但室內(nèi)空間的物理規(guī)律與結(jié)構(gòu)關(guān)系,需要的不是簡單的文字和圖片數(shù)據(jù),而是包含物理參數(shù)、空間邏輯、動態(tài)交互的高質(zhì)量 3D 數(shù)據(jù)。
全球最大的圖像數(shù)據(jù)集 ImageNet 有 1400 萬張圖片,但能標(biāo)注出「室內(nèi)物體相對位置+物理關(guān)系」的數(shù)據(jù)集,直到 2018 年群核發(fā)布 InteriorNet 前,幾乎是空白。
群核科技所謂的「空間智能」,本質(zhì)上是形成了「工具-數(shù)據(jù)-模型」的三位一體飛輪。
工具層,群核的底氣來自酷家樂這個積累了超 4 億個 3D 模型及 5 億個結(jié)構(gòu)化 3D 空間場景的「隱形的數(shù)據(jù)引擎」。作為全球最大的空間設(shè)計平臺,酷家樂不是簡單的「繪圖工具」,而是一個「3D 空間數(shù)據(jù)生成系統(tǒng)」——用戶在上面設(shè)計家居時,每一步操作都在「生產(chǎn)結(jié)構(gòu)化的 3D 數(shù)據(jù)」。
數(shù)據(jù)層,群核科技 2018 年發(fā)布的全球最大室內(nèi)深度學(xué)習(xí)數(shù)據(jù)集 InteriorNet,包含數(shù)萬套不同戶型、不同風(fēng)格的室內(nèi)場景數(shù)據(jù),每套數(shù)據(jù)都標(biāo)注了物體坐標(biāo)、空間關(guān)系、材質(zhì)參數(shù),填補了「室內(nèi)結(jié)構(gòu)化數(shù)據(jù)」的行業(yè)空白;今年開源的 3D 高斯語義數(shù)據(jù)集 InteriorGS,更是首次將 3D 高斯技術(shù)引入 AI 訓(xùn)練,能在保證精度的前提下,大幅降低數(shù)據(jù)存儲和處理成本。
模型層,有了工具生成的海量數(shù)據(jù)、開源數(shù)據(jù)集的行業(yè)支撐,群核的空間模型自然能實現(xiàn)「跨越式進化」。以空間語言模型 SpatialLM1.5 為例,它的核心能力在于「自然語言生成可交互場景」;而空間生成模型 SpatialGen 能解決「空間穿幫」問題,「多視角擴散 +3DGS 重建」技術(shù),生成具有時空一致性的多視角圖像,并支持進一步生成 3D 高斯(3DGS)場景并渲染漫游視頻。
03解決「穿幫」之后,空間大模型的落地機會
現(xiàn)在的空間大模型,有點像早期的 GPT-2,——已經(jīng)實現(xiàn)了生成場景、完成一定交互的基礎(chǔ)能力,但還遠(yuǎn)沒到「能應(yīng)對所有場景」的通用水平。
不過群核這類做空間智能的企業(yè),已經(jīng)找準(zhǔn)了行業(yè)里的真問題,探索出了切實可行的應(yīng)用路徑,尤其在解決「空間一致性」,實實在在產(chǎn)生了價值??臻g一致指的是生成的視頻在空間維度(單幀畫面內(nèi)部)保持高度的一致性和連貫性。
在 3D 內(nèi)容創(chuàng)作與交互領(lǐng)域,一直存在著很多「穿幫」,比如 AI 生成的虛擬場景中,鏡頭從正面切換到側(cè)面時,沙發(fā)突然從茶幾左側(cè)「瞬移」到右側(cè);電商 3D 展廳中,同一臺冰箱在不同視角下,尺寸忽大忽?。恍腥俗邉拥臅r候身體直接「穿過」墻體……這種抽卡式的不可控生成結(jié)果意味著這些場景不可復(fù)用,對創(chuàng)作質(zhì)量和創(chuàng)作效率產(chǎn)生極大限制,當(dāng)下視頻模型離取代完整的視頻制作管線還有距離,也意味著其離真正的商業(yè)化應(yīng)用仍有一定距離。
以 AI 短劇為例,這幾年發(fā)展 AI 短劇勢頭正猛,產(chǎn)量規(guī)模較大,對提升創(chuàng)作效率、降低制作成本有迫切需求,因此短劇成為 AI 很好的應(yīng)用場景。但 AI 短劇一直受「場景不連貫」和「做起來慢」的拖累。一部短劇常要多個室內(nèi)場景,還得保證劇情里的空間邏輯,比如主角放客廳的水杯不能消失,窗外陽光角度得符合時間線??蓚鹘y(tǒng) AI 工具要么只能做單一場景的靜態(tài)圖,要么做動態(tài)場景時一換鏡頭就出問題,比如人物不一致、場景不一致。
這背后的原因是當(dāng)下多數(shù)視頻生成模型是基于圖像或視頻數(shù)據(jù)訓(xùn)練,圖像缺少人類感知空間時所依賴的深度線索,因此僅憑自然語言難以讓 AI 建立精確的空間關(guān)系認(rèn)知,因此會缺乏對 3D 空間結(jié)構(gòu)和物理法則的理解和推演能力。
而群核空間大模型基于物理正確的空間數(shù)據(jù)訓(xùn)練而成,因此它在「全場景物理一致」上表現(xiàn)優(yōu)異,為這些「穿幫」提供了很好的解決方案。
在 TechDay 現(xiàn)場,群核還首次分享了內(nèi)部正在秘密推進的 X 項目,并展示了部分成果。所謂的 X 項目是一款基于 3D 技術(shù)的 AI 視頻生成產(chǎn)品,目前該產(chǎn)品正在研發(fā)中,并計劃在今年內(nèi)正式發(fā)布,這是一款深度融合 3D 能力的 AI 視頻生成 Agent,通過構(gòu)建 3D 渲染與視頻增強一體化的生成管線,可以顯著彌補當(dāng)前 AIGC 視頻生成中空間一致性不足的問題。
圖:群核科技首席科學(xué)家周子寒
以下內(nèi)容來源群核科技首席科學(xué)家周子寒與媒體的交流,經(jīng) Founder Park 整理編輯。
問:SpatialLM 叫空間語言模型,怎么理解這個概念?
周子寒:空間語言模型其實就是一個語言模型,它不像視覺語言模型(VLM)一樣引入了另外一個模態(tài),它就是一個語言模型。只不過這種語言模型的語言叫做空間語言。
一個純文本模型,比如 GPT,可以說中文,可以說英文、法文等,現(xiàn)在我們希望它能學(xué)會一門新的語言,空間語言,對場景以數(shù)字文本的方式進行描述的語言。大語言模型,比如 GPT-5,也可以理解空間,但能力還比較基礎(chǔ),需要很多引導(dǎo)。在我們看來,空間語言模型是一種對大語言模型的拓展,而不是給它加上了另外的模態(tài)。
問:用數(shù)學(xué)文本對空間進行描述,這是一個全新的語言嗎?它和自然語言有什么區(qū)別?
周子寒:空間語言并不是我們創(chuàng)造的一種新的語言,它其實有很悠久的歷史。它由英文字母和數(shù)字組成,在我們的 demo 中可以看到,這些字母和數(shù)字可以描述一個空間場景的 3D 信息。這也是計算機輔助設(shè)計(CAD)領(lǐng)域所使用的語言,從簡單的幾何元素(點、線、面),再到更復(fù)雜的物體進行建模,再進行空間創(chuàng)作。計算機輔助設(shè)計是一種工具,要基于人的操作,用這種幾何語言加上參數(shù)等,創(chuàng)建一個空間。
今天的 SpatialLM 就極大地受到 CAD 語言的影響。當(dāng)設(shè)計師或者用戶使用 CAD 軟件時,他們的每一個操作背后都是一個計算機指令,和你今天看到的空間語言的指令沒有太大的區(qū)別。
問:數(shù)據(jù)量很大程度上決定了大模型的效果,空間大模型的數(shù)據(jù)量是一個很大的挑戰(zhàn)嗎?
周子寒:是的,空間語言的訓(xùn)練素材也是來自于平臺上沉淀的 3D 場景,顯然說它不可能是無限的,我們也沒有指望一直將它作為單獨唯一的數(shù)據(jù)來源。因為剛才也提到,我相信只要搭建一個可反饋自運轉(zhuǎn)的系統(tǒng)的話,我們希望它能很快地去脫離任何的存量數(shù)據(jù)。我們希望存量數(shù)據(jù)是教會它一些基礎(chǔ)能力,會增、改、刪、查的基礎(chǔ)操作,有一定的空間感,剩下的事情就讓它自己去慢慢探索。
問:您之前提到,加入群核就是因為它有著數(shù)據(jù)層面的優(yōu)勢,我們怎么理解這個優(yōu)勢?
周子寒:我一直在做三維視覺相關(guān)的研究。三維數(shù)據(jù),與文本、圖像最大的不同在于,它無法通過互聯(lián)網(wǎng)的方式快捷地獲取。大家獲取 3D 數(shù)據(jù)無非是兩種路徑:一,實地掃描,成本高,硬件公司傾向于這種路徑;二,通過寫規(guī)則進行大量生成,雖然數(shù)量多,但質(zhì)量沒有真實場景的好。所以一直以來行業(yè)里存在「兩難」的困境。
群核比較特殊,它找到了第三種路徑,通過酷家樂的業(yè)務(wù)切入,建造一套工具到數(shù)據(jù)再到模型的閉環(huán),相比其他路徑,有更明確的可持續(xù)性。
當(dāng)然這件事也有著它的時代機遇,群核比較幸運,把這個「飛輪」搭建起來了,包括之前做的 CAD 軟件和實時渲染引擎,這些都不是一兩天做成的,但當(dāng)你做成了回頭看,這件事發(fā)生得非常自然。在這樣的業(yè)務(wù)閉環(huán)的基礎(chǔ)上去獲取數(shù)據(jù),它的 ROI 與其他路徑是截然不同的。
問:SpatialLM 和 SpatialGen 這兩款模型是群核從頭訓(xùn)練的還是基于開源模型進行訓(xùn)練的?
周子寒:SpatialLM 1.5 是基于 Qwen3 的底模進行訓(xùn)練的。我們希望大語言模型已經(jīng)學(xué)會了 100 種語言的情況下再學(xué)會第 101 種語言,一個自然而然的選擇就是基于一個已經(jīng)有的語言底模去訓(xùn)練這一模型。訓(xùn)練的方式是讓它進一步地關(guān)注這種空間語言的語料,遵循的技術(shù)路線與現(xiàn)在的大語言模型訓(xùn)練沒有太大的差別。
SpatialGen 是基于擴散模型去進行繼續(xù)訓(xùn)練的模型。它用到的數(shù)據(jù),我們剛才在 PPT 當(dāng)中也有展示,是通過自己的渲染引擎在各種場景去渲染了許多多視角圖片,再去進一步訓(xùn)練的。
無論是模型架構(gòu)還是訓(xùn)練框架是比較標(biāo)準(zhǔn)的,沒有特別復(fù)雜的設(shè)計。
問:基于 Diffusion 模型的 SpatialGen,它的生成一致性是不是受到底模影響比較大?對于生成內(nèi)容的質(zhì)量,我們?nèi)绾卧u價好壞?
周子寒:首先回答你的第一個問題,底模對于空間一致性的影響。它確實會受到底模能力本身的影響的,如果用更強大的底模做這件事,顯然效果會更好。
至于怎么去評價其效果,一方面是會和業(yè)務(wù)場景掛鉤。如果我們希望 基于 SpatialGen 在 AIGC 創(chuàng)作應(yīng)用當(dāng)中通過一些工作流去拿到結(jié)果的話,就需要技術(shù)美術(shù)專家,評估將這個工作流串起來之后是否可以輸出滿意的效果。他們會去評估生成的效果是否滿足在一些業(yè)務(wù)上,比如在電商方面的落地需求。
另一方面是純算法的評估。一般在學(xué)術(shù)論文當(dāng)中,就是通過高斯渲染出一些圖片,比較圖片的量化指標(biāo),比如 FID 等,非常標(biāo)準(zhǔn)的指標(biāo)。其實它的參考性比較有限,說實話,沒法做到很公平地跟另外一個模型對比,因為模型的參數(shù)量以及訓(xùn)練的數(shù)據(jù)完全不一樣,很難兩個東西做對比。
問:在與 SpatialLM 的交互中,以空間語言作為輸出,包括生成資產(chǎn)的時候,一些資產(chǎn)的編碼就是群核的數(shù)據(jù)庫。如果脫離了數(shù)據(jù)庫,是不是就不成立了?在兼容性上群核是如何思考的?
周子寒:我們在設(shè)計的時候,刻意地讓資產(chǎn)庫與模型本身是解耦的,可以讓這個模型去對接任何的資產(chǎn)庫。這個解耦可以從多個維度去理解,首先是搜索資產(chǎn)庫就是這樣一個 function call,理論上可以調(diào)用任何的搜索引擎。
其次,搜索的內(nèi)容也是用純文本的形式去描述的,所以在去對接任何別的資產(chǎn)庫,哪怕是一個公開的物體資產(chǎn)庫的時候都可以去直接對接。當(dāng)然最終對接效果取決于多方面,比如資產(chǎn)庫本身的物體多樣性。
這個東西跟群核自己的資產(chǎn)庫并沒有任何特定的綁定關(guān)系,這是為什么我們可以將整個系統(tǒng)做開源的原因,只要大家用任何的資產(chǎn)庫都可以同樣使用,如果你實在沒有,也可以調(diào)用三方 API 去生成,這在未來都是可以實現(xiàn)的。
問:SpatialGen 是 3D 內(nèi)容的生成,您提到 3D 高斯的方法,用多視角圖像的生成,這里還是難以擺脫多視角生成圖像的一致性問題。這個問題群核現(xiàn)在有解決的思路嗎?
周子寒:對,我們的多視角圖像生成模型還是基于這樣一個圖像生成技術(shù)的,它之所以能呈現(xiàn)比較好的空間一致性,更多是依賴于我們在室內(nèi)空間數(shù)據(jù)方面的優(yōu)勢,我們可以很高效地獲取非常多的任意視角的圖片進行訓(xùn)練,當(dāng)你在訓(xùn)練了足夠久的時間以后, 隨著數(shù)據(jù)量不斷 scale up,空間一致性也會做得越來越好。
這里有一些與視頻模型不同的點,我們一開始就不想讓模型受到時間軸的約束,而是在空間當(dāng)中能靈活跳動。這種靈活性在一些 AIGC 工作流中是有益的。相比于用純視頻模型,如果要保持兩點間的空間一致性,就要生成整個中間過程。這是一種新的視角,并不代表一種全新的技術(shù)路線。
我們注意到空間一致性并不是絕對的,當(dāng)反復(fù)迭代使用生成模型時,一致性一定會受到影響,但我們相信 scaling law 一定會讓它越做越好。
問:有機會繞過二維圖像,直接從文本到三維,構(gòu)建 3D 數(shù)據(jù)嗎?
周子寒:我們有在探索這樣一條路線,希望能將文本和 3D 高斯,或是 3D 表征直接去做一個連接,而不用中間的多視角圖像。
目前來看,它有一個視覺效果與空間一致性的 trade off,如果用圖像作為中間過程的視覺效果會好很多,如果直接從文本到 3D 的話,目前視覺效果稍微差了一點。這是兩個不同的技術(shù)路線,在未來一定會有新突破。
問:群核的空間大模型能夠為具身智能提供訓(xùn)練的數(shù)據(jù),這些數(shù)據(jù)與機器人在真實場景下的應(yīng)用,中間存在怎樣的 gap?
周子寒:在三維世界比較稀缺的時代,我們在虛擬場景能創(chuàng)建的數(shù)據(jù)和真實場景還是有較大不同的,其實在做具身訓(xùn)練的時候會遇到 sim2real 鴻溝與問題。
但一方面,我們看到語言這個模態(tài)的泛化性在所有的模態(tài)當(dāng)中最好的,有了空間語言的基礎(chǔ)之后,我們希望它可以通過多語言結(jié)合的方式去依托其他語言去提升整體泛化性。
另外一方面,空間語言還有一個特點,是它有一個 3D 可視化交互系統(tǒng)?;诮换シ答?,我們可以讓它慢慢演進出泛化能力。比如你告訴它,你需要去擺 6 個椅子在這個房間里,它就自己去擺了,但只擺了 5 個,這時候系統(tǒng)可以給它反饋,提示它用類似于大語言模型的推理訓(xùn)練一樣去自反思、自己修正。這里的關(guān)鍵在于,在這個過程當(dāng)中創(chuàng)造了新的訓(xùn)練數(shù)據(jù),就不再局限于我們現(xiàn)在能給它提供什么數(shù)據(jù),只要讓它在這個環(huán)境中去玩,就可以獲取更好的泛化性。
問:您分享提到,現(xiàn)在空間大模型處于 GPT-2 的階段,如果它要通向 GPT-3 或 4,會有怎樣的新能力?過程中難點是什么?
周子寒:為何是 GPT2,首先大家知道 GPT-1、2、3 分別的側(cè)重點。
大家可能知道,GPT-1 是第一次將 Transformer 的架構(gòu)用到大規(guī)模的語言建模上,而 GPT-2 是將語言建模作為了一種通用訓(xùn)練框架或推理范式去支持多個任務(wù)?,F(xiàn)在 SpatialLM 做的事情也比較類似,用空間語言去支持各種任務(wù),而不是去解決某個特定任務(wù)。但它不單單是一個 GPT-2,因為它是基于 GPT-4 能力的底模去訓(xùn)練的,比如千問 3,它的能力是很強大的。當(dāng)你的某些語言能力比較弱,另外的能力比較強的時候會發(fā)生怎樣的「化學(xué)反應(yīng)」,這是一個很有趣的科研問題?,F(xiàn)在還在內(nèi)部的研究過程當(dāng)中,有了更充分的理解之后,我們希望通過技術(shù)報告的形式能夠開源出來。
問:這兩年您的團隊發(fā)表了幾篇論文,想問問您,怎么將研究方向?qū)R到公司的方向上,產(chǎn)研團隊又怎么將我們的研究方向去落地成產(chǎn)品?
周子寒:這個問題非常有意思,我們也在不斷地探索當(dāng)中,每一家都有各自的獨門絕技或是踩過的坑。
這兩年的心得體會也可以跟大家分享一下,因為我們作為一個企業(yè)的研究院就要去關(guān)心業(yè)務(wù)落地,也要去關(guān)心前沿探索,這就非常具有挑戰(zhàn)。
現(xiàn)在我們發(fā)現(xiàn),大家在做大模型領(lǐng)域中,對于模型的架構(gòu)和算力的要求,框架已經(jīng)比較成熟了,沒有特別大的變化,對我們來說是有幫助的,我們要考慮的變量會更小一些。
對我們來說最大的一個特點是三維數(shù)據(jù),我們花了很大的時間去做了數(shù)據(jù)工程,就像大語言模型訓(xùn)練需要很多語料,通過外包,自己搭建數(shù)據(jù)平臺的方式去獲取,我們這種數(shù)據(jù)也需要比較復(fù)雜的數(shù)據(jù)工程的平臺去獲取,我們花了很多時間去搭數(shù)據(jù)平臺,搭完之后發(fā)現(xiàn)可以同時支持科研和業(yè)務(wù)應(yīng)用。
對于科研和業(yè)務(wù)來講,其區(qū)別在于對于數(shù)據(jù)分布的要求會不一樣,就像我做應(yīng)用落地的時候,我需要去更多地關(guān)注用戶的一些特定的需求,就會在平臺上去找這樣的一些滿足用戶需求的特定數(shù)據(jù),去解決用戶的獨特需求,所以數(shù)據(jù)分布是基于用戶的需求而定的。
做科研的時候,我們就會基于一些自身想要的數(shù)據(jù)分布做訓(xùn)練,,但其底層的數(shù)據(jù)工程鏈路都是可以復(fù)用的?,F(xiàn)在大家的觀察是這些大模型框架比較成熟,算力平臺也都比較成熟,所以還是有很多可復(fù)用的東西的,對我們來說是一個好處,不像原來做科研要做一套算法,做應(yīng)用要做另外一套算法。
轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.