創(chuàng)業(yè) 3 個(gè)月估值破 10 億美元的美國斯坦福大學(xué)教授李飛飛創(chuàng)辦的 World Labs 再出新成果。當(dāng)?shù)貢r(shí)間 9 月 16 日,李飛飛團(tuán)隊(duì)展示了一款名為 Marble 的模型的新成果。只需給到一張圖片或者給到一段文字提示,這款模型就能生成一個(gè) 3D 世界,用戶可以在這個(gè) 3D 世界里隨心所欲地探索,這個(gè) 3D 世界既沒有時(shí)間限制,也沒有變形和不一致性。相比上一版模型,本次版本的模型能夠生成更大的、風(fēng)格更加多樣的 3D 世界,同時(shí)還擁有更清晰的 3D 幾何圖形。一名未具名的虛幻引擎的 VR 電影制作人表示,自己很想嘗試使用本次模型來向觀眾制作電影故事和設(shè)計(jì)互動(dòng)體驗(yàn)項(xiàng)目。
對于使用本次模型所生成的 3D 世界,用戶通過借助李飛飛團(tuán)隊(duì)的開源渲染庫 Spark,可以將其導(dǎo)出為高斯分布圖,并能將其用于相關(guān)的下游項(xiàng)目。Spark 可以將高斯分布圖無縫地集成到開源 JavaScript 庫 Three.js 之中,從而用于構(gòu)建基于 Web 的 3D 體驗(yàn),并能在臺(tái)式機(jī)、筆記本電腦、移動(dòng)設(shè)備和虛擬現(xiàn)實(shí)(VR,Virtual Reality)頭顯上進(jìn)行高效渲染。該模型具有較好的一致性和風(fēng)格遵行能力,故能通過組合多個(gè) 3D 世界來構(gòu)建大型 3D 世界。
圖 | 李飛飛(來源:https://www.worldlabs.ai/team)
具體來說:
首先,本次模型所生成的 3D 世界具有更好的幾何形狀。對于視覺創(chuàng)作者來說,他們非常需要在能夠 3D 世界中進(jìn)行導(dǎo)航和交互的一致性的能力。而使用此次本次模型生成的 3D 世界允許用戶在瀏覽器中零成本且自由地進(jìn)行視點(diǎn)導(dǎo)航。相比此前的同類 3D 產(chǎn)品,本次模型所創(chuàng)建的 3D 世界不僅具有更加豐富的幾何復(fù)雜性,還可以生成更加完整的 3D 世界。需要說明的是,本次模型目前主要是能夠創(chuàng)建 3D 環(huán)境,而非創(chuàng)建孤立的物體例如人物或者動(dòng)物。有用戶表示,這一成果讓其可以像電影制作人一樣在連貫一致的 3D 場景中進(jìn)行規(guī)劃和拍攝。還有用戶表示,其使用兩張旅行照片和一張預(yù)先加載的圖片創(chuàng)建了一個(gè) 3D 世界,這個(gè) 3D 世界既可以放大也可以縮小,還能讓人找到圖片中“意想不到的秘密”。
其次,本次模型所生成的 3D 世界在風(fēng)格上更加多樣。生成式 AI 的好處就是能在創(chuàng)作過程中自由地迭代,正因此該模型允許將各種風(fēng)格的輸入轉(zhuǎn)化為 3D 形式。比如,可以轉(zhuǎn)化為彩色卡通風(fēng)格,也可以轉(zhuǎn)化為逼真且細(xì)節(jié)豐富的風(fēng)格。
(來源:World Labs)
再次,在此之前,人們很難使用 AI 生成大規(guī)模的、持久的 3D 幾何體。而對于任何需要合成、拼接、堆疊、持久編輯以及具備大內(nèi)存的工作流程來說,本次模型都能很好地滿足這些需求。鑒于本次模型能夠?qū)崿F(xiàn)風(fēng)格上的連貫性和幾何上的一致性,因此李飛飛團(tuán)隊(duì)在官方博客中表示其能生成比已有案例更大的 3D 世界用例。比如,同樣是生成一個(gè) 3D 房間,李飛飛團(tuán)隊(duì)在官方博客中展示了三種不同的風(fēng)格。
第一種風(fēng)格是質(zhì)樸的房間。
第二種風(fēng)格是色彩繽紛的房間。
第三種風(fēng)格是奇幻風(fēng)格的房間。
并且,這三款作品分別由三位不同用戶生成。
值得注意的是,本次模型相比上一版,所生成的 3D 世界不僅更加逼真,空間感也更強(qiáng)。如下圖所示:圖中的上圖是本次模型生成的 3D 房間,地毯的質(zhì)地和花紋就像來自于真實(shí)世界一樣;圖中的下圖是幾個(gè)月前的上一版模型生成的 3D 房子,其在逼真感和空間感上確實(shí)不如本次版本。
(來源:World Labs)
總的來說,本次模型通過提供構(gòu)建 3D 世界的能力,可以提高用戶的生產(chǎn)力和創(chuàng)造力。目前,已有用戶將該模型生成的 3D 世界集成到游戲項(xiàng)目和互動(dòng)內(nèi)容項(xiàng)目中,未來等到該模型的 API 開放之后,用戶就可以實(shí)現(xiàn)無縫的 3D 世界集成。未來,李飛飛團(tuán)隊(duì)將在 marble.worldlabs.ai 上推出 Marble 模型的有限訪問 Beta 預(yù)覽版,屆時(shí)用戶可以在上面查看和創(chuàng)建 3D 世界。
圖 | 李飛飛(右四)和其余三位創(chuàng)始人(來源:World Labs)
據(jù)了解,含李飛飛在內(nèi)該公司有四位創(chuàng)始人,他們都是世界知名的計(jì)算機(jī)視覺專家和圖形技術(shù)專家。除了李飛飛,其余三位聯(lián)合創(chuàng)始人分別是:
聯(lián)合創(chuàng)始人賈斯汀·約翰遜(Justin Johnson)曾經(jīng)是李飛飛學(xué)生,目前他同時(shí)也任職于美國密歇根大學(xué),此前曾擔(dān)任 Meta 的高級(jí)研究員,他是實(shí)時(shí)風(fēng)格轉(zhuǎn)換技術(shù)的首創(chuàng)者,這一技術(shù)目前已被 Meta、Snap 和 Prisma 等公司使用。
圖 | 賈斯汀·約翰遜(Justin Johnson)(來源:資料圖)
聯(lián)合創(chuàng)始人克里斯托夫·拉斯納(Christoph Lassner)是可微分渲染器 Pulsar 的首創(chuàng)者,這一技術(shù)為 3D 高斯分布鋪平了道路。憑借自己在可擴(kuò)展實(shí)時(shí)神經(jīng)渲染領(lǐng)域的成果,他將神經(jīng)輻射場(NeRF,Neural Radiance Fields)成功引入了虛擬現(xiàn)實(shí)和虛幻引擎。在此之前,他還曾在 Meta Reality Labs Research 和 Epic Games 工作。
圖 | 克里斯托夫·拉斯納(Christoph Lassner)(來源:資料圖)
聯(lián)合創(chuàng)始人本·米爾登霍爾(Ben Mildenhall)是神經(jīng)輻射場的共同提出者之一,神經(jīng)輻射場通過引入一種利用隱式神經(jīng)表征,來以照片級(jí)的真實(shí)感來展示和渲染復(fù)雜場景,徹底改變了 3D 場景重建以及視圖合成。在和李飛飛創(chuàng)業(yè)之前,他曾擔(dān)任谷歌的高級(jí)研究科學(xué)家。
圖 | 本·米爾登霍爾(Ben Mildenhall)(來源:資料圖)
值得注意的是,該公司官網(wǎng)目前展示了將近 30 位團(tuán)隊(duì)成員的信息,其中著名華人學(xué)者謝賽寧和吳佳俊擔(dān)任該公司的顧問,此外還有 10 余位華人技術(shù)人員。
圖 | 該公司官網(wǎng)展示的團(tuán)隊(duì)成員信息(來源:World Labs)
作為一位 AI 名人,李飛飛的創(chuàng)業(yè)吸引了眾多知名風(fēng)投機(jī)構(gòu)和業(yè)內(nèi)大佬的支持。目前,其已獲得 A16Z、全球最大和最活躍的 VC 之一美國恩頤投資以及加拿大 AI 風(fēng)投機(jī)構(gòu) Radical Ventures 的投資。在該公司的個(gè)人投資名單上,深度學(xué)習(xí)先驅(qū)杰夫·迪恩(Jeff Dean)、諾獎(jiǎng)得主兼圖靈獎(jiǎng)得主杰弗里·辛頓(Geoffrey Hinton)、領(lǐng)英聯(lián)合創(chuàng)始人里德·霍夫曼(Reid Hoffman)、OpenAI 創(chuàng)始成員之一的安德烈·卡帕西(Andrej Karpathy)等知名人士的名字赫然在列。此外,其還獲得了一些其他知名人士和知名機(jī)構(gòu)的投資。
圖 | 李飛飛此次創(chuàng)業(yè)獲得眾多支持(來源:World Labs)
對于創(chuàng)業(yè)使命,李飛飛團(tuán)隊(duì)曾在一篇博文中表示,人類智能包含了多個(gè)方面,語言智能是其中的一種,語言智能讓人類能夠通過語言與他人進(jìn)行溝通和聯(lián)系。但是,李飛飛團(tuán)隊(duì)認(rèn)為更具基礎(chǔ)性的是空間智能,正是空間智能讓人們能夠理解周圍的世界并與之互動(dòng)。空間智能還能幫助人類將腦海中的圖像轉(zhuǎn)化為 3D 世界,從而能讓人類進(jìn)行推理和發(fā)明。李飛飛團(tuán)隊(duì)認(rèn)為,盡管文生圖模型和文生視頻模型展示了 AI 在視覺領(lǐng)域的潛力,但是它們僅僅觸及了未來更多可能性的表面。要想超越當(dāng)前這些模型的能力,就得打造具備空間智能的 AI,這種 AI 能夠建模世界,并能針對 3D 時(shí)空中的物體、位置和交互進(jìn)行推理。正因此,李飛飛創(chuàng)辦了這家公司,并將其定位為是一家致力于構(gòu)建大型世界模型的空間智能 AI 公司,旨在實(shí)現(xiàn) 3D 世界的生成、感知和交互,以便能將 AI 模型從 2D 像素平面提升至完整的 3D 世界,并能賦予這個(gè) 3D 世界以和人類自身一樣豐富的空間智能。李飛飛團(tuán)隊(duì)認(rèn)為,人類的空間智能進(jìn)化了數(shù)千年之久,而在這個(gè)飛速發(fā)展的時(shí)代,將有希望在短期內(nèi)賦予 AI 以空間智能。目前,她和團(tuán)隊(duì)主要聚焦于生成不受限制的 3D 世界,即創(chuàng)建和編輯包含物理、語義和控制的虛擬空間,從而能為開發(fā)者、工程師和藝術(shù)工作者帶來更多創(chuàng)意。即使對于非專業(yè)用戶,該公司的產(chǎn)品也能讓他們想象并創(chuàng)造專屬于自己的世界。
圖 | 李飛飛 X 推文(來源:X)
2024 年,對于李飛飛來說這一個(gè)很有意義的年份。這一年,她休了長假;這一年,她出版了自己的自傳圖書,書的名字叫做《我看見的世界》,書中既介紹了她的個(gè)人成長史,也介紹了她眼中的 AI 發(fā)展史,“世界”既是書名中的一個(gè)詞語,也是她在書中濃墨重寫的一個(gè)篇章,她在書中寫道“相比現(xiàn)在充滿感官刺激和智力活動(dòng)的世界,5.43 億年前的生命形態(tài)極其原始,近乎抽象,用蘇格拉底的話說,它們完全生活在一種‘未經(jīng)審視’的狀態(tài)中。那個(gè)世界完全不被看到,海水深邃而本能粗淺”;這一年,她也創(chuàng)辦了 World Labs 這家公司,公司名字中同樣包含“世界(World)”這一詞語。
在她對于公司的發(fā)展構(gòu)想上,既有前沿技術(shù)方面的考慮,也有哲學(xué)層面的斟酌,并賦予了這家公司以不同的氣質(zhì)。當(dāng)然,創(chuàng)業(yè)既要形而上也要形而下,正因此李飛飛團(tuán)隊(duì)在本次新成果的博客文章里多次引用了用戶使用感想,想必也是為公司的進(jìn)一步商業(yè)化做鋪墊,畢竟等著她“交作業(yè)”的投資人并不算少。
參考資料:
公司官網(wǎng) https://www.worldlabs.ai/about
官網(wǎng)博文 https://www.worldlabs.ai/blog/bigger-better-worlds
本·米爾登霍爾(Ben Mildenhall)個(gè)人主頁 https://bmild.github.io/
克里斯托夫·拉斯納(Christoph Lassner)個(gè)人主頁 https://christophlassner.de/
賈斯汀·約翰遜(Justin Johnson)個(gè)人主頁 https://web.eecs.umich.edu/~justincj/
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.