來源:學(xué)術(shù)頭條
整理:小瑜
繼去年發(fā)布 、 之后,Google DeepMind 昨日深夜推出了他們的新一代世界模型 Genie 3。據(jù)介紹,這一通用世界模型能夠生成前所未有的多樣化交互式環(huán)境。
基于文本提示,Genie 3 可以生成動態(tài)世界,在 24 幀每秒的實(shí)時(shí)速度下進(jìn)行探索,并在 720p 分辨率下保持幾分鐘的一致性。
官方介紹片如下:
Genie 3 能力如何?
以下是 Genie 3 的實(shí)時(shí)交互錄屏。
模擬物理世界屬性
體驗(yàn)水流、光照等自然現(xiàn)象,以及復(fù)雜的環(huán)境交互。
Prompt: Jetski during the festival of lights.
模擬自然世界
生成生機(jī)勃勃的生態(tài)系統(tǒng),從動物行為到復(fù)雜的植物生命。
Prompt: Real world tracking shot swimming through deep dimly lit ocean between deep ocean canyons, densely packed vast school of jellyfish swimming, bioluminescent lighting.
動畫與虛構(gòu)作品的建模
激發(fā)想象力,打造奇幻場景并塑造生動逼真的動畫角色。
Prompt: A vibrant 3D style, an adorable, fluffy creature bounding across a vibrant rainbow bridge in a fantastical landscape. The creature is small and compact, with fur that mimics the warm hues of a sunrise - oranges, yellows, and pinks blending seamlessly together. Its most striking feature is a pair of large, perked ears, shaped like those of a German Shepherd, adding a touch of playful contrast to its otherwise rounded form. As it runs on four short legs across the rainbow, its fur appears to ripple and flow, adding to its sense of dynamism and energy. The rainbow bridge arches gracefully through a whimsical landscape, perhaps filled with floating islands, glowing flora, and swirling clouds. The lighting is bright and cheerful, casting a warm glow on the creature and its surroundings. The overall impression is one of joy, wonder, and boundless energy, capturing the creature's playful spirit and the magical nature of the world it inhabits. This image evokes a sense of childlike whimsy and invites the viewer to imagine the adventures that await this charming creature in its fantastical realm.
探索地點(diǎn)與歷史背景
突破地理與時(shí)間的界限,探索各地與往昔時(shí)代。
Prompt: A real world mountainous environment in the Alps. The landscape features steep, rocky cliffs and narrow gorges filled with loose scree and debris. The rock is predominantly grey and white, with patches of green vegetation clinging to the cliff faces. The top of the gorge opens up to a vista of dense evergreen forests and meadows. The overall theme is one of rugged, natural beauty and extreme terrain.
突破即時(shí)處理能力的邊界
要在 Genie 3 中實(shí)現(xiàn)高度可控性和實(shí)時(shí)交互性,需要取得重大的技術(shù)突破。在每個(gè)幀的自回歸生成過程中,模型必須考慮隨時(shí)間增長的先前生成的軌跡。例如,如果用戶在一分鐘后重新訪問某個(gè)位置,模型必須參考一分鐘前的相關(guān)信息。為了實(shí)現(xiàn)實(shí)時(shí)交互性,這一計(jì)算必須以每秒多次的頻率響應(yīng)新用戶輸入。
長程環(huán)境一致性
為了使 AI 生成的世界具有沉浸感,它們必須保持長程物理一致性。然而,自回歸式生成環(huán)境通常比生成整個(gè)視頻更具技術(shù)挑戰(zhàn)性,因?yàn)椴粶?zhǔn)確性會隨時(shí)間累積。盡管存在挑戰(zhàn),Genie 3 環(huán)境在幾分鐘內(nèi)仍保持高度一致,視覺記憶可追溯至一分鐘前。
Prompt: This is a fantastical, whimsical forest environment. The lighting is bright and cheerful, suggesting a sunny day with dappled light filtering through a dense canopy of lush, oversized leaves. The air is clear and still. The ground is a soft, verdant carpet of moss and unusually large, brightly coloured mushrooms in shades of red and blue, their caps dotted with white. Winding dirt paths, well-trodden and narrow, weave between towering, ancient trees with smooth, grey bark. Interspersed throughout the forest are charming, mushroom-shaped houses, with intricate wooden doors and tiny, circular windows, each one unique in its design and colour palette, ranging from vibrant reds to gentle blues and greens. Various small, friendly forest creatures, such as colourful butterflies and tiny singing birds, flit amongst the foliage, adding to the lively atmosphere. There is an abundance of peculiar, oversized flowers blooming in an array of pastel and bright hues, releasing a gentle glow.
研究團(tuán)隊(duì)表示,Genie 3 的一致性是一種涌現(xiàn)能力。其他方法,如 NeRF 和高斯濺射,也能夠生成一致的可導(dǎo)航 3D 環(huán)境,但依賴于顯式 3D 表示的提供。相比之下,Genie 3 生成的世界更具動態(tài)性,且更豐富,因?yàn)樗鼈兪腔谑澜缑枋龊陀脩舨僮?,逐幀生成的?/p>
可提示的世界事件
除了導(dǎo)航輸入外,Genie 3 還支持一種更具表現(xiàn)力的基于文本的交互方式,研究團(tuán)隊(duì)稱之為可提示的世界事件。
可提示的世界事件使生成世界能夠發(fā)生變化,例如改變天氣條件或引入新物體和角色,從而提升導(dǎo)航控制帶來的體驗(yàn)。
這一能力還擴(kuò)大了反事實(shí)(即“如果……會怎樣”)場景的范圍,這些場景可被通過經(jīng)驗(yàn)學(xué)習(xí)的 agent 用于處理意外情況。
如下,選擇一個(gè)世界設(shè)置。然后,選擇一個(gè)事件,Genie 3 就可以創(chuàng)建一個(gè)交互世界。
推動具身 agent 研究
為了測試 Genie 3 生成的世界與未來 agent 訓(xùn)練的兼容性,研究團(tuán)隊(duì)為 SIMA agent 的最新版本生成了世界,該 agent 是用于 3D 虛擬環(huán)境的通用 agent。在每個(gè)世界中,他們會指示 agent 追求一組不同的目標(biāo),它通過向 Genie 3 發(fā)送導(dǎo)航動作來實(shí)現(xiàn)這些目標(biāo)。與其他環(huán)境一樣,Genie 3 并不知道 agent 的目標(biāo),而是根據(jù) agent 的動作模擬未來。
由于 Genie 3 能夠保持一致性,現(xiàn)在可以執(zhí)行更長的操作序列,從而實(shí)現(xiàn)更復(fù)雜的目標(biāo)。研究團(tuán)隊(duì)預(yù)計(jì),這項(xiàng)技術(shù)將在向通用人工智能(AGI)邁進(jìn)的過程中發(fā)揮關(guān)鍵作用,而 agent 在現(xiàn)實(shí)世界中也將扮演更重要的角色。
局限性
盡管 Genie 3 在世界模型能力上突破了現(xiàn)有界限,但研究團(tuán)隊(duì)稱 Genie 3 已然存在諸多局限性,如下:
有限的動作空間。盡管可提示的世界事件允許對環(huán)境進(jìn)行廣泛干預(yù),但這些操作并不一定由 agent 自身執(zhí)行。agent 直接執(zhí)行的動作范圍目前仍受限。
與其他 agent 的交互與模擬。在共享環(huán)境中準(zhǔn)確建模多個(gè)獨(dú)立 agent 之間的復(fù)雜交互,仍是一項(xiàng)持續(xù)的研究挑戰(zhàn)。
真實(shí)世界位置的準(zhǔn)確表示。Genie 3 目前無法以完美的地理精度模擬真實(shí)世界位置。
文本渲染。清晰可讀的文本通常僅在輸入世界描述中提供時(shí)才會生成。
交互持續(xù)時(shí)間受限。該模型目前僅能支持幾分鐘的連續(xù)交互,而非數(shù)小時(shí)的持續(xù)交互。
下一步是什么?
研究團(tuán)隊(duì)認(rèn)為,Genie 3 是世界模型發(fā)展的重要里程碑,它將開始對人工智能研究和生成式媒體的多個(gè)領(lǐng)域產(chǎn)生影響。為此,他們正在探索如何在未來向更多測試者開放 Genie 3。
Genie 3 可能為教育和培訓(xùn)創(chuàng)造新機(jī)遇,幫助學(xué)生學(xué)習(xí)和專家積累經(jīng)驗(yàn)。它不僅能為訓(xùn)練機(jī)器人和自主系統(tǒng)等 agent 提供廣闊空間,還能評估 agent 的性能并探索其弱點(diǎn)。
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.