新智元報道
編輯:Aeneas
【新智元導(dǎo)讀】谷歌DeepMind的Genie 3是如何誕生的?這位主持人深入探訪實驗室內(nèi)部,全球獨家首測了Genie 3,扒出超多震撼細(xì)節(jié)。同時,前谷歌研究員的筆記中,也曝光了使用初體驗,他直言:炸裂,Genie 3讓我看到了游戲未來五年的盡頭!
昨晚,「第三次世界大戰(zhàn)」徹底打響了。
GPT-5發(fā)布前夕,三大模型廠商齊上陣,2025年8月5日應(yīng)該是會被載入AI發(fā)展史冊的一天。
戰(zhàn)火硝煙之際,谷歌DeepMind祭出的世界模型Genie 3,可謂一枚重磅炸彈,代表著世界模型的全新前沿。
可以說,從靜態(tài)視頻到交互式世界的飛躍,它標(biāo)志著世界模型和AGI發(fā)展的轉(zhuǎn)折點。
要知道,一年前的Genie 2還是這個樣子的,僅僅一年,Genie 3居然就進(jìn)化成了右邊這個樣子……
要知道,Genie 2并不是實時的,還需要再等幾秒鐘;但Genie 3是完全實時的
并且,Genie能支持大約10秒的生成,Genie 2能支持20秒,而到了Genie 3,則可以模擬數(shù)分鐘的交互式環(huán)境。
可以說,Genie 3改變了一切。
而這位Youtuber提前去了谷歌DeepMind的倫敦總部,對Genie 3進(jìn)行了全球獨家首測,放出的30分鐘視頻中,為我們揭露了更多炸裂細(xì)節(jié)。
谷歌前員工內(nèi)測:它將永遠(yuǎn)顛覆游戲行業(yè)!
無需預(yù)先構(gòu)建3D模型,僅通過文本描述,Genie 3可以在720p分辨率下生成數(shù)分鐘的一致性視頻。
而這個「可提示的世界事件」功能就更是炸裂,僅僅通過文本命令,就可以添加新物體、生成角色,為訓(xùn)練AI智能體開辟了全新的可能性。
就在剛剛,前谷歌DeepMind員工Tejas Kulkarni也分享了自己的Genie 3使用初體驗。
以下為他的獨家實測demo。
他的評價就是四個字——「難以置信!」
總結(jié)來說,這是他嘗試過的第一個性能如此之好,并且具有長期世界一致性的神經(jīng)游戲引擎,或者說世界模型。
他相信,Genie 3的誕生,將徹底顛覆游戲行業(yè)??梢哉f,它就是我們離實現(xiàn)完全AGI之前的最后一塊拼圖。
在很多方面,它更像ASI而不是AGI。因為保真度和泛化能力已經(jīng)達(dá)到人類水平,并將迅速超越人類,它可以和3D人工智能及LLM結(jié)合起來,徹底顛覆3A游戲。
根據(jù)這位前員工的說法,Genie 3的亮點可以總結(jié)如下。
真正的通用,啟動時間很快,可推廣到其他工業(yè)和現(xiàn)實世界場景。
會學(xué)習(xí)物理知識。在沒有底層引擎的情況下學(xué)習(xí)游戲引擎和非剛體物理學(xué)。對于角色走動的風(fēng)格化環(huán)境非常有效。
比視頻模型有趣得多。
逼真的漫游,無人機(jī)拍攝效果極好。
全局照明和燈光效果很贊。
視覺記憶非常強(qiáng)大。
當(dāng)然,它還存在一些未解決問題。
物理學(xué)很難。(嘗試積木塔中的經(jīng)典直覺物理實驗時,它失敗了)
社交和多智能體交互很難,1v1戰(zhàn)斗游戲不起作用。
長時間的指令遵循和簡單的組合游戲邏輯失?。ɡ缡占恍c/鑰匙等,走到門口,解鎖等等)。
動作空間有限。
遠(yuǎn)非真正的游戲引擎,但讓我們瞥見了未來。
而且,Kulkarni也著重cue到了Genie 3被官方提到的一大亮點——記憶功能
即使過了20-30秒,看到的某個東西依然會保持原樣
揭秘Genie 3誕生:全球獨家首測,實驗室細(xì)節(jié)超震撼
而Genie 3一發(fā)布,Youtuber「Machine Learning Street Talk」也緊接著放出了對幕后團(tuán)隊的采訪視頻。
他們實地探測了實驗室的情況,揭秘了Genie 3的誕生過程。
在此過程中,主持人不斷驚呼:這是我見過最令人嘆為觀止的技術(shù)!
在谷歌DeepMind的倫敦總部,他試用完Genie 3后這樣說道:這項技術(shù)將成為下一個萬億美元的產(chǎn)業(yè),甚至成為VR的殺手級用例。
這期節(jié)目的嘉賓,正是Genie 3的幕后功臣——谷歌DeepMind的兩位研究者Shlomi Fuchter和Jack Parker Holder。
有趣的是,跟之前的采訪不同,這次他們對Genie 3架構(gòu)的技術(shù)關(guān)鍵細(xì)節(jié)諱莫如深。
主持人評論:可以理解,畢竟小扎正像松露獵犬一樣四處巡回狩獵。但他建議小扎別這么干,因為這些研究者做的是「上帝一般的工作」,如果小扎真的很想要,就自己做一個吧。 (狗頭)
全球獨家首測
可以說,Genie 3令人印象深刻的一大記憶點,就是它的一致性。
它所創(chuàng)造的世界擁有可靠的記憶。如果我們將視線從某個物體上移開,然后再回頭看,它仍然會在那里。
讓人出乎意料的是,兩位研究者解釋道,這種一致性并非明確編程的;它是強(qiáng)大的AI模型中突然出現(xiàn)的一種令人驚訝的「自發(fā)」能力。
而且,它代表著一個巨大的飛躍。之前的Genie 2已經(jīng)算是一次重大的飛躍了,但它的速度不足以實現(xiàn)實時交互,而且分辨率也低得多。
這次不同的是,Genie 3 分辨率高達(dá)720p,具有交互性和照片級的逼真度,每次運行可以流暢運行幾分鐘。
而且,Genie 3代表著訓(xùn)練機(jī)器人的殺手級應(yīng)用。
團(tuán)隊認(rèn)為, Genie 3將徹底改變AI訓(xùn)練的格局。與其在現(xiàn)實世界中訓(xùn)練自動駕駛汽車或機(jī)器人(這既緩慢又危險),不如創(chuàng)建無限的模擬環(huán)境。
你甚至可以觸發(fā)一些罕見事件,例如一只鹿跑過馬路,以此教會AI如何安全地應(yīng)對突發(fā)情況。
Genie 3跟傳統(tǒng)的游戲引擎或模擬器不同,也并不像生成視頻模型,但它的確具有這三者的特點。
本質(zhì)上來說,它是一個交互式的世界模型和視頻生成器。
這是技術(shù)上邁進(jìn)的一大步。要知道,在1996年的地震引擎中,它還需要對物理、規(guī)則和交互進(jìn)行明確的編程。
然而Genie 3所代表的新一代AI,卻能直接從視頻數(shù)據(jù)中學(xué)習(xí)現(xiàn)實世界的動態(tài)。
而且,它還能讓我們實時控制世界中的智能體。
這種轉(zhuǎn)變,就徹底擺脫了手工編碼模擬器的局限。要知道,前者最先進(jìn)的平臺XLAND,也只是像卡通一樣,跟現(xiàn)實世界相去甚遠(yuǎn)。
但是現(xiàn)在,只需一個簡單的提示,就能生成想要訓(xùn)練智能體的任何交互式世界了。
Genie的第一個版本,經(jīng)過了30000小時2D平臺游戲記錄的訓(xùn)練。
它的核心創(chuàng)新,就是一個時空視頻tokenizer,一個潛在動作模型,以及一個預(yù)測未來狀態(tài)的自回歸動力學(xué)模型。
僅通過分析游戲錄像中的幀間變化,Genie就能發(fā)現(xiàn)8個在不同環(huán)境中保持一致的離散動作,它可以無需接受針對這些動作的明確訓(xùn)練,就知道什么是跳躍,什么是向左移動。
可以說,這是一個OMG時刻!
僅僅10個月后,Genie 2就問世了,而且具備了3D功能,視覺保真度達(dá)到了虛幻引擎的級別。
Holder向Hassabis介紹:這是團(tuán)隊某人在加州拍的照片,而他們可以讓Genie將其轉(zhuǎn)化成一個交互式世界。
而今天的Genie 3一來,直接做到了720p的分辨率,達(dá)到了驚人的級別。
有趣的是,Shlomi對Veo 3了如指掌,此次他們也將Genie架構(gòu)的元素和Veo做了結(jié)合。
因此,Genie 3的主要特點就是具有多樣化的環(huán)境、漫長的視野和可提示的世界事件。
比如在這個滑雪世界中,我們可以創(chuàng)造另一個滑雪者,或者一群跑下雪坡的鹿。
這對模擬自動駕駛等罕見事件的建模,就顯得意義重大!
另外,谷歌DeepMind還認(rèn)為:訓(xùn)練機(jī)器人模擬可以作為真實玩家的主要用例。這樣,就能省下驚人的成本。
如果我們能像《黑鏡》一樣,在計算機(jī)中就能模擬任何可能的情況,為什么還要在世界中模擬呢?
研究者使用模擬環(huán)境訓(xùn)練智能體執(zhí)行特定任務(wù)的例子
遺憾的是,Genie 3目前還有一個短板——它并不具備創(chuàng)造力。
現(xiàn)實世界與虛擬世界的最大不同,就是前者充滿著創(chuàng)造力,也就是說可能發(fā)生的事件之樹會不斷生長。
在未來,我們或許能有一個外循環(huán),使系統(tǒng)更加開放。
最終,Genie 3代表著娛樂的未來——
它這可能會催生「YouTube 2.0」或一種全新的虛擬現(xiàn)實形式,讓用戶可以像哲學(xué)里的體驗機(jī)一樣,共同創(chuàng)造和探索無盡的互聯(lián)世界。
雖然Genie 3目前仍處于研究原型階段,尚未向公眾開放,但它代表著我們朝著從零開始創(chuàng)造真正的人工世界邁出了重要的一步。
參考資料:
https://www.youtube.com/watch?v=ekgvWeHidJs
https://x.com/tejasdkulkarni/status/1952737669894574264?t=GxoL_FaKqWAeuAFUPYWOCg&s=19
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.