智東西
編譯 王涵
編輯 漠影
智東西10月17日報道,昨晚,李飛飛團隊發(fā)布全新實時生成式世界模型RTFM(Real-Time Frame Model),只需單張H100 GPU就能運行!
該模型支持單圖像生成3D場景,能處理多樣化的場景類型、視覺風格及光影效果,包括鏡面反射、光澤表面、動態(tài)陰影和鏡頭光暈。
▲李飛飛推文截圖(來源:X)
RTFM能在用戶交互時實時生成視頻,可用于探索生成的3D世界和真實場景定位,現(xiàn)已開放研究預覽版。
DEMO體驗地址:https://rtfm.worldlabs.ai/
除了前后左右移動以外,RTFM還可以進行推拉變焦、重現(xiàn)魚眼失真等鏡頭效果,能夠像在一間真正的房間中漫步一樣,真實感拉滿。
李飛飛團隊在博客中透露,RTFM圍繞三大核心原則設計:
1、高效性:僅需單張H100 GPU即可實現(xiàn)交互級幀率的推理運算;
2、可擴展性:采用不依賴顯式3D表征的建模方式,通過通用端到端架構(gòu)從大規(guī)模視頻數(shù)據(jù)中學習,隨算力數(shù)據(jù)增長持續(xù)進化;
3、持久性:支持無限時長交互,構(gòu)建的3D世界具有永久記憶——即使轉(zhuǎn)身離開,場景依然存在。
在李飛飛的推文下,很多網(wǎng)友都覺得這個模型的DEMO效果非常驚艷。
▲網(wǎng)友評論截圖(來源:X)
也有比較專業(yè)的網(wǎng)友解釋稱,這個模型并不是直接生成3D世界,而是通過一張2D圖片,補充這張圖片場景下其他角度的2D圖片。
▲網(wǎng)友評論截圖(來源:X)
AI數(shù)據(jù)平臺公司Manifolds AI聯(lián)合創(chuàng)始人Ziyang Xie體驗后稱,RTFM的空間一致性令人印象深刻,但速度過快時仍然會崩潰。
▲Ziyang Xie評論截圖(來源:X)
有網(wǎng)友體驗完感嘆道:“或許我們身處的世界也是運行在‘單張’H100 GPU上的?!?/p>
▲網(wǎng)友評論截圖(來源:X)
一、單張H100 GPU就能運行,還能保持交互幀率和持久性
李飛飛團隊發(fā)現(xiàn),在技術發(fā)展過程中,生成式世界模型對算力的需求將遠超當前大語言模型。
若直接套用現(xiàn)有視頻架構(gòu),實現(xiàn)60幀4K交互視頻流需每秒生成超10萬token(相當于首部《哈利·波特》的文本量),維持一小時以上持久交互更需處理超1億token的上下文。以當前算力基礎,這既不可行也不經(jīng)濟。
他們從中吸取了“教訓”:隨著算力成本指數(shù)級下降,那些能適應算力增長的簡潔方法終將主導AI發(fā)展,而生成式世界模型正處在享受未來算力紅利的最佳位置。
這就帶了一個關鍵的問題:生成式世界模型是否會被當前硬件條件束縛?是否存在技術路徑讓我們現(xiàn)在就能預覽未來?
為此,李飛飛團隊設定了一個簡單目標,即設計一個足夠高效、當下即可部署的生成式世界模型,并能隨算力提升持續(xù)擴展。
他們的具體目標是構(gòu)建可在單張H100 GPU上運行的模型,既保持交互級幀率,又能實現(xiàn)無限持久的世界交互。
這一目標貫穿了他們從任務設定到模型架構(gòu)的整個系統(tǒng)設計。通過精心優(yōu)化推理棧的每個環(huán)節(jié),融合架構(gòu)設計、模型蒸餾和推理優(yōu)化的最新突破,李飛飛團隊在當今硬件上實現(xiàn)了對下一代模型最高保真度的前瞻。
三、能自主掌握反射陰影的渲染,RTFM是“學習型渲染器”
傳統(tǒng)3D圖形管線通過顯式3D表征(如三角網(wǎng)格、高斯?jié)姙R)構(gòu)建世界并渲染為2D圖像。它們采用手工設計的數(shù)據(jù)結(jié)構(gòu)與算法來建模3D幾何、材質(zhì)、光照、陰影和反射等。這些方法數(shù)十年來一直是計算機圖形學的支柱,但難以隨算力數(shù)據(jù)自然擴展。
RTFM另辟蹊徑,他們基于生成式視頻建模的最新進展,訓練單一神經(jīng)網(wǎng)絡來輸入場景的一張或多張2D圖像,無需構(gòu)建任何顯式3D表征即可生成新視角的2D畫面。該模型采用自回歸擴散Transformer架構(gòu)處理幀序列,通過大規(guī)模視頻數(shù)據(jù)端到端訓練實現(xiàn)幀間預測。
RTFM還可以被認為是“學習型渲染器”,輸入幀可以被轉(zhuǎn)化為隱含世界信息的神經(jīng)網(wǎng)絡激活值(KV緩存),生成新幀時,網(wǎng)絡通過注意力機制讀取該表征,創(chuàng)建與輸入視角一致的新視圖。
從輸入視圖到世界表征的轉(zhuǎn)換機制,再到基于表征的新幀渲染,全程通過數(shù)據(jù)端到端學習獲得,無需人工設計,RTFM僅需在訓練中觀察即可自主掌握反射、陰影等復雜效果的建模。
重建(在已有視角間插值)與生成(創(chuàng)造輸入視角未可見內(nèi)容)在計算機視覺領域向來被視為兩個獨立的課題,但RTFM模糊了這二者之間的界限。當輸入多視角圖像時,模型更傾向于重建;當輸入視角稀缺時,模型則被迫進行外推生成。
四、以位姿幀作為空間記憶,RTFM擁有持久記憶
現(xiàn)實世界的核心特性在于其持久性,當你移開視線時,世界不會消失或徹底改變。無論相隔多久,你總能重返曾經(jīng)到過的地方。
這對自回歸幀模型來說可不太容易。由于世界僅通過2D圖像幀隱式表征,要實現(xiàn)持久性,模型必須在用戶探索過程中對持續(xù)增長的幀序列進行推理。這意味著生成每一幀的成本會遞增,模型對世界的記憶實際上被算力預算所束縛。
為突破這一桎梏,RTFM為每幀畫面都賦予三維空間中的位姿(位置與朝向)。通過輸入目標幀的位姿生成新畫面,模型對世界的記憶就會具備空間結(jié)構(gòu),因為這些帶位姿的幀構(gòu)成了空間記憶系統(tǒng)。
這為模型注入了弱先驗,即其所建模的世界是三維歐幾里得空間,同時無需強制模型顯式預測該空間中物體的三維幾何。
生成新幀時,系統(tǒng)會從位姿幀構(gòu)成的空間記憶中檢索鄰近幀,構(gòu)建定制化上下文。這種“上下文調(diào)度”技術使模型能在空間不同區(qū)域生成時調(diào)用不同的上下文幀,從而無需對持續(xù)增長的幀序列進行推理,即可在長期交互中維持世界的持久性。
結(jié)語:世界模型突破算力限制,可在多行業(yè)中落地
李飛飛團隊認為,RTFM的推出實現(xiàn)了在當今硬件上部署世界模型的愿景,并確立了將世界模型視為端到端數(shù)據(jù)驅(qū)動渲染器的技術路徑。
RTFM的架構(gòu)具備天然可擴展性,未來將會有更多的發(fā)展空間,比如它可以擴展為動態(tài)世界建模,允許用戶與生成世界實時交互。
世界模型能實時重建、生成并模擬具有物理精確性的持久交互世界,這類模型或許將徹底改變從媒體到機器人等眾多行業(yè)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.