網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福大學(xué)提出PSI：一種通過(guò)概率結(jié)構(gòu)集成，從數(shù)據(jù)中學(xué)習(xí)可控、可靈活提示的世界模型的新系統(tǒng)

2025-09-16 21:05:38　來(lái)源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

本文將為大家介紹一篇來(lái)自斯坦福大學(xué)的最新研究，該研究提出了一種名為 概率結(jié)構(gòu)集成（Probabilistic Structure Integration, PSI） 的新系統(tǒng)。簡(jiǎn)單來(lái)說(shuō)，PSI是一個(gè)可以從海量數(shù)據(jù)中學(xué)習(xí)并構(gòu)建“世界模型”的框架。這個(gè)模型不僅能深刻理解世界的運(yùn)作方式，還非?！奥?tīng)話”，可以被靈活地控制和提示，就像與大語(yǔ)言模型（LLM）對(duì)話一樣。其核心思想是通過(guò)一個(gè)“預(yù)測(cè)-提取-整合”的自增強(qiáng)循環(huán)，讓模型在持續(xù)學(xué)習(xí)中變得越來(lái)越強(qiáng)大。

論文標(biāo)題 ：World Modeling with Probabilistic Structure Integration
作者：Klemen Kotar, Wanhee Lee, Rahul Venkatesh, Honglin Chen, Daniel Bear, Jared Watrous, Simon Kim, Khai Loong Aw, Lilian Naing Chen, Stefan Stojanov, Kevin Feigelis, Imran Thobani, Alex Durango, Khaled Jedoui, Atlas Kazemian, Dan Yamins
機(jī)構(gòu) ：斯坦福大學(xué) NeuroAI 實(shí)驗(yàn)室
論文地址 ：https://arxiv.org/abs/2509.09737

研究背景與意義

當(dāng)前，構(gòu)建能夠理解并預(yù)測(cè)物理世界如何變化的“世界模型”是人工智能領(lǐng)域的一大熱點(diǎn)。然而，現(xiàn)有的世界模型大多缺乏足夠的“可控性”和“可查詢性”。與可以被任意提示的語(yǔ)言模型不同，很難對(duì)視覺(jué)世界模型進(jìn)行精細(xì)的操作，比如“輕輕推一下這個(gè)物體”或“從另一個(gè)角度看看這個(gè)場(chǎng)景”。

為了解決這一挑戰(zhàn)，研究者們希望創(chuàng)建一個(gè)既能生成高質(zhì)量預(yù)測(cè)，又能像LLM一樣提供豐富交互接口的統(tǒng)一模型。PSI框架應(yīng)運(yùn)而生，它旨在通過(guò)一個(gè)自循環(huán)、自增強(qiáng)的機(jī)制，讓模型不僅能從原始像素?cái)?shù)據(jù)中學(xué)習(xí)，還能逐步構(gòu)建起對(duì)場(chǎng)景中“結(jié)構(gòu)”（如運(yùn)動(dòng)、深度、物體）的理解，并利用這些結(jié)構(gòu)來(lái)反哺和提升模型自身，最終形成一個(gè)功能強(qiáng)大且高度可控的“通用”世界模型。

PSI：三步走的自增強(qiáng)循環(huán)方法

PSI的核心是一個(gè)由三步構(gòu)成的循環(huán)過(guò)程，研究者將其命名為 Ψ（Psi） 模型。

第一步：概率預(yù)測(cè) (Probabilistic Prediction)

首先，研究團(tuán)隊(duì)構(gòu)建了一個(gè)概率圖模型Ψ，它本質(zhì)上是一個(gè)可以隨機(jī)訪問(wèn)的自回歸序列模型。與傳統(tǒng)的按固定順序（如從左到右）生成內(nèi)容不同，Ψ模型可以基于任意給定的、無(wú)序的圖像補(bǔ)?。╬atch）集合，來(lái)預(yù)測(cè)任何未知補(bǔ)丁的內(nèi)容分布。

為了實(shí)現(xiàn)這種“隨機(jī)訪問(wèn)”能力，研究者設(shè)計(jì)了 局部隨機(jī)訪問(wèn)序列（Local Random-Access Sequence, LRAS） 架構(gòu)。該架構(gòu)通過(guò)引入“指針 token”來(lái)顯式指定要生成或關(guān)注的圖像區(qū)域，從而擺脫了固定的生成順序。同時(shí)，它采用分層局部量化器（HLQ）對(duì)圖像塊進(jìn)行編碼，確保了編碼的局部性，使得對(duì)單個(gè)補(bǔ)丁的修改不會(huì)影響到遠(yuǎn)處不相關(guān)的區(qū)域。

這種設(shè)計(jì)使得Ψ模型具備了強(qiáng)大的靈活性，可以支持多種多樣的推理方式：

無(wú)條件預(yù)測(cè) ：僅給定第一幀，模型可以生成多種符合物理規(guī)律的、合理的未來(lái)畫(huà)面。

無(wú)條件預(yù)測(cè)生成的多種未來(lái)畫(huà)面

補(bǔ)丁條件預(yù)測(cè) ：給定未來(lái)幀的少數(shù)幾個(gè)關(guān)鍵補(bǔ)丁，模型就能“腦補(bǔ)”出完整的、高度確定的場(chǎng)景。甚至可以人為修改這些補(bǔ)丁，實(shí)現(xiàn)對(duì)物體的“反事實(shí)”編輯。通過(guò)稀疏補(bǔ)丁進(jìn)行條件預(yù)測(cè)和反事實(shí)編輯
相機(jī)條件預(yù)測(cè) ：給定相機(jī)的位姿變換參數(shù)，模型能夠合成新視角的圖像，即“新視角合成”。相機(jī)條件預(yù)測(cè)實(shí)現(xiàn)新視角合成

此外，模型還能通過(guò)分析預(yù)測(cè)中的熵（不確定性）來(lái)管理和逐步降低場(chǎng)景的不確定性。

第二步：結(jié)構(gòu)提取 (Structure Extraction)

擁有了強(qiáng)大的Ψ模型后，第二步是通過(guò)“因果推斷”的方式，從模型中零樣本（zero-shot）地提取出有意義的“中間結(jié)構(gòu)”。這里的核心思想是：通過(guò)設(shè)計(jì)巧妙的“反事實(shí)”提示來(lái)“拷問(wèn)”模型，觀察其反應(yīng)，從而揭示出場(chǎng)景中潛在的物理結(jié)構(gòu)。

光流提取 ：通過(guò)在一個(gè)像素點(diǎn)上施加一個(gè)微小的“擾動(dòng)”，然后觀察這個(gè)擾動(dòng)在下一幀“傳播”到了哪里，就可以計(jì)算出像素的運(yùn)動(dòng)軌跡，即光流。光流提取流程：擾動(dòng)并計(jì)算KL散度
對(duì)象分割 ：通過(guò)假設(shè)場(chǎng)景中的一小塊區(qū)域發(fā)生了移動(dòng)，并讓模型預(yù)測(cè)整個(gè)場(chǎng)景會(huì)如何“連貫地”變化。那些“跟隨”這一小塊區(qū)域一起運(yùn)動(dòng)的像素，很可能屬于同一個(gè)物體。對(duì)象分割流程：通過(guò)假設(shè)運(yùn)動(dòng)來(lái)分割物體
深度提取 ：通過(guò)假設(shè)相機(jī)發(fā)生了平移，模型會(huì)生成一個(gè)具有運(yùn)動(dòng)視差的新視角圖像。通過(guò)計(jì)算新舊圖像之間的位移，就可以反推出場(chǎng)景的深度信息。深度提取流程：通過(guò)假設(shè)相機(jī)運(yùn)動(dòng)來(lái)估計(jì)深度

第三步：整合 (Integration)

提取出的光流、分割、深度等結(jié)構(gòu)信息本身就是一種更高級(jí)、更凝練的場(chǎng)景描述。第三步是將這些結(jié)構(gòu)信息“token化”，然后將它們與原始的RGB圖像token混合在一起，作為新的訓(xùn)練數(shù)據(jù)，送回給Ψ模型進(jìn)行持續(xù)訓(xùn)練。

這個(gè)整合步驟至關(guān)重要，它相當(dāng)于為模型引入了一種新的“語(yǔ)言”。模型不僅要學(xué)會(huì)從RGB預(yù)測(cè)未來(lái)，還要學(xué)會(huì)理解和預(yù)測(cè)光流、深度等結(jié)構(gòu)。這使得模型：

擁有了更強(qiáng)的控制能力 ：可以直接給定光流信息來(lái)控制視頻的生成，實(shí)現(xiàn)對(duì)物體運(yùn)動(dòng)的精確操控。
提取出更準(zhǔn)的結(jié)構(gòu) ：模型可以直接預(yù)測(cè)光流等結(jié)構(gòu)，避免了從RGB間接推斷帶來(lái)的誤差。
實(shí)現(xiàn)更好的基礎(chǔ)預(yù)測(cè) ：通過(guò)將復(fù)雜的視頻預(yù)測(cè)任務(wù)分解為“先預(yù)測(cè)運(yùn)動(dòng)（光流），再根據(jù)運(yùn)動(dòng)渲染畫(huà)面”，模型有效避免了在模糊運(yùn)動(dòng)場(chǎng)景下直接預(yù)測(cè)RGB時(shí)容易出現(xiàn)的“運(yùn)動(dòng)坍塌”（motion collapse）問(wèn)題，即生成靜止的畫(huà)面。

通過(guò)光流token實(shí)現(xiàn)更強(qiáng)的生成控制

集成光流后，模型能成功預(yù)測(cè)動(dòng)態(tài)場(chǎng)景，而僅用RGB的模型則預(yù)測(cè)失?。ㄟ\(yùn)動(dòng)坍塌）

CV君認(rèn)為，這個(gè)“預(yù)測(cè)-提取-整合”的循環(huán)是一個(gè)非常優(yōu)雅的自舉（bootstrapping）過(guò)程。它讓模型從一個(gè)只能理解像素的基礎(chǔ)模型，逐步成長(zhǎng)為一個(gè)能夠理解和操作運(yùn)動(dòng)、幾何、對(duì)象等高級(jí)概念的強(qiáng)大世界模型，并且這個(gè)過(guò)程是持續(xù)不斷的，模型的潛力可以隨著循環(huán)的迭代而無(wú)限增長(zhǎng)。

實(shí)驗(yàn)與結(jié)果

研究團(tuán)隊(duì)在一個(gè)包含 1.4萬(wàn)億 視頻token的大規(guī)模數(shù)據(jù)集上訓(xùn)練了一個(gè)7B參數(shù)的Ψ模型。實(shí)驗(yàn)結(jié)果表明，PSI框架在多項(xiàng)任務(wù)上都取得了非常出色的表現(xiàn)。

結(jié)構(gòu)提取性能

在沒(méi)有經(jīng)過(guò)任何監(jiān)督訓(xùn)練的情況下，Ψ模型提取出的結(jié)構(gòu)在多個(gè)基準(zhǔn)測(cè)試中達(dá)到了SOTA（State-of-the-Art）水平。

光流：在TAP-Vid基準(zhǔn)上，Ψ的性能超越了包括有監(jiān)督方法在內(nèi)的基線模型。 TAP-Vid光流跟蹤任務(wù)結(jié)果
對(duì)象分割與深度估計(jì) ：在整合了光流token后，Ψ在SpelkeBench（對(duì)象分割）和NYUD、BONN（深度估計(jì)）等多個(gè)自監(jiān)督基準(zhǔn)上均取得了SOTA性能。整合光流后在分割和深度估計(jì)任務(wù)上的結(jié)果

可控生成與視頻預(yù)測(cè)

新視角合成與物體操縱 ：在WildRGB-D（新視角合成）和3DEditBench（物體操縱）任務(wù)上，整合了光流的Ψ模型性能遠(yuǎn)超專門(mén)的擴(kuò)散模型和編輯方法，展現(xiàn)了其對(duì)場(chǎng)景3D結(jié)構(gòu)和物理規(guī)律的深刻理解。新視角合成與物體操縱任務(wù)結(jié)果
視頻預(yù)測(cè)質(zhì)量 ：在DAVIS和YouTube視頻數(shù)據(jù)集上，集成了光流的Ψ模型在單幀視頻預(yù)測(cè)任務(wù)上的表現(xiàn)顯著優(yōu)于其僅使用RGB的“前身”以及COSMOS基線模型，有效緩解了運(yùn)動(dòng)模糊和坍塌問(wèn)題。視頻預(yù)測(cè)質(zhì)量對(duì)比

更多應(yīng)用

論文還展示了PSI在物理視頻編輯（如改變保齡球軌跡）、視覺(jué)Jenga游戲（判斷移除哪個(gè)木塊不會(huì)導(dǎo)致坍塌）以及機(jī)器人運(yùn)動(dòng)規(guī)劃（從靜態(tài)圖像預(yù)測(cè)物體可動(dòng)性）等方面的應(yīng)用潛力。

物理視頻編輯：干預(yù)保齡球軌跡

機(jī)器人應(yīng)用：從單張靜態(tài)圖像預(yù)測(cè)物體的可操縱性

總結(jié)與貢獻(xiàn)

這篇論文提出了 概率結(jié)構(gòu)集成（PSI），一個(gè)用于學(xué)習(xí)可控、可提示世界模型的通用框架。其主要貢獻(xiàn)可以總結(jié)為：

提出一個(gè)自增強(qiáng)的循環(huán)框架 ：通過(guò)“概率預(yù)測(cè) → 結(jié)構(gòu)提取 → 整合”的循環(huán)，模型能夠持續(xù)地自我提升，從簡(jiǎn)單的像素預(yù)測(cè)器進(jìn)化為能夠理解和操作高級(jí)結(jié)構(gòu)（如運(yùn)動(dòng)、深度、對(duì)象）的強(qiáng)大世界模型。
實(shí)現(xiàn)零樣本結(jié)構(gòu)提取 ：展示了如何通過(guò)對(duì)一個(gè)統(tǒng)一的生成模型進(jìn)行因果推斷式提示，在沒(méi)有任何標(biāo)簽的情況下提取出高質(zhì)量的視覺(jué)結(jié)構(gòu)。
構(gòu)建了統(tǒng)一且可擴(kuò)展的模型 ：通過(guò)巧妙的token化和序列混合機(jī)制，PSI可以在不改變模型架構(gòu)的情況下，持續(xù)集成新的知識(shí)和控制能力，向著類似LLM的“通用提示語(yǔ)言”邁出了堅(jiān)實(shí)的一步。
驗(yàn)證了卓越的性能 ：在 1.4萬(wàn)億 token的視頻數(shù)據(jù)上訓(xùn)練的模型，在多項(xiàng)視頻理解、生成和控制任務(wù)上取得了SOTA結(jié)果，證明了該框架的可擴(kuò)展性和有效性。

總而言之，PSI為構(gòu)建下一代通用人工智能，特別是能夠與物理世界進(jìn)行豐富交互的具身智能，提供了一個(gè)極具前景和啟發(fā)性的研究方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.