具身智能大佬引用,Huggingface催更:北京人形開源WoW具身世界模型

2025-10-17 20:40:11　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心發(fā)布

機(jī)器之心編輯部

如果說 GPT 系列讓 AI 理解語言，Sora 系列讓 AI 生成視覺世界，那么 WoW 正在嘗試讓 AI 建模物理世界。

在「具身智能」與「世界模型」成為新一輪 AI 競賽關(guān)鍵詞的當(dāng)下，來自北京人形機(jī)器人創(chuàng)新中心、北京大學(xué)多媒體信息處理國家重點(diǎn)實(shí)驗室、香港科技大學(xué)的中國團(tuán)隊開源了全新的世界模型架構(gòu)。

該團(tuán)隊提出了一個讓機(jī)器真正 “看見、理解并行動于世界” 的世界模型 ——WoW（World-Omniscient World Model, 意圖讓 AI 學(xué)會 “做”—— 通過身體與世界互動來學(xué)習(xí)因果與物理，致力于助力行業(yè)打造 “最好用” 的具身智能機(jī)器人。

一經(jīng)發(fā)布，受到學(xué)術(shù)界產(chǎn)業(yè)界關(guān)注關(guān)注，其中 Huggingface 留言："Excellent work" 催更開源，斯坦福具身智能大佬，PI 創(chuàng)始人 Chelsea Finn & 清華合作文章引用 WoW 具身世界模型技術(shù)報告。

不是看圖說話，而是動手理解世界：WoW 模型揭秘

真正具備物理理解的世界模型，必須建立在與現(xiàn)實(shí)世界廣泛且因果豐富的交互與反饋之上。

人類通過與世界的主動互動，逐漸發(fā)展出對直覺物理的理解。這一點(diǎn)，與當(dāng)下的視頻生成模型形成鮮明對比 —— 主要依賴 “被動觀察”，盡管 scaling up 已經(jīng)證明這樣的生成有著驚人的潛力，但是在面對真實(shí)物理因果關(guān)系時可能會力不從心。作為一個預(yù)測模型，必須要認(rèn)識到未來是多樣的，如薛定諤的貓，在實(shí)質(zhì)觀測和交互之前，永遠(yuǎn)沒有辦法給出準(zhǔn)確的答復(fù)，能做的是給出一系列可能發(fā)生的選項。

從海量交互數(shù)據(jù)中學(xué)出物理直覺

WoW 從 800 萬條海量機(jī)器人與物理世界交互軌跡篩選出200 萬條高質(zhì)量的訓(xùn)練集、在參數(shù)量高達(dá) 140 億的視頻模型進(jìn)行訓(xùn)練，結(jié)果顯示，模型具備了對 “未來合理物理結(jié)果的概率分布” 的構(gòu)建能力。

WoW 生成依次抓取火方塊，柔性方塊，水方塊

Sora 2 生成依次抓取火方塊，柔性方塊，水方塊

WoW 生成抓取移動放下透明容器

Sora 2 生成抓取移動放下透明容器

WoW 在多個任務(wù)中涌現(xiàn)出驚艷的符合物理直覺的生成效果。這意味著，AI 正在逐步具備 “直覺物理” 能力，或許也看到了通用機(jī)器人真正落地與泛化能力的曙光。

融合感知、生成與行動

WoW 的四大核心模塊

WoW 提出了一個全新的框架，將世界生成、動作預(yù)測、視覺理解和自我反思融合為一個統(tǒng)一系統(tǒng)。這不僅僅是一次視覺模型的升級，而是一個融合了視覺、動作、物理與推理的世界生成框架。它讓 AI 不再只是「看視頻」或「生成圖像」，而能通過交互學(xué)習(xí)世界的物理規(guī)律，并在真實(shí)環(huán)境中自主操作。這個系統(tǒng)由四個核心組件構(gòu)成：

SOPHIA 自反范式—— 讓模型能自我評判、修正、重寫。
DiT 世界生成引擎—— 生成未來場景，預(yù)測物理演化。
FM-IDM 逆動力學(xué)模型—— 將視頻預(yù)測轉(zhuǎn)化為可執(zhí)行動作。
WoWBench 世界基準(zhǔn)—— 用于評測 AI 的物理一致性、規(guī)劃能力和現(xiàn)實(shí)部署表現(xiàn)。

一句話總結(jié)：

WoW 是一個能「想象世界 → 理解物理 → 生成視頻 → 執(zhí)行動作 → 再學(xué)習(xí)」的閉環(huán)大模型。

WoW 是一個融合了感知、預(yù)測、判斷、反思與行動五個環(huán)節(jié)的具身世界模型。它從真實(shí)的機(jī)器人交互數(shù)據(jù)中學(xué)習(xí)，能在已知與未知場景中生成高質(zhì)量、物理一致的機(jī)器人視頻，最終讓想象中的動作真正落地于現(xiàn)實(shí)執(zhí)行

SOPHIA 自反體系

讓世界模型 “自己教自己”

如何讓模型不斷變聰明？WoW 的答案是 ——自我反思與自我修正。團(tuán)隊提出的SOPHIA 框架，讓 AI 在生成結(jié)果后自我評估、給出反饋，并通過 Refiner Agent 改進(jìn)提示詞或推理鏈。

比較了三種框架的核心機(jī)制：(a) Diffusion 模型：從輸入上下文生成未來幀；(b) JEPA 模型：學(xué)習(xí)在嵌入空間中的預(yù)測一致性；(c) SOPHIA: 首先由預(yù)測器從上下文生成未來；接著由評估器對結(jié)果進(jìn)行打分，產(chǎn)生獎勵信號；然后由修正器基于獎勵和外部語言 / 嵌入反饋發(fā)出糾正信號；整個系統(tǒng)通過這種方式進(jìn)行循環(huán)優(yōu)化。

這種過程認(rèn)知閉環(huán)的反思式學(xué)習(xí) “想象 — 驗證 — 修正 — 再想象”，正是人類智能的核心特征。WoW 的 SOPHIA，讓大模型具備了這種能力。在核心層面，WoW 遵循 SOPHIA 范式—— 將大語言模型與擴(kuò)散 Transformer結(jié)合起來，在語言引導(dǎo)下生成物理上合理的未來，通過 “生成預(yù)測 — 批評 — 修正” 的迭代循環(huán)機(jī)制，WoW 將 “想象” 與 “推理” 統(tǒng)一為具身智能的基本組成部分。

左側(cè)展示了動態(tài)評論模型，它通過真實(shí)與合成視頻的標(biāo)注訓(xùn)練，學(xué)會判斷生成畫面的物理合理性。右側(cè)展示 Refiner Agent，根據(jù)評論模型的反饋不斷改寫提示詞、重新生成視頻，形成一個 “生成 — 批評 — 改進(jìn)” 的閉環(huán)優(yōu)化過程，讓模型越看越準(zhǔn)，越生成越真實(shí)

DiT 世界生成基座模型

WoW 工作中 SOPHIA 范式的核心，是一個基于Diffusion Transformer架構(gòu)的世界生成引擎，它能夠根據(jù)環(huán)境狀態(tài)與智能體當(dāng)前觀測，預(yù)測未來場景、推演物理演化、還原動態(tài)因果鏈。更值得注意的是，團(tuán)隊在論文中宣布：從1.3B → 2B → 7B → 14B 參數(shù)的全系列擴(kuò)展的模型權(quán)重、推理代碼與 WoWBench 基準(zhǔn)已經(jīng)開源，以促進(jìn)世界模型研究社區(qū)的復(fù)現(xiàn)與合作。

這不僅是一個模型，更是一個具備真實(shí)世界推理與生成能力的「物理引擎 + 想象系統(tǒng)」。

視頻擴(kuò)散世界模型概覽。(a) 推理階段：一個潛空間擴(kuò)散 Transformer 根據(jù)圖像觀測與基于文本的動作描述來預(yù)測未來幀。(b) 訓(xùn)練階段：通過 DINO 特征對擴(kuò)散 Transformer 的中間表征進(jìn)行監(jiān)督，采用特征關(guān)系蒸餾損失來提升模型的時空建模能力。

從視頻到動作

給算法觸摸世界的雙手

WoW 的最大亮點(diǎn)之一，在于讓「視頻生成」和「機(jī)器人動作」閉環(huán)。

WoW 團(tuán)隊提出的FM-IDM能把預(yù)測的未來視頻幀，直接反解成機(jī)器人末端 7-DoF 動作。

給定連續(xù)兩幀預(yù)測視頻，F(xiàn)M-IDM 能夠計算出機(jī)器人末端執(zhí)行器的動作變化量，從視覺 “想象” 中反推出真實(shí)可執(zhí)行的運(yùn)動指令，讓模型真正實(shí)現(xiàn)從視頻到行動的閉環(huán)

其實(shí)驗結(jié)果令人驚艷：

WoW 在真實(shí)機(jī)器人環(huán)境中的有效性。(左) 展示了 WoW 在真實(shí)機(jī)器人上執(zhí)行的簡單與中等難度任務(wù)的成功軌跡示例。 (右）展示三種不同世界模型骨干在現(xiàn)實(shí)世界準(zhǔn)確性比較的定量結(jié)果。在所有基礎(chǔ)模型中，微調(diào)都極大地提高了現(xiàn)實(shí)世界中的性能，其中 WoW-cosmos2 達(dá)到了最高得分，展現(xiàn)了最優(yōu)的實(shí)際執(zhí)行能力。

WoW 將模型在 20 個操控任務(wù)上進(jìn)行部署。視頻回放實(shí)驗評估IDM 模型的訓(xùn)練性能，在簡單難度的任務(wù)達(dá)到 94.5%，中等難度的成功率達(dá)到 75.2% (創(chuàng)下新 SOTA，尤其在中等難度任務(wù)上顯著超越其他方法）。在復(fù)雜任務(wù)（如抓取、切割、分類）中具備「想象 — 執(zhí)行 — 自我糾錯」能力。這意味著 AI 不再停留在 “想象中”，而能真正 “動手” 去驗證其理解，這標(biāo)志著它真正實(shí)現(xiàn)了從生成到執(zhí)行的跨越。

WoWBench

讓世界模型有了 “考試卷”

沒有評估，就沒有科學(xué)。團(tuán)隊提出了WoWBench—— 全球首個針對具身世界模型的綜合基準(zhǔn)。它包含近千個高質(zhì)量交互樣本，覆蓋 4 大核心維度，感知理解，預(yù)測推理，決策與規(guī)劃，泛化執(zhí)行。WoWBench 的評估角度覆蓋多個指標(biāo)，包括視覺保真與時間一致性，掩碼引導(dǎo)的區(qū)域一致性，指令理解與語義正確性，物理與因果推理，規(guī)劃與任務(wù)分解。

WoWBench 圍繞五個核心組成部分構(gòu)建：（左上）多維評測體系，從視頻質(zhì)量、規(guī)劃推理、物理規(guī)律、指令理解四個角度評價生成結(jié)果；（中上）對應(yīng)具身世界模型的四大核心能力 —— 感知、規(guī)劃、預(yù)測與泛化；（右上）依托多源數(shù)據(jù)構(gòu)建流程，融合自采、開源與 AI 生成數(shù)據(jù)，并結(jié)合 GPT 預(yù)篩選 + 人類標(biāo)注的混合機(jī)制，形成高質(zhì)量的視頻–指令對（圖中三張餅圖展示了數(shù)據(jù)分布統(tǒng)計）；（中部）采用雙評測機(jī)制：專家模型評估運(yùn)動與一致性，GPT 或精調(diào) VLM 評估指令理解與任務(wù)規(guī)劃；（底部）還邀請了 12 位領(lǐng)域?qū)＜疫M(jìn)行人工評審，確保模型表現(xiàn)與人類認(rèn)知一致。

WoW 不只是能「生成逼真視頻」，而是真的理解了世界在如何運(yùn)轉(zhuǎn)。

在 WoWBench 這個面向 “具身智能” 的綜合評分系統(tǒng)中，WoW 模型表現(xiàn)搶眼：不僅能準(zhǔn)確理解任務(wù)指令（得分 96.5%），對物體運(yùn)動的預(yù)測也高度符合物理規(guī)律（物理一致性超 80%）。這意味著，它不只是會 “看”，也開始 “懂” 了自然法則。

WoWBench 各模型多維細(xì)粒度性能對比圖，這張圖展示了不同模型在 WoWBench 各項指標(biāo)下的詳細(xì)表現(xiàn)。不同顏色的方塊代表四個核心維度 —— 感知、預(yù)測、規(guī)劃與泛化，每個模塊中都給出了直觀的圖表，對比各模型在不同評測指標(biāo)下的得分差異。

實(shí)驗

同期模型對比實(shí)驗

WoW 團(tuán)隊比較了六種模型在 WoWBench 基準(zhǔn)下的總體性能，包括 CogVideoX、Wan2.1、Cosmos-Predict 以及團(tuán)隊提出的 WoW 系列模型。結(jié)果顯示，數(shù)據(jù)規(guī)模越大、架構(gòu)越先進(jìn)的模型，在性能上呈現(xiàn)顯著正相關(guān)。

WoW-DiT 本身已經(jīng)在人類與自動評測中均取得最高分（Overall = 49.39）

下面實(shí)驗結(jié)果，說明 WoW 的 “自我優(yōu)化循環(huán) SOPHIA 范式” 使模型能從推理 — 生成 — 反思的閉環(huán)中不斷改進(jìn)，區(qū)別于傳統(tǒng)僅追求視覺保真度的視頻生成模型。

加入 Agent 自優(yōu)化模塊后，WoW+Agent 的總體評分進(jìn)一步提升至 51.97，超過其他對比模型。

消融實(shí)驗

此節(jié)闡述了 WoW 在具身智能領(lǐng)域?qū)ι窠?jīng)網(wǎng)絡(luò) Scaling Law 規(guī)律的探索結(jié)果。在數(shù)據(jù)與模型均擴(kuò)大的情況下，性能呈單調(diào)上升但逐漸飽和，這與 GPT 系列、Diffusion 模型的經(jīng)驗一致，說明其架構(gòu)穩(wěn)定且具備擴(kuò)展?jié)摿?。?shí)驗主要針對三個核心變量，數(shù)據(jù)規(guī)模、任務(wù)難度、模型規(guī)模等。結(jié)果表明總體性能遵循典型冪律關(guān)系。其中性能最大收益出現(xiàn)在從200k → 600k的擴(kuò)展中。任務(wù)難度消融實(shí)驗說明模型在中等和困難任務(wù)中尚未飽和，更多對應(yīng)類型數(shù)據(jù)可進(jìn)一步提升性能。此外，在不同尺寸模型中 14B 模型性能最強(qiáng)但推理最慢，7B 模型在性能與效率間更平衡。

數(shù)據(jù)規(guī)模與任務(wù)難度消融結(jié)果

外源評測基準(zhǔn)下數(shù)據(jù)規(guī)?？s放比較

模型規(guī)模縮放實(shí)驗

泛化能力分析

WoW 不是在記憶訓(xùn)練場景，而是在學(xué)習(xí)“物理規(guī)律的抽象本質(zhì)”。這類 “視覺 + 物理” 的泛化能力，是通向具身智能的關(guān)鍵指標(biāo)。WoW 展現(xiàn)了三種核心泛化能力。

跨機(jī)器人形態(tài)泛化

WoW 世界模型在不同機(jī)器人平臺上的泛化表現(xiàn)。無論是 UR5、Franka、AgileX 雙臂機(jī)器人，還是靈巧手與仿真環(huán)境，模型都能在零微調(diào)的情況下準(zhǔn)確理解指令并完成任務(wù)，體現(xiàn)出對不同機(jī)器人結(jié)構(gòu)與動力學(xué)的強(qiáng)大適應(yīng)能力。這說明模型學(xué)到與身體形態(tài)無關(guān)的物理表示。

任務(wù)泛化

WoW 模型能夠覆蓋多達(dá) 15 種動作技能，從基礎(chǔ)（pull、push）到復(fù)雜（tie、unstack）。并且模型能學(xué)習(xí)組合式技能表示，而非死記具體動作。

領(lǐng)域泛化

WoW 模型展現(xiàn)出很強(qiáng)的領(lǐng)域外零樣本泛化能力。WoW 能夠操作剛體、流體、不同大小與初始狀態(tài)的物體，甚至在不同視覺風(fēng)格（照片、素描、油畫）下仍能正確預(yù)測執(zhí)行。

高級推理與泛化能力

反事實(shí)推理與重新規(guī)劃

WoW 世界模型進(jìn)一步展示了如何在設(shè)定不同反事實(shí)假設(shè)（如酸性液體、敵意行為、材料屬性等）條件下，進(jìn)行合理的物理推理與未來場景生成:

在假設(shè)液體具有強(qiáng)腐蝕性時，刀具被腐蝕熔化，最終碎裂墜落；
在假設(shè)機(jī)器人行為被判定為敵對時，模型推理人類會做出反抗；
在假設(shè)夾克由堅硬石材制成時，機(jī)器人嘗試搬動卻無法抬起；
在假設(shè)蘋果為易碎材質(zhì)時，模型預(yù)測其被掰碎成多個碎片。

該圖體現(xiàn)了模型對 “如果…… 將會……” 類問題的理解能力，具備在假設(shè)條件下重新規(guī)劃行為的能力，標(biāo)志著具身智能系統(tǒng)朝向更高級推理與泛化能力的重要一步。

物理與邏輯一致性

這一節(jié)展示了 WoW 在符號邏輯與物理行動結(jié)合方面的突破。其核心特征是將邏輯結(jié)構(gòu)解析成具體操作圖，使得模型擁有 “理解 - 計劃 - 執(zhí)行” 的鏈?zhǔn)酵评頇C(jī)制，最后實(shí)驗結(jié)果顯示出模型能處理語言邏輯與物理空間的一致性約束。這說明 WoW 不僅能 “看懂” 指令，還能 “遵守邏輯規(guī)則去行動”。在認(rèn)知層面，構(gòu)建了 “從理解語義 → 推理約束 → 動作合成” 的完整智能路徑。

可以落地的應(yīng)用場景

論文不僅停留在理論上，還可以在多個方向落地驗證：

世界模型遷移與數(shù)據(jù)擴(kuò)增—— 從少量真實(shí)數(shù)據(jù)出發(fā)，生成更多合成樣本，降低數(shù)據(jù)采集與標(biāo)注成本。
智能體自我迭代平臺—— 提供自優(yōu)化接口。

此外，原文也涵蓋了動作到視頻仿真，4D 世界重建與虛擬孿生，從視頻到動作等應(yīng)用場景。

世界模型遷移與數(shù)據(jù)擴(kuò)增

AI 的 “自我造數(shù)” 能力

在真實(shí)世界中采集機(jī)器人視頻與動作數(shù)據(jù)，往往成本高昂、周期漫長。為此，WoW 團(tuán)隊提出了一條世界模型遷移與可控數(shù)據(jù)擴(kuò)增管線，讓 AI 能夠像科學(xué)家一樣，用自己的 “世界想象力” 來創(chuàng)造新數(shù)據(jù)。這條管線結(jié)合了可控視頻生成的多模態(tài)控制能力，使模型不僅能生成視頻，還能控制生成風(fēng)格、動作分布、光照和場景語義。

視覺風(fēng)格遷移增強(qiáng)示例

系統(tǒng)可在虛擬空間中完成“想象 → 生成 → 再標(biāo)注 → 遷移”的自循環(huán)過程。首先從少量真實(shí)交互樣本出發(fā)，自動合成成千上萬條物理一致的視覺 - 動作數(shù)據(jù)，然后通過多模態(tài)控制，實(shí)現(xiàn)不同任務(wù)類型、環(huán)境風(fēng)格與相機(jī)視角的多樣化生成。并且這種生成支持視覺風(fēng)格遷移與 VLA 數(shù)據(jù)同步合成，從而提升策略學(xué)習(xí)與視覺推理的泛化能力。

換句話說，WoW 讓 AI 擁有了真正的“自我造數(shù)”能力 —— 它不再完全依賴昂貴的人力采集，而能依靠世界模型的物理推理與想象能力，持續(xù)擴(kuò)展自己的學(xué)習(xí)邊界與世界認(rèn)知。結(jié)果表明，這種組合增強(qiáng)能有效模擬真實(shí)世界中自然出現(xiàn)的變化，提高 VLA 模型的泛化能力。

智能體自我迭代平臺

此外，WoW 還展現(xiàn)了更廣泛的應(yīng)用潛力。它不僅僅是一個生成器，還能提升 VLM 的推理能力，充當(dāng)物理仿真器，支持 3D 感知表征學(xué)習(xí)。WoW 團(tuán)隊發(fā)現(xiàn)，生成型世界模型可作為交互式沙盒，使 VLM 在長時序任務(wù)規(guī)劃中 “自我調(diào)試邏輯錯誤”。

通過世界模型仿真的 VLM 規(guī)劃自我校正。(a) 我們的迭代循環(huán)機(jī)制：VLM 規(guī)劃器首先提出一個動作方案，世界模型隨后模擬其未來幀，接著由 VLM 評論器（critic）對結(jié)果進(jìn)行評估并提供反饋，從而使規(guī)劃器能夠優(yōu)化下一步?jīng)Q策。 (b) 生成的示例：上圖展示了一個成功的規(guī)劃結(jié)果，而下圖展示了檢測到失敗后的重新規(guī)劃觸發(fā)過程。

例如給定實(shí)驗任務(wù)為 “將不同顏色的方塊分開，并把相同顏色的方塊堆疊。”，即一個空間推理任務(wù)。單次規(guī)劃設(shè)定下，即使是強(qiáng)大的 Qwen-7B 模型成功率也僅 30%。WoW 團(tuán)隊建立一個認(rèn)知循環(huán)。首先 VLM 提出子目標(biāo)，緊接著世界模型模擬未來幀，VLM 評估結(jié)果，若失敗則重新規(guī)劃。經(jīng)過 2 輪交互后，任務(wù)規(guī)劃成功率從 33% → 89%，任務(wù)任務(wù)完成率從 0% → 44%。實(shí)驗表明，這種基于模擬反饋的交互迭代機(jī)制，可顯著提升模型在模糊任務(wù)中的自我修正與反思能力。這種能力使得模型在長程任務(wù)表現(xiàn)得游刃有余。

未來

通向具身物理世界模型時代的 “操作系統(tǒng)”

從 GPT 到 Sora，我們讓 AI 會說、會看。

而 WoW 的真正野心在于讓 AI開始會 “干活”。WoW 通過系統(tǒng)性結(jié)合完成了想象世界 → 理解物理 → 生成視頻 → 執(zhí)行動作 → 再學(xué)習(xí)的邏輯閉環(huán)，而這僅僅是一個開始。當(dāng) AI 擁有 “手” 和 “身體”，能夠真實(shí)地探索世界、干預(yù)世界、理解因果、積累經(jīng)驗，它將不再只是世界的觀察者，而成為一個真正的智能體。這也意味著有可能演化出更貼近人類的具身心智模型，具備感知、理解、決策、記憶與行動的統(tǒng)一結(jié)構(gòu)等。

未來的研究將持續(xù)推進(jìn) WoW 在具身智能方向的多模態(tài)融合、自主學(xué)習(xí)、現(xiàn)實(shí)交互等能力邊界，探索 AI 如何像人類一樣在世界中生長、適應(yīng)與進(jìn)化。為了加速這個進(jìn)程，WoW 項目現(xiàn)已全面開源，向所有研究者與開發(fā)者開放。

具身智能體與世界模型的體系結(jié)構(gòu)：一個智能體通過多種感知輸入（例如視覺、聽覺、熱覺、力覺等）來感知外部環(huán)境。這些感知信號由世界模型進(jìn)行處理，構(gòu)建出一個關(guān)于環(huán)境的內(nèi)部預(yù)測表征。模型的預(yù)測結(jié)果以及保存在短期記憶與長期記憶中的過往經(jīng)驗，將為其推理與判斷提供依據(jù)。在此基礎(chǔ)上，執(zhí)行體根據(jù)內(nèi)部模擬生成相應(yīng)的動作，以操縱真實(shí)世界。這種閉環(huán)系統(tǒng)使智能體能夠：學(xué)習(xí)環(huán)境的動態(tài)規(guī)律；進(jìn)行未來的規(guī)劃與預(yù)判；并最終完成復(fù)雜的目標(biāo)任務(wù)。

結(jié)語

AI 的下一個十年，不僅屬于語言模型，也屬于世界模型。

而 WoW，無疑在這條路上，邁出了具有里程碑意義的一步。

從「理解世界」到「重建世界」，WoW 讓我們看到了人工智能真正成為具身智能體的未來。

機(jī)器終于有了 “身體的想象力”。
世界，也因此變得更可被理解。

論文地址: https://arxiv.org/pdf/2509.22642
項目地址: https://wow-world-model.github.io/#
開源代碼地址: https://wow-world-model.github.io/
開源模型地址：https://huggingface.co/WoW-world-model

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.