世界模型不止「視頻」如何評估？WorldLens提出實用化評估新框架

2025-12-23 17:55:56　來源: 機器之心Pro

河北舉報

分享至

生成式世界模型在機器人、自動駕駛、AIGC等領域的進展肉眼可見：從單視角、行車記錄儀式的視頻合成，到可控、多視角、長時序的 4D 場景生成，越來越多系統(tǒng)已經(jīng)能輸出「看起來很逼真」的視頻畫面。

但問題也隨之變得尖銳：當一個模型被稱為「世界模型」時，我們究竟在期待它具備什么能力？

僅用 LPIPS、FVD 這類視頻指標，或「清晰 / 流暢 / 像真視頻」的主觀印象，很容易把討論停留在「像不像視頻」。而真正決定它是否能服務仿真、規(guī)劃、數(shù)據(jù)合成和閉環(huán)決策的，往往是那些視頻指標難以觸及的屬性：幾何是否自洽、多視角是否一致、時序是否穩(wěn)定、行為是否可執(zhí)行、下游是否可用、人類是否認可其物理與安全合理性。

近期，WorldBench 團隊構建了全新、體系化的世界模型評測框架 WorldLens。

據(jù)悉，這是領域內首個從生成 (Generation)、重建 (Reconstruction)、指令跟隨 (Action-Following)、下游任務 (Downstream)和人類偏好 (Human Preference)等五個維度同時出發(fā)，評測現(xiàn)有開源世界模型的框架。評測 EvalKit 現(xiàn)已公開。

論文鏈接：https://arxiv.org/abs/2512.10958
項目主頁：https://worldbench.github.io/worldlens
開源評測代碼庫：https://github.com/worldbench/WorldLens
官方 Leaderboard：https://huggingface.co/spaces/worldbench/WorldLens

為什么「世界模型評估」會成為瓶頸？

世界模型研究正快速從「能生成」走向「能用」。一旦它被放進真實鏈路，如作為仿真器用于閉環(huán)測試、作為數(shù)據(jù)引擎用于訓練感知與規(guī)劃、作為可交互環(huán)境支撐反事實推演，評估問題就不再是「文章里有沒有幾個指標」，而是決定整個方向能否規(guī)模化推進的基礎設施。

現(xiàn)實中，我們經(jīng)?？吹揭环N現(xiàn)象：有的模型生成的視頻紋理很強、觀感極佳，但多視角幾何對不上，時序也容易抖；有的模型幾何更穩(wěn)，卻在行為層面頻繁出現(xiàn)不合理運動；也有模型在開環(huán)指標上看似過關，但閉環(huán)很快崩掉。更麻煩的是，不同工作各用各的評測，結論難以對齊，失敗模式也難以復現(xiàn)與歸因。

WorldLens 的核心動機很明確：評估對象已經(jīng)從「視頻」變成「世界」，那么我們需要一套能覆蓋世界屬性 (World Attribute)、能診斷失敗來源、能在不同模型間公平對比的評測協(xié)議。

WorldLens 是什么

WorldLens并不試圖用一個分數(shù)給世界模型「蓋棺定論」，而是把評估拆成五個互補的 Aspect，讓每個 Aspect 回答一個現(xiàn)實問題：

生成 (Generation)：模型生成的畫面是否在對象、時間、語義、幾何、多視角層面都足夠可信？
重建 (Reconstruction)：這些序列能否被還原成一個穩(wěn)定的 4D 場景，并在新視角下仍然成立？
指令跟隨 (Action-Following)：把生成世界「喂」給規(guī)劃器，Agent 還能不能「正常運行」？尤其是在閉環(huán)條件下。
下游任務 (Downstream Task)：用它生成的數(shù)據(jù)訓練 / 測試真實感知任務，是幫助還是負遷移？
人類偏好 (Human Preference)：人類看完是否會覺得「可信」「合理」「安全」？這種判斷能否被規(guī)?；瘜W習成自動評估器？

如果把世界模型看作一種新的「系統(tǒng)級組件」，這五個方面分別對應它在真實落地鏈路中的五個關鍵關卡：看得像、立得住、跑得動、用得上、說得通。

Aspect 1: 生成 (Generation) ——「幀級真實」只是起點

很多世界模型最先打動人的，是單幀畫面的清晰度與質感。但只要把鏡頭拉長到時序、把設置擴展到多攝像頭，就會出現(xiàn)大量「視頻指標不敏感，但真實系統(tǒng)非常在意」的問題。

WorldLens在生成性評估這一部分，重點不是繼續(xù)追問「更像真實視頻了嗎」，而是把生成質量拆到更貼近世界屬性的層面。它會在對象層面檢查車輛、行人等關鍵參與者是否真實可信（例如外觀與語義是否對齊），也會在時序層面檢查同一個對象是否能穩(wěn)定地保持「同一個身份」，避免出現(xiàn)紋理閃爍、形狀漂移、甚至像換了一個實體的情況。

更關鍵的是，WorldLens把幾何與多視角一致性拉回到生成評估中心。即便模型不直接輸出深度，它仍然可以通過估計深度來觀察幾何隨時間是否平滑演化，從而捕捉到隱式幾何不穩(wěn)定；同時，通過跨視角匹配衡量相機之間的結構與光度對齊，直接檢驗生成「多視角世界」的能力。

Aspect 2: 重建 (Reconstruction) —— 如果是「世界」，就應當能被重建

「像世界」不只是看起來合理，更重要的是它是否隱含一個可以被還原的穩(wěn)定結構。WorldLens在重建方面做了一件很有辨識度的事：把生成視頻統(tǒng)一提升為 4D Gaussian Field，再從多個角度檢驗它的空間與時間一致性。

在原視角上，它關心重建后能否忠實再現(xiàn)輸入（也就是最基礎的光度 / 外觀重現(xiàn)）；但更有信息量的是新視角評測：沿著未見過的相機軌跡渲染新視圖，看是否會出現(xiàn)結構崩壞、遮擋錯誤或明顯偽影，并衡量新視圖與真實分布之間的差距。

這一套流程經(jīng)常會暴露出一種典型失效模式，也即論文中反復強調的「floaters」：在新視角下出現(xiàn)大量懸浮、不連續(xù)的幾何碎片。它非常直觀地揭示了一個事實：感知真實不等于幾何真實。一個模型可以把紋理做得極其逼真，但只要幾何與時序沒有被真正建模，新視角就會迅速「露餡」。

Aspect 3: 指令跟隨 (Action-Following) —— 能「看」，不代表能「用」

如果世界模型要進入自動駕駛的核心鏈路，繞不開的一步是：把它生成的世界交給規(guī)劃器，看系統(tǒng)還能不能跑起來。WorldLens在這一部分同時做了開環(huán)與閉環(huán)評測，目的不是「給規(guī)劃器打分」，而是把規(guī)劃器當作媒介，測試生成世界是否提供了足夠穩(wěn)定、足夠可信的可行動線索。

開環(huán)評測里，規(guī)劃器的輸出不反過來影響車輛狀態(tài)，因此更像是「在固定輸入上做預測」。不少模型在開環(huán)條件下仍能表現(xiàn)得相對體面。但一旦進入閉環(huán)，規(guī)劃輸出會不斷影響下一時刻狀態(tài)，誤差會累積放大，許多模型會很快出現(xiàn)碰撞、越界、漂移、路線中止等問題。WorldLens 給出的結論非常一致：閉環(huán)會顯著放大生成世界中那些肉眼未必立刻察覺的不一致。

如果你的目標是用世界模型服務決策與控制，那么閉環(huán)評測就不應當是「可選項」，而應當是「必要條件」。WorldLens 的意義在于把這件事從經(jīng)驗共識變成可復現(xiàn)的評估協(xié)議。

Aspect 4: 下游任務 (Downstream Task) ——「好看」的合成數(shù)據(jù)，未必「有用」

世界模型的另一個常見愿景，是成為數(shù)據(jù)引擎：生成更多訓練數(shù)據(jù)，幫助真實感知與預測模型。但合成數(shù)據(jù)是否「可用」，往往不是由視覺觀感決定的，而是由分布對齊、幾何噪聲與時間一致性決定的。

WorldLens 直接把生成數(shù)據(jù)拿來評測多個真實下游任務，包括 BEV 地圖分割、3D 檢測、3D 跟蹤與語義 Occupancy 預測等。這里最具沖擊力的現(xiàn)象是：一些單看畫面非常漂亮的模型，在下游任務上反而會出現(xiàn)顯著退化，論文中報告的降幅可達 30–50%。這意味著合成數(shù)據(jù)并不能被簡單視為真實數(shù)據(jù)的等價替代，甚至可能帶來負遷移。

這部分評測的價值在于，它把「世界模型是否有用」從理論討論落到了具體任務與具體數(shù)字上，并且指出了改進方向：如果目標是數(shù)據(jù)引擎，僅提升紋理質量遠遠不夠，結構與時間層面的對齊往往才是關鍵。

Aspect 5: 人類偏好 (Human Preference) —— 把「人類判斷可信世界」變成可學習信號

很多世界屬性 (World Attribute) 本質上包含主觀判斷：什么叫「可信」「合理」「安全」？純自動指標很難覆蓋這種綜合感受。

WorldLens因此構建了大規(guī)模人類偏好數(shù)據(jù)集WorldLens-26K，包含 26808 條評測樣本，每條既有數(shù)值評分，也有自然語言解釋，用來記錄標注者為什么給出這個分數(shù)、注意到了哪些異常。

更重要的是，WorldLens并沒有把人類評測停留在「投票式打分」，而是把這些偏好監(jiān)督進一步用于訓練自動評估代理 WorldLens-Agent。該 Agent 能輸出與人類偏好一致的評分，并生成可解釋的理由，從而在不重復大規(guī)模人工標注的前提下，實現(xiàn)可擴展、可復現(xiàn)的主觀評估。

從研究視角看，這一步相當于把「人類覺得哪里不對」轉化成了可學習、可迭代的評估器，也為未來用偏好對齊來反向優(yōu)化世界模型打開了路徑。

沒有「全能模型」，但失效模式高度一致

WorldLens 的價值不止于 benchmarking，更在于用統(tǒng)一評估把不同模型的能力邊界與失效模式系統(tǒng)性地暴露出來?？缥鍌€ Aspect 的結果呈現(xiàn)出幾個非常穩(wěn)定、也很值得反復咀嚼的現(xiàn)象。

首先，不同 Aspect 之間存在明顯的能力斷層。Generation 指標上領先的模型，未必能在重建與新視角上站得住；單視角觀感極佳的模型，跨視角一致性可能依然脆弱；開環(huán)還能勉強運行的模型，閉環(huán)往往迅速失穩(wěn)。這說明世界模型的能力并不是一條從差到好的線性刻度。

其次，幾何與時序穩(wěn)定性像一條「共同瓶頸」，貫穿 Generation、Reconstruction、Action-Following 乃至 Downstream Task。幾何不穩(wěn)會在新視角下暴露為 floaters，也更容易在閉環(huán)中放大為事故，并進一步拖累下游任務表現(xiàn)。

這也解釋了一個常見困惑：為什么某些模型看起來更清晰，卻不一定更可用 —— 因為紋理質量并不能替代世界結構的自洽。

再次，閉環(huán)評測會把世界模型的缺陷放大到「無法忽視」。在閉環(huán)中，任何微小的不一致都會持續(xù)積累，最終表現(xiàn)為碰撞、偏航與路線失敗。這對于希望把世界模型用于仿真、驗證與安全測試的研究者而言，是非常直接的提醒：如果只在開環(huán)里「看起來不錯」，距離真實可用仍然很遠。

最后，人類偏好與自動指標既相關又不完全一致。人類解釋文本往往會直接指出幾何異常、物理違背與行為風險，這些信息對理解失敗原因非常關鍵，也為自動評估代理提供了訓練依據(jù)。換句話說，主觀評估并不是「不可量化的玄學」，而是可以被結構化、被學習、并最終進入評估閉環(huán)的一部分。

總結：評估將與生成同等重要

當世界模型從「生成好看的片段」走向「構建可交互的世界」，評估就必須從「視頻質量」升級為「世界屬性」。WorldLens 的貢獻在于把這件事做成了可執(zhí)行的協(xié)議：用五個 Aspect 覆蓋從視覺到幾何、從功能到偏好的一整條鏈路，并用人類數(shù)據(jù)與評估代理把主觀判斷也納入可規(guī)模化的體系。

如果說世界模型的上半場比拼的是「能不能生成」，那么下半場更可能比拼的是：能不能生成一個在幾何、物理、行為與人類判斷上都經(jīng)得起檢驗的世界。WorldLens 試圖為這場下半場提供一套共同語言。

作者介紹

本工作由 WorldBench 團隊完成，該團隊匯集了來自世界模型、視頻生成、自動駕駛等方向的研究者，在領域內構建了體系化、易用、性能可靠的各類生成 / 評測框架，包括 VBench、LiDARCrafter、DynamicCity、DrivingSphere、AD-R1 等

研究者來自世界知名高校、企業(yè)，包括了新國立、中科院、中科大、浙大、澳門大學、地平線、南洋理工、華科、慕尼黑工大、復旦、上海人工智能實驗室等

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.