夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

世界模型不止「視頻」如何評估?WorldLens提出實用化評估新框架

0
分享至



生成式世界模型在機器人、自動駕駛、AIGC等領域的進展肉眼可見:從單視角、行車記錄儀式的視頻合成,到可控、多視角、長時序的 4D 場景生成,越來越多系統(tǒng)已經(jīng)能輸出「看起來很逼真」的視頻畫面。

但問題也隨之變得尖銳:當一個模型被稱為「世界模型」時,我們究竟在期待它具備什么能力?

僅用 LPIPS、FVD 這類視頻指標,或「清晰 / 流暢 / 像真視頻」的主觀印象,很容易把討論停留在「像不像視頻」。而真正決定它是否能服務仿真、規(guī)劃、數(shù)據(jù)合成和閉環(huán)決策的,往往是那些視頻指標難以觸及的屬性:幾何是否自洽、多視角是否一致、時序是否穩(wěn)定、行為是否可執(zhí)行、下游是否可用、人類是否認可其物理與安全合理性。

近期,WorldBench 團隊構建了全新、體系化的世界模型評測框架 WorldLens。

據(jù)悉,這是領域內首個從生成 (Generation)、重建 (Reconstruction)、指令跟隨 (Action-Following)、下游任務 (Downstream)和人類偏好 (Human Preference)等五個維度同時出發(fā),評測現(xiàn)有開源世界模型的框架。評測 EvalKit 現(xiàn)已公開。



  • 論文鏈接:https://arxiv.org/abs/2512.10958
  • 項目主頁:https://worldbench.github.io/worldlens
  • 開源評測代碼庫:https://github.com/worldbench/WorldLens
  • 官方 Leaderboard:https://huggingface.co/spaces/worldbench/WorldLens

為什么「世界模型評估」會成為瓶頸?

世界模型研究正快速從「能生成」走向「能用」。一旦它被放進真實鏈路,如作為仿真器用于閉環(huán)測試、作為數(shù)據(jù)引擎用于訓練感知與規(guī)劃、作為可交互環(huán)境支撐反事實推演,評估問題就不再是「文章里有沒有幾個指標」,而是決定整個方向能否規(guī)模化推進的基礎設施。



現(xiàn)實中,我們經(jīng)??吹揭环N現(xiàn)象:有的模型生成的視頻紋理很強、觀感極佳,但多視角幾何對不上,時序也容易抖;有的模型幾何更穩(wěn),卻在行為層面頻繁出現(xiàn)不合理運動;也有模型在開環(huán)指標上看似過關,但閉環(huán)很快崩掉。更麻煩的是,不同工作各用各的評測,結論難以對齊,失敗模式也難以復現(xiàn)與歸因。

WorldLens 的核心動機很明確:評估對象已經(jīng)從「視頻」變成「世界」,那么我們需要一套能覆蓋世界屬性 (World Attribute)、能診斷失敗來源、能在不同模型間公平對比的評測協(xié)議。



WorldLens 是什么

WorldLens并不試圖用一個分數(shù)給世界模型「蓋棺定論」,而是把評估拆成五個互補的 Aspect,讓每個 Aspect 回答一個現(xiàn)實問題:

  • 生成 (Generation):模型生成的畫面是否在對象、時間、語義、幾何、多視角層面都足夠可信?
  • 重建 (Reconstruction):這些序列能否被還原成一個穩(wěn)定的 4D 場景,并在新視角下仍然成立?
  • 指令跟隨 (Action-Following):把生成世界「喂」給規(guī)劃器,Agent 還能不能「正常運行」?尤其是在閉環(huán)條件下。
  • 下游任務 (Downstream Task):用它生成的數(shù)據(jù)訓練 / 測試真實感知任務,是幫助還是負遷移?
  • 人類偏好 (Human Preference):人類看完是否會覺得「可信」「合理」「安全」?這種判斷能否被規(guī)?;瘜W習成自動評估器?

如果把世界模型看作一種新的「系統(tǒng)級組件」,這五個方面分別對應它在真實落地鏈路中的五個關鍵關卡:看得像、立得住、跑得動、用得上、說得通。



Aspect 1: 生成 (Generation) ——「幀級真實」只是起點

很多世界模型最先打動人的,是單幀畫面的清晰度與質感。但只要把鏡頭拉長到時序、把設置擴展到多攝像頭,就會出現(xiàn)大量「視頻指標不敏感,但真實系統(tǒng)非常在意」的問題。

WorldLens在生成性評估這一部分,重點不是繼續(xù)追問「更像真實視頻了嗎」,而是把生成質量拆到更貼近世界屬性的層面。它會在對象層面檢查車輛、行人等關鍵參與者是否真實可信(例如外觀與語義是否對齊),也會在時序層面檢查同一個對象是否能穩(wěn)定地保持「同一個身份」,避免出現(xiàn)紋理閃爍、形狀漂移、甚至像換了一個實體的情況。

更關鍵的是,WorldLens把幾何與多視角一致性拉回到生成評估中心。即便模型不直接輸出深度,它仍然可以通過估計深度來觀察幾何隨時間是否平滑演化,從而捕捉到隱式幾何不穩(wěn)定;同時,通過跨視角匹配衡量相機之間的結構與光度對齊,直接檢驗生成「多視角世界」的能力。

Aspect 2: 重建 (Reconstruction) —— 如果是「世界」,就應當能被重建

「像世界」不只是看起來合理,更重要的是它是否隱含一個可以被還原的穩(wěn)定結構。WorldLens在重建方面做了一件很有辨識度的事:把生成視頻統(tǒng)一提升為 4D Gaussian Field,再從多個角度檢驗它的空間與時間一致性。

在原視角上,它關心重建后能否忠實再現(xiàn)輸入(也就是最基礎的光度 / 外觀重現(xiàn));但更有信息量的是新視角評測:沿著未見過的相機軌跡渲染新視圖,看是否會出現(xiàn)結構崩壞、遮擋錯誤或明顯偽影,并衡量新視圖與真實分布之間的差距。

這一套流程經(jīng)常會暴露出一種典型失效模式,也即論文中反復強調的「floaters」:在新視角下出現(xiàn)大量懸浮、不連續(xù)的幾何碎片。它非常直觀地揭示了一個事實:感知真實不等于幾何真實。一個模型可以把紋理做得極其逼真,但只要幾何與時序沒有被真正建模,新視角就會迅速「露餡」。



Aspect 3: 指令跟隨 (Action-Following) —— 能「看」,不代表能「用」

如果世界模型要進入自動駕駛的核心鏈路,繞不開的一步是:把它生成的世界交給規(guī)劃器,看系統(tǒng)還能不能跑起來。WorldLens在這一部分同時做了開環(huán)與閉環(huán)評測,目的不是「給規(guī)劃器打分」,而是把規(guī)劃器當作媒介,測試生成世界是否提供了足夠穩(wěn)定、足夠可信的可行動線索。

開環(huán)評測里,規(guī)劃器的輸出不反過來影響車輛狀態(tài),因此更像是「在固定輸入上做預測」。不少模型在開環(huán)條件下仍能表現(xiàn)得相對體面。但一旦進入閉環(huán),規(guī)劃輸出會不斷影響下一時刻狀態(tài),誤差會累積放大,許多模型會很快出現(xiàn)碰撞、越界、漂移、路線中止等問題。WorldLens 給出的結論非常一致:閉環(huán)會顯著放大生成世界中那些肉眼未必立刻察覺的不一致。

如果你的目標是用世界模型服務決策與控制,那么閉環(huán)評測就不應當是「可選項」,而應當是「必要條件」。WorldLens 的意義在于把這件事從經(jīng)驗共識變成可復現(xiàn)的評估協(xié)議。

Aspect 4: 下游任務 (Downstream Task) ——「好看」的合成數(shù)據(jù),未必「有用」

世界模型的另一個常見愿景,是成為數(shù)據(jù)引擎:生成更多訓練數(shù)據(jù),幫助真實感知與預測模型。但合成數(shù)據(jù)是否「可用」,往往不是由視覺觀感決定的,而是由分布對齊、幾何噪聲與時間一致性決定的。

WorldLens 直接把生成數(shù)據(jù)拿來評測多個真實下游任務,包括 BEV 地圖分割、3D 檢測、3D 跟蹤與語義 Occupancy 預測等。這里最具沖擊力的現(xiàn)象是:一些單看畫面非常漂亮的模型,在下游任務上反而會出現(xiàn)顯著退化,論文中報告的降幅可達 30–50%。這意味著合成數(shù)據(jù)并不能被簡單視為真實數(shù)據(jù)的等價替代,甚至可能帶來負遷移。

這部分評測的價值在于,它把「世界模型是否有用」從理論討論落到了具體任務與具體數(shù)字上,并且指出了改進方向:如果目標是數(shù)據(jù)引擎,僅提升紋理質量遠遠不夠,結構與時間層面的對齊往往才是關鍵。



Aspect 5: 人類偏好 (Human Preference) —— 把「人類判斷可信世界」變成可學習信號

很多世界屬性 (World Attribute) 本質上包含主觀判斷:什么叫「可信」「合理」「安全」?純自動指標很難覆蓋這種綜合感受。

WorldLens因此構建了大規(guī)模人類偏好數(shù)據(jù)集WorldLens-26K,包含 26808 條評測樣本,每條既有數(shù)值評分,也有自然語言解釋,用來記錄標注者為什么給出這個分數(shù)、注意到了哪些異常。

更重要的是,WorldLens并沒有把人類評測停留在「投票式打分」,而是把這些偏好監(jiān)督進一步用于訓練自動評估代理 WorldLens-Agent。該 Agent 能輸出與人類偏好一致的評分,并生成可解釋的理由,從而在不重復大規(guī)模人工標注的前提下,實現(xiàn)可擴展、可復現(xiàn)的主觀評估。

從研究視角看,這一步相當于把「人類覺得哪里不對」轉化成了可學習、可迭代的評估器,也為未來用偏好對齊來反向優(yōu)化世界模型打開了路徑。



沒有「全能模型」,但失效模式高度一致

WorldLens 的價值不止于 benchmarking,更在于用統(tǒng)一評估把不同模型的能力邊界與失效模式系統(tǒng)性地暴露出來??缥鍌€ Aspect 的結果呈現(xiàn)出幾個非常穩(wěn)定、也很值得反復咀嚼的現(xiàn)象。



首先,不同 Aspect 之間存在明顯的能力斷層。Generation 指標上領先的模型,未必能在重建與新視角上站得住;單視角觀感極佳的模型,跨視角一致性可能依然脆弱;開環(huán)還能勉強運行的模型,閉環(huán)往往迅速失穩(wěn)。這說明世界模型的能力并不是一條從差到好的線性刻度。



其次,幾何與時序穩(wěn)定性像一條「共同瓶頸」,貫穿 Generation、Reconstruction、Action-Following 乃至 Downstream Task。幾何不穩(wěn)會在新視角下暴露為 floaters,也更容易在閉環(huán)中放大為事故,并進一步拖累下游任務表現(xiàn)。

這也解釋了一個常見困惑:為什么某些模型看起來更清晰,卻不一定更可用 —— 因為紋理質量并不能替代世界結構的自洽。



再次,閉環(huán)評測會把世界模型的缺陷放大到「無法忽視」。在閉環(huán)中,任何微小的不一致都會持續(xù)積累,最終表現(xiàn)為碰撞、偏航與路線失敗。這對于希望把世界模型用于仿真、驗證與安全測試的研究者而言,是非常直接的提醒:如果只在開環(huán)里「看起來不錯」,距離真實可用仍然很遠。



最后,人類偏好與自動指標既相關又不完全一致。人類解釋文本往往會直接指出幾何異常、物理違背與行為風險,這些信息對理解失敗原因非常關鍵,也為自動評估代理提供了訓練依據(jù)。換句話說,主觀評估并不是「不可量化的玄學」,而是可以被結構化、被學習、并最終進入評估閉環(huán)的一部分。



總結:評估將與生成同等重要

當世界模型從「生成好看的片段」走向「構建可交互的世界」,評估就必須從「視頻質量」升級為「世界屬性」。WorldLens 的貢獻在于把這件事做成了可執(zhí)行的協(xié)議:用五個 Aspect 覆蓋從視覺到幾何、從功能到偏好的一整條鏈路,并用人類數(shù)據(jù)與評估代理把主觀判斷也納入可規(guī)模化的體系。

如果說世界模型的上半場比拼的是「能不能生成」,那么下半場更可能比拼的是:能不能生成一個在幾何、物理、行為與人類判斷上都經(jīng)得起檢驗的世界。WorldLens 試圖為這場下半場提供一套共同語言。

作者介紹

本工作由 WorldBench 團隊完成,該團隊匯集了來自世界模型、視頻生成、自動駕駛等方向的研究者,在領域內構建了體系化、易用、性能可靠的各類生成 / 評測框架,包括 VBench、LiDARCrafter、DynamicCity、DrivingSphere、AD-R1 等

研究者來自世界知名高校、企業(yè),包括了新國立、中科院、中科大、浙大、澳門大學、地平線、南洋理工、華科、慕尼黑工大、復旦、上海人工智能實驗室等

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女朋友是體育生是什么體驗?網(wǎng)友:第二天下不來床

女朋友是體育生是什么體驗?網(wǎng)友:第二天下不來床

帶你感受人間冷暖
2025-11-06 00:20:05
香港再無董建華

香港再無董建華

華人星光
2025-11-25 12:01:27
沉默10天,中國突然對美國強硬出手,力度之大、范圍之廣從沒見過

沉默10天,中國突然對美國強硬出手,力度之大、范圍之廣從沒見過

文雅筆墨
2025-12-28 17:03:13
美國國務院發(fā)火,要求中國大陸“必須停止”,島內一個時代或終結

美國國務院發(fā)火,要求中國大陸“必須停止”,島內一個時代或終結

歷史有些冷
2025-12-27 18:50:03
河南小伙娶巴鐵美女,婚后成娘家提款機,如今妻女雙亡的他后悔嗎

河南小伙娶巴鐵美女,婚后成娘家提款機,如今妻女雙亡的他后悔嗎

朝子亥
2025-12-25 08:30:03
曾經(jīng)的縣城“印鈔機”,今年徹底歇了?

曾經(jīng)的縣城“印鈔機”,今年徹底歇了?

每日人物
2025-12-28 10:31:51
賴清德遭彈劾之際,島內突傳驚人消息,大陸不費一兵一卒即可收臺

賴清德遭彈劾之際,島內突傳驚人消息,大陸不費一兵一卒即可收臺

博覽歷史
2025-12-27 16:58:28
殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

殲-15幾乎全部退役,淪為全球最短命艦載機!它究竟有哪些短板?

小莜讀史
2025-12-27 14:55:11
重慶機場集團聲明:公司無任何 “特殊招聘渠道”

重慶機場集團聲明:公司無任何 “特殊招聘渠道”

界面新聞
2025-12-28 18:06:47
1985年美艦隊闖入南海,氣氛瞬間凝固,鄧公急調劉華清問話,劉華清:別急,這是我設的局,專門請的!

1985年美艦隊闖入南海,氣氛瞬間凝固,鄧公急調劉華清問話,劉華清:別急,這是我設的局,專門請的!

歷史回憶室
2025-12-11 18:58:12
重磅,洛夫頓自宣離隊,一個月后重返NCAA,盧偉需重新物色外援?

重磅,洛夫頓自宣離隊,一個月后重返NCAA,盧偉需重新物色外援?

體壇小快靈
2025-12-28 11:47:46
6000萬主力客群“消失”:困在商場里的餐飲店,正迎來一場大“清洗”

6000萬主力客群“消失”:困在商場里的餐飲店,正迎來一場大“清洗”

職業(yè)餐飲網(wǎng)
2025-12-18 21:06:32
被今年女裝氣笑了!不是“排骨”就是“龜殼”,件件難穿又土氣

被今年女裝氣笑了!不是“排骨”就是“龜殼”,件件難穿又土氣

小陳聊搭配
2025-12-28 19:08:57
我媽90歲還能生活自理,她的長壽秘訣就一句:“別老想著走動”

我媽90歲還能生活自理,她的長壽秘訣就一句:“別老想著走動”

蟬吟槐蕊
2025-12-28 14:32:30
乒超總決賽男團決賽雙方陣容出爐

乒超總決賽男團決賽雙方陣容出爐

齊魯壹點
2025-12-28 19:13:48
歐媒:中國都上桌了,500年來頭一次,瓜分世界怎能沒有歐洲的份

歐媒:中國都上桌了,500年來頭一次,瓜分世界怎能沒有歐洲的份

阿器談史
2025-12-25 21:09:35
李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調侃自己過成了中國年

李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調侃自己過成了中國年

娛樂圈圈圓
2025-12-27 10:37:31
畸形兒風波反轉!醫(yī)院回應透露2個關鍵信息 闞清子的沉默早有預兆

畸形兒風波反轉!醫(yī)院回應透露2個關鍵信息 闞清子的沉默早有預兆

觀察鑒娛
2025-12-28 10:26:06
新華社消息|我國首個“6車道改12車道”高速公路改擴建項目建成通車

新華社消息|我國首個“6車道改12車道”高速公路改擴建項目建成通車

新華社
2025-12-28 11:46:57
美國碼農,正被AI「大屠殺」!Karpathy驚呼,26屆畢業(yè)生崩潰

美國碼農,正被AI「大屠殺」!Karpathy驚呼,26屆畢業(yè)生崩潰

新智元
2025-12-27 13:18:22
2025-12-28 20:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12000文章數(shù) 142522關注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

臺媒體人:賴清德彈劾案通過 對賴是一個很大的侮辱

頭條要聞

臺媒體人:賴清德彈劾案通過 對賴是一個很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
時尚
家居
房產
健康

教育要聞

低情商校長的5種行為,希望你一個也沒有

瑞典拉普蘭:凜冽北境的萬物平衡之道

家居要聞

格調時尚 智慧品質居所

房產要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進入關懷版 不卡无码毛片| 九九热在线观看视频精品| 97少妇视频| 伊人久久无码大香线蕉综合| 荷兰妓女的高潮视频| 亚洲超黄超A三级片| 亚洲一级无码片一区二区三区| www.xxxx影院| 日日艹夜夜艹| 国产一精品一AV一免费爽爽| 高潮大潮喷合集高H| 亚洲AV苍井空在线观看高清| 亚洲欧洲日产国码中文字幕| 久久久久护士毛片96| 欧美人人操人人摸| 无码av最新高清无码专区| 亚洲av无码一区二区三区18| 亚洲线精品一区二区三区| 娜娜麻豆国产电影| www亚洲精品久久久乳| 久久2017国产视频| 国内精品国产三级国产AⅤ久| 亚洲AV无一区二区三区| 不卡一区二区三区欧美| 国产精品av在线| 中文字幕第一页亚洲精品| 欧美A区B区成人PA~| 欧美性色产成人一区二区三区 | AV伊人久久| 加勒比黑人在线| 成年女人免费v片| 东京热app下载安装到手机| 亚洲精品777| 黄色视频网站免费观看| 内谢少妇xxxxx8老少交| 在线观看亚洲av每日更新| 丰满人妻一区二区三区| 色综合久久久久久久久五月| 国产精品美女久久久久久2018| 伦人伦xxxx国语对白| 人妻少妇精品无码系列|