夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓 AI 學(xué)會(huì)“靈魂拷問(wèn)”:我們?nèi)绾谓虣C(jī)器評(píng)判生成視頻 | ICCV 2025

0
分享至


ETVA的核心思想是:像人一樣,通過(guò)“提問(wèn)-回答”來(lái)深入理解和評(píng)估視頻內(nèi)容

作者丨關(guān)開(kāi)思、宋睿華

(作者介紹)本文第一作者是中國(guó)人民大學(xué)高瓴人工智能學(xué)院2024 級(jí)碩士生關(guān)開(kāi)思(導(dǎo)師宋睿華),他的主要研究興趣方向是多模態(tài)學(xué)習(xí)。本文通訊作者是宋睿華長(zhǎng)聘副教授,她的 AIMind 團(tuán)隊(duì)主要研究方向是多模態(tài)感知、交互與生成。

當(dāng)你輸入一句指令——“水在空間站中從玻璃杯慢慢倒出”——視頻模型立刻生成了一段流暢的動(dòng)畫(huà)??瓷先ゲ诲e(cuò):水從杯中傾瀉而出,畫(huà)面清晰,動(dòng)作逼真。

但仔細(xì)一想,哪里不對(duì)?在空間站里,水并不會(huì)向下流,而是會(huì)在失重中漂浮成一顆顆液滴。

在AI視頻生成技術(shù)井噴的今天,我們驚嘆于 Sora、Kling、Vidu 等模型創(chuàng)造出的越來(lái)越逼真、富有想象力的視頻。然而,一個(gè)核心問(wèn)題也隨之而來(lái):除了肉眼觀看,我們?nèi)绾尉_、客觀地判斷,一個(gè)AI生成的視頻是否真的“聽(tīng)懂”了我們的指令?



論文地址:
https://arxiv.org/abs/2503.16867

代碼地址:
https://github.com/guankaisi/ETVA

項(xiàng)目地址:
https://eftv-eval.github.io/etva-eval/

01

背景

長(zhǎng)久以來(lái),學(xué)術(shù)界與工業(yè)界主要依賴BLIP-BLEU、CLIPScore、VideoScore等自動(dòng)化指標(biāo)以評(píng)估生成視頻是否符合文本指令。然而,這類指標(biāo)通常只能給出一個(gè)“大差不差”的總體分?jǐn)?shù),難以細(xì)致判斷視頻內(nèi)容是否在細(xì)節(jié)上與指令精準(zhǔn)對(duì)齊,甚至在某些情況下會(huì)得出與人類判斷相悖的結(jié)果。

以“水在空間站中從玻璃杯慢慢倒出”這一場(chǎng)景為例(見(jiàn)下圖),傳統(tǒng)評(píng)價(jià)指標(biāo)往往只能輸出一個(gè)模糊的分?jǐn)?shù),無(wú)法有效區(qū)分視頻在物理合理性上的差異,有時(shí)甚至?xí)⒚黠@違背常識(shí)的結(jié)果評(píng)為高分。而人類觀察者卻能輕易識(shí)別出第二個(gè)視頻更為優(yōu)秀——因?yàn)樗鼫?zhǔn)確捕捉到了微重力環(huán)境下水珠漂浮的真實(shí)狀態(tài),更符合我們對(duì)“空間站”這一場(chǎng)景的物理認(rèn)知。


為了解決這一“霧里看花”式的評(píng)估困境,來(lái)自中國(guó)人民大學(xué)的宋睿華帶領(lǐng)的AIMind團(tuán)隊(duì)提出了一種全新的文本到視頻(T2V)指令遵循的評(píng)估方法——ETVA。相關(guān)論文已被 ICCV 2025錄用。

ETVA的核心思想是:像人一樣,通過(guò)“提問(wèn)-回答”來(lái)深入理解和評(píng)估視頻內(nèi)容。它不再滿足于一個(gè)模糊的總分,而是將復(fù)雜的文本指令拆解成一系列原子化的、可被明確回答的“是/非”問(wèn)題,從而對(duì)視頻進(jìn)行細(xì)致入微的“靈魂拷問(wèn)”。

02

ETVA 如何實(shí)現(xiàn)“靈魂拷問(wèn)”?


ETVA的評(píng)估流程模擬了人類的認(rèn)知過(guò)程,主要分為兩個(gè)關(guān)鍵階段:

第一步:多智能體協(xié)作,生成精準(zhǔn)“問(wèn)題列表”

面對(duì)一句文本指令,比如“水在空間站里從一個(gè)玻璃杯中慢慢倒出”,ETVA首先會(huì)啟動(dòng)一個(gè)由三個(gè)智能體組成的“問(wèn)題生成團(tuán)隊(duì)”:

1.元素提取器 (Element Extractor):首先識(shí)別出文本中的核心元素,如實(shí)體(杯子、水、空間站)、屬性(玻璃材質(zhì))和關(guān)系(從...倒出)。

2.圖構(gòu)建器 (Graph Builder):將這些離散的元素組織成一個(gè)結(jié)構(gòu)化的“場(chǎng)景圖”,清晰地描繪出它們之間的邏輯關(guān)系。

3.圖遍歷器 (Graph Traverser):最后,系統(tǒng)性地遍歷這張圖,將每個(gè)節(jié)點(diǎn)和連接都轉(zhuǎn)換成一個(gè)簡(jiǎn)單的是非題。

例如,針對(duì)上述指令,它會(huì)生成如下問(wèn)題列表:

  • 視頻里有杯子嗎?[是/否]

  • 視頻里有水嗎?[是/否]

  • 水是從杯子里倒出來(lái)的嗎?[是/否]

  • 水是在空間站里倒出來(lái)的嗎?[是/否]

第二步:知識(shí)增強(qiáng)+多階段推理,給出“有理有據(jù)”的答案

生成問(wèn)題后,ETVA會(huì)利用先進(jìn)的視頻大語(yǔ)言模型(Video LLM)來(lái)自動(dòng)回答。為了避免模型產(chǎn)生“幻覺(jué)”,ETVA設(shè)計(jì)了一個(gè)嚴(yán)謹(jǐn)?shù)幕卮鹂蚣埽?/p>

1.知識(shí)增強(qiáng) (Knowledge Augmentation):在回答之前,一個(gè)輔助大語(yǔ)言模型會(huì)首先“回憶”與指令相關(guān)的常識(shí)知識(shí)。例如,提到“空間站”,它會(huì)補(bǔ)充“液體在微重力環(huán)境下會(huì)呈球狀漂浮,而不是向下流動(dòng)”這一物理學(xué)常識(shí)。

2.多階段推理 (Multi-Stage Reasoning):隨后,Video LLM會(huì)進(jìn)行“三步走”式思考:首先,逐幀理解視頻的客觀內(nèi)容;接著,結(jié)合文本指令、常識(shí)知識(shí)和視頻畫(huà)面進(jìn)行綜合分析與反思;最后,給出“是”或“否”的結(jié)論,并附上推理依據(jù)。

最終,視頻的指令遵循度得分,即為其正確回答問(wèn)題的百分比。這種方法不僅使評(píng)估結(jié)果更為精準(zhǔn)可靠,其清晰的決策過(guò)程也賦予了模型出色的可解釋性。

03

ETVA-Bench:一把衡量T2V模型的“新標(biāo)尺”

基于ETVA框架,研究團(tuán)隊(duì)構(gòu)建了一個(gè)全面的文生視頻對(duì)齊度評(píng)估基準(zhǔn)——ETVABench,它包含從10個(gè)不同維度(如物體存在、動(dòng)作、物理、相機(jī)運(yùn)鏡等)精選的2000條指令及衍生的12000個(gè)原子問(wèn)題。并分別提供了面向開(kāi)源模型的ETVABench-2000與面向閉源模型的ETVABench-105兩個(gè)評(píng)測(cè)集合。


上圖是ETVABench 每個(gè)類別的問(wèn)題示例和 Prompt 示例。


上圖是ETVABench-2K 以及 ETVABench-105 在各個(gè)類別上的數(shù)量分布。

在與人類偏好一致性上,實(shí)驗(yàn)結(jié)果令人振奮:ETVA與人類裁判的判斷相關(guān)性達(dá)到了58.47,遠(yuǎn)超以往最優(yōu)方法(僅為31.0),證明了其作為新一代評(píng)估工具的卓越性能 。


以下表格展示了15個(gè)不同的文生視頻(T2V)模型在ETVABench-105基準(zhǔn)測(cè)試上的詳細(xì)評(píng)估結(jié)果。這些模型被分為兩組:10個(gè)開(kāi)源模型和5個(gè)閉源模型。

評(píng)估維度涵蓋了10個(gè)細(xì)分領(lǐng)域,包括物體的存在性(Existence)、動(dòng)作(Action)、材質(zhì)(Material)、空間關(guān)系(Spatial)、數(shù)量(Number)、形狀(Shape)、顏色(Color)、相機(jī)運(yùn)鏡(Camera)、物理規(guī)律(Physics)和其他(Other),并計(jì)算了每個(gè)模型的平均分(Avg)。

從最終的平均分來(lái)看:

  • 在所有參與評(píng)測(cè)的模型中,閉源模型Vidu-1.5的綜合表現(xiàn)最好,平均分達(dá)到了0.761。

  • 在開(kāi)源模型中,Hunyuan-Video表現(xiàn)最佳,平均分為0.686。

總體而言,閉源模型的平均分普遍高于開(kāi)源模型,尤其在空間關(guān)系(Sora得分0.870)和材質(zhì)(Vidu-1.5得分0.854)等維度上展現(xiàn)出顯著優(yōu)勢(shì)。


通過(guò)對(duì)15個(gè)主流T2V模型(包括Sora、Kling等5個(gè)閉源模型和Hunyuan-Video等10個(gè)開(kāi)源模型)的系統(tǒng)性評(píng)測(cè),ETVA揭示了當(dāng)前模型普遍存在的短板,尤其是在物理規(guī)律模擬相機(jī)運(yùn)動(dòng)控制方面能力不足,以下是四個(gè)例子。

  • 物理現(xiàn)象:在“空間站倒水”測(cè)試中,Sora準(zhǔn)確還原了微重力,得分100;而Kling則表現(xiàn)為普通重力,得分僅37.5 。

  • 顏色變化:在“葉子由綠變紅”測(cè)試中,Pika 沒(méi)有表現(xiàn)出葉子顏色變化的過(guò)程得分 50,而 Vidu 準(zhǔn)確的表現(xiàn)了出來(lái),得分 100。

  • 數(shù)量準(zhǔn)確性:在生成“三只貓頭鷹”時(shí),Kling精準(zhǔn)無(wú)誤(100分),Sora卻多畫(huà)了一只(88.3分)。

  • 手勢(shì)語(yǔ)義:Hunyuan準(zhǔn)確執(zhí)行了“拇指向下”的指令(100分),而Kling則將其誤解為“豎起大拇指”,語(yǔ)義錯(cuò)誤(40分)。


04

未來(lái)展望

ETVA不僅為我們提供了一個(gè)更可靠、更精細(xì)的T2V模型評(píng)估工具,更重要的是,它通過(guò)精準(zhǔn)定位現(xiàn)有模型的弱點(diǎn),為下一代文生視頻技術(shù)的發(fā)展指明了方向。未來(lái),研究團(tuán)隊(duì)將把ETVA框架拓展至更復(fù)雜、多元的視頻場(chǎng)景中,為構(gòu)建真正“理解”用戶意圖的智能生成模型鋪平道路。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

豐譚筆錄
2025-12-16 10:55:06
尷尬了!美國(guó)不留,中國(guó)不要,這屆留學(xué)生活成了“夾縫中的一代”

尷尬了!美國(guó)不留,中國(guó)不要,這屆留學(xué)生活成了“夾縫中的一代”

卷史
2025-12-19 14:23:38
蘇聯(lián)中將的回憶:56萬(wàn)中國(guó)軍隊(duì)壓境,越軍防線崩潰的真相是什么?

蘇聯(lián)中將的回憶:56萬(wàn)中國(guó)軍隊(duì)壓境,越軍防線崩潰的真相是什么?

嘮叨說(shuō)歷史
2025-12-23 11:31:48
臺(tái)安全部門(mén)負(fù)責(zé)人聲稱“友臺(tái)人士不在乎能否入境中國(guó)(大陸)”,國(guó)臺(tái)辦駁斥

臺(tái)安全部門(mén)負(fù)責(zé)人聲稱“友臺(tái)人士不在乎能否入境中國(guó)(大陸)”,國(guó)臺(tái)辦駁斥

環(huán)球網(wǎng)資訊
2025-12-24 10:52:08
世體:西班牙人在主場(chǎng)球門(mén)后加圍欄,避免霍安-加西亞被攻擊

世體:西班牙人在主場(chǎng)球門(mén)后加圍欄,避免霍安-加西亞被攻擊

懂球帝
2025-12-24 23:17:15
華為隨行WiFi X官宣:定位超級(jí)直播神器,2026年3月發(fā)布

華為隨行WiFi X官宣:定位超級(jí)直播神器,2026年3月發(fā)布

IT之家
2025-12-24 16:30:20
美媒報(bào)道:2008年跳樓自殺的頂級(jí)模特魯斯拉娜,的確是蘿莉島女孩

美媒報(bào)道:2008年跳樓自殺的頂級(jí)模特魯斯拉娜,的確是蘿莉島女孩

老范談史
2025-12-24 17:24:57
父子倆深夜狂貼涉黃小卡片,還相互比拼較勁,結(jié)果雙雙被抓

父子倆深夜狂貼涉黃小卡片,還相互比拼較勁,結(jié)果雙雙被抓

瀟湘晨報(bào)
2025-12-25 08:19:10
厲害了!劉強(qiáng)東拿下理想汽車(chē)大單,車(chē)企合作拿到手軟

厲害了!劉強(qiáng)東拿下理想汽車(chē)大單,車(chē)企合作拿到手軟

雷科技
2025-12-24 15:46:23
泰國(guó)軍隊(duì)攻入柬埔寨園區(qū)畫(huà)面疑曝光!電詐分子跪地,墻上中文扎眼

泰國(guó)軍隊(duì)攻入柬埔寨園區(qū)畫(huà)面疑曝光!電詐分子跪地,墻上中文扎眼

環(huán)球熱點(diǎn)快評(píng)
2025-12-23 16:48:49
“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

卷史
2025-09-15 11:50:59
丈夫每天都要和妻子發(fā)生關(guān)系,一天三四次,妻子受不了殺他

丈夫每天都要和妻子發(fā)生關(guān)系,一天三四次,妻子受不了殺他

丫頭舫
2025-12-05 11:23:41
壽星蔣圣龍曬一家四口圣誕合影:寶貝們陪爸爸的第一個(gè)生日

壽星蔣圣龍曬一家四口圣誕合影:寶貝們陪爸爸的第一個(gè)生日

懂球帝
2025-12-24 21:20:15
80后已經(jīng)有1100萬(wàn)人提前下車(chē)了。

80后已經(jīng)有1100萬(wàn)人提前下車(chē)了。

愛(ài)吃糖的貓cat
2025-11-16 18:27:38
馬龍:此生最無(wú)悔的選擇,就是娶了大學(xué)?;ㄏ穆叮芙^了石川佳純

馬龍:此生最無(wú)悔的選擇,就是娶了大學(xué)?;ㄏ穆?,拒絕了石川佳純

丁丁鯉史紀(jì)
2025-12-24 14:16:58
隨著12月24日的來(lái)臨,湖人隊(duì)傳來(lái)了一條振奮人心的好消息!

隨著12月24日的來(lái)臨,湖人隊(duì)傳來(lái)了一條振奮人心的好消息!

田先生籃球
2025-12-24 09:07:07
高盛:中國(guó)房地產(chǎn)市場(chǎng)現(xiàn)狀

高盛:中國(guó)房地產(chǎn)市場(chǎng)現(xiàn)狀

譚談投研
2025-12-24 18:58:11
國(guó)產(chǎn)女模特172高挑身材,火辣身姿,尺度大

國(guó)產(chǎn)女模特172高挑身材,火辣身姿,尺度大

傲嬌的馬甲線
2025-12-05 18:15:51
美國(guó):你的船,我想扣就扣!中國(guó):公海之上,誰(shuí)給你的膽子?

美國(guó):你的船,我想扣就扣!中國(guó):公海之上,誰(shuí)給你的膽子?

扶蘇聊歷史
2025-12-24 10:21:30
“不給6套房加1個(gè)億,不搬”,釘子戶張新國(guó)堅(jiān)守14年,終敗給現(xiàn)實(shí)

“不給6套房加1個(gè)億,不搬”,釘子戶張新國(guó)堅(jiān)守14年,終敗給現(xiàn)實(shí)

紅夢(mèng)史說(shuō)
2025-07-11 11:23:39
2025-12-25 09:48:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

老板監(jiān)視員工微信只需300元

頭條要聞

路透社稱中國(guó)造出EUV光刻機(jī) "手搓"EUV光刻機(jī)難點(diǎn)披露

頭條要聞

路透社稱中國(guó)造出EUV光刻機(jī) "手搓"EUV光刻機(jī)難點(diǎn)披露

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂(lè)要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

美國(guó)未來(lái)18個(gè)月不對(duì)中國(guó)芯片加額外關(guān)稅

汽車(chē)要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

藝術(shù)
游戲
教育
公開(kāi)課
軍事航空

藝術(shù)要聞

毛主席草書(shū)背后的故事:小練字者迷失,書(shū)法之路揭示真相。

日本玩家Switch嚴(yán)重鼓大包仍能游玩 這還能用?

教育要聞

2026年高考難度會(huì)下降嗎?了解高考的本質(zhì)和社會(huì)功能

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基版“和平計(jì)劃”透露哪些信息

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 手机免费AV网址| 少妇伦子伦情品无吗| 中文无码av在线| 欧美的屄视频| 人人插人人操人人摸| 真人做受试看120分钟小视频| 人人操人人摸在线观看| 亚洲综合香蕉| 5566久久蜜桃麻豆成人片| 色色欧美网站| 五月天久久婷婷| 一区二区在线 | 欧洲| 无码人妻aⅴ一区二区三区| 极品少妇被猛得白浆直流草莓视频 | 国李Av夂久久久天码免| 成人乱人乱一区二区三区一级视频 | 丰满爆乳无码一区二区免费| 99:国产情侣| 久久人人玩人妻潮喷内射人人| 国产福利无码一区二区在线| 午夜视频无码| 乱人伦中文字幕成人网站在线| 人妻 日韩 欧美 综合 制服| 国产偷窥熟女精品视频大全| 四虎亚洲精品无码| 你懂的AV九色| 一本大道在线无码一区| 国产成人免费AV一区二区午夜| 亚洲、少妇、熟女| 国产乱码精品一区二区三区18| 青春草在线观看| 亚洲色大成网站WWW国产| 秋霞无码一区二区视频在线观看 | 午夜激情无码视频| 无码精品人妻一区二区三区网站| 国产素人在线观看人成视频| 亚洲人成网站b2k3cm| 女女同性黄网在线观看| 天天干在线观看| a视频在线播放| 免费VA国产高清大片在线|