夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型無法真正理解視頻,GPT-4o正確率僅36%,南洋理工新基準(zhǔn)

0
分享至

Video-TT團隊 投稿
量子位 | 公眾號 QbitAI

視頻大型語言模型(Video LLMs)的發(fā)展日新月異,它們似乎能夠精準(zhǔn)描述視頻內(nèi)容、準(zhǔn)確的回答相關(guān)問題,展現(xiàn)出足以亂真的人類級理解力。

但有一個非常本質(zhì)的問題始終縈繞著研究者的心頭:這些模型是真的“理解”了視頻,還是僅僅在進行一種高級的“模式匹配”?

為了解決上述問題,來自南洋理工大學(xué)S-Lab的研究者們提出了一個全新的、極具挑戰(zhàn)性的基準(zhǔn)測試——Video Thinking Test(簡稱Video-TT)。

其核心目標(biāo)簡單而深刻:將“看”與“想”的能力分離,精準(zhǔn)測量AI在視頻內(nèi)容上的真實理解和推理水平。

研究團隊有三項關(guān)鍵發(fā)現(xiàn):

(1)人類在視頻理解的“準(zhǔn)確率”和“魯棒性”上遠超SOTA級模型(50%),差距顯著。

(2)開源模型在“魯棒性”上遠遜GPT-4o(SOTA模型之一)。

(3)GPT-4o的短板在于:對模糊或非常規(guī)內(nèi)容識別能力弱;對多場景區(qū)分、定位、計算能力有困難;世界知識對應(yīng)能力欠缺,無法理解意圖、社會動態(tài)等深層信息。



Video-TT圖靈測試集由南洋理工大學(xué)S-Lab科研團隊聯(lián)合獨立研究員共同研發(fā)完成。主要作者包括南洋理工大學(xué)博士生張元瀚、董宇昊,二人的研究方向聚焦多模態(tài)模型;通訊作者為南洋理工大學(xué)助理教授劉子緯。

Video-TT的問題定位



人類的智慧核心在于其正確性(Correctness)魯棒性(Robustness)。

正確性意味著我們能準(zhǔn)確地解讀信息,而魯棒性則保證了我們在面對信息干擾、歧義或不同表述時,依然能保持正確的判斷。這兩者結(jié)合,才構(gòu)成了真正可靠的理解能力。

現(xiàn)有的視頻理解基準(zhǔn)測試(Benchmark)在衡量AI是否達到人類級智慧上存在著一些根本性的缺陷。它們往往無法區(qū)分模型是因為“沒看清”而犯錯(即關(guān)鍵視頻幀采樣不足),還是因為“沒想明白”而出錯(即缺乏真正的推理能力)。

這種混淆使得我們很難評估AI在視頻理解上的真實水平。

在Video-TT出現(xiàn)之前,視頻理解領(lǐng)域已有相應(yīng)的評測標(biāo)準(zhǔn),但這些標(biāo)準(zhǔn)普遍存在一定局限性,導(dǎo)致AI的真實能力無法被準(zhǔn)確衡量。

問題一:長視頻評測的“幀采樣悖論”

近期,許多研究都聚焦于長視頻理解。然而由于計算資源限制,模型無法處理視頻的每一幀,只能“跳著看”(稀疏采樣)。

這就帶來一個問題:當(dāng)模型答錯時,我們無法確定是它能力不行,還是運氣不好,恰好錯過了包含答案的關(guān)鍵幀。

如下圖所示,在一些長視頻評測中(如VideoMME-Long),即便是強大的GPT-4o,其性能也可能因為采樣幀數(shù)的限制而大幅下降。這種下降反映的更多是“采樣策略”的失敗,而非“理解能力”的不足。



問題二:短視頻評測的“天花板幻覺”

與長視頻相對,短視頻評測(如VideoMME-Short)由于時長較短,模型可以幾乎“看完”所有幀。在這種情況下,一些頂尖模型的表現(xiàn)接近甚至達到了人類水平(上圖左側(cè)),這容易給人一種“短視頻理解問題已被基本解決”的錯覺。

然而,事實遠非如此。Video-TT的研究者們認為,即便在信息密集的短視頻中,依然存在大量需要深度推理和復(fù)雜認知才能解決的挑戰(zhàn)。簡單地提升準(zhǔn)確率分數(shù),并不能證明AI擁有了與人類同等的智慧。

Video-TT的破局創(chuàng)新點在于,它選擇了1000條全新的YouTube短視頻(避免數(shù)據(jù)污染),并精心設(shè)計問題的標(biāo)注,確保答案能在有限的、統(tǒng)一的80幀內(nèi)找到。

這樣一來,所有模型都在同一起跑線上“看”素材,評測的焦點便從“如何有效采樣”轉(zhuǎn)移到了“能否深刻理解”上,從而撥開迷霧,直擊AI的“思考”核心。

突出“思考”能力的問題設(shè)計

要衡量“思考”,就必須提出能夠激發(fā)“思考”的問題。Video-TT的設(shè)計原則是,一個復(fù)雜的問題并非由其類型決定(如“物體顏色”vs“情節(jié)理解”),而是由其背后的上下文、原因和場景決定。

研究團隊從“認知科學(xué)”和“影視敘事學(xué)”中汲取靈感,構(gòu)建了兩個核心的復(fù)雜性維度:視覺復(fù)雜度和敘事復(fù)雜度。

維度一:視覺復(fù)雜度(Visual Complexity)

這部分關(guān)注的是視頻畫面的內(nèi)在挑戰(zhàn),共包含四個方面:

  • 模糊與非常規(guī)內(nèi)容(Unclear&Unusual Content)
  • 視頻中是否存在干擾、模糊、遮擋,或者出現(xiàn)了與我們?nèi)粘UJ知相悖的物體或現(xiàn)象?
  • 運動速度(Movement Speed)
  • 物體或鏡頭的移動是否過快,導(dǎo)致難以識別或追蹤?
  • 時空布局(Spatial-temporal Arrangement)
  • 場景中物體的位置關(guān)系和互動是否復(fù)雜?是否存在大量的時空信息需要處理?
  • 視錯覺(Illusions)
  • 視頻是否利用了拍攝技巧或內(nèi)容本身來制造錯覺,挑戰(zhàn)觀眾的直覺?

維度二:敘事復(fù)雜度(Narrative Complexity)

這部分關(guān)注的是視頻作為一種“故事”的表達方式,其內(nèi)在的邏輯和深度,同樣包含四個方面:

  • 復(fù)雜情節(jié)(Complex Plot)
  • 故事線是否存在反轉(zhuǎn)或意想不到的結(jié)局?
  • 敘事剪輯(Narrative Editing)
  • 是否使用了蒙太奇等復(fù)雜的剪輯手法來講述故事,而非平鋪直敘?
  • 技術(shù)性剪輯(Technical Editing)
  • 是否存在難以察覺的、與內(nèi)容融為一體的特效或后期處理?
  • 世界知識(World Knowledge)
  • 理解視頻是否需要依賴超越畫面本身的世界常識、文化背景或社會規(guī)范?



例如,上圖中的Q-8提問“視頻中的女士在模仿什么行為?”,這需要觀眾擁有關(guān)于“特定活動”(被子彈擊中后倒下)的世界知識才能正確回答。這些問題迫使模型超越簡單的物體識別,進入真正的推理(Reasoning)層面。

AI思考的“魯棒”檢驗

擁有了能讓AI“思考”的難題還不夠,我們還需要知道它的思考有多“魯棒”(Robustness)。一個魯棒的模型,不應(yīng)該因為用戶表述的方法稍有改變就給出截然不同的答案。

為此,Video-TT為每一個核心難題(Primary Question)都配備了四種“自然對抗性問題”(Natural Adversarial Questions),形成一套完整的測試體系。



這五種問題類型分別是:

  • 核心問題(Primary Open-ended Question)
  • 基于視覺和敘事復(fù)雜度設(shè)計的開放式的問題。
  • 復(fù)述問題(Rephrased Question)
  • 用不同的措辭問同一個問題(例如,“誰的頭被拍了?”),模型的答案理應(yīng)保持一致。
  • 正確誘導(dǎo)問題(Correctly-led Question)
  • 問題中包含正確的線索(例如,“他拍的是穿8號球衣的球員的頭嗎?”),這測試模型能否利用提示來確認事實。
  • 錯誤誘導(dǎo)問題(Wrongly-led Question)
  • 問題中包含錯誤的、誤導(dǎo)性的線索(例如,“他拍的是穿9號球衣的球員的頭嗎?”),這對于模型來說是最大的考驗,它必須足夠“自信”地否定錯誤的誘導(dǎo)。
  • 多項選擇問題(Multiple-choice Question)
  • 將正確和錯誤的誘導(dǎo)信息作為選項,考察模型在有明確選項時的辨別能力。

只有當(dāng)模型能夠準(zhǔn)確回答核心問題(正確性),并且在面對各種“變體”提問時仍能保持判斷一致(魯棒性),我們才能說它達到了真正的、類人的理解水平。

評測結(jié)果與分析

經(jīng)過如此嚴苛的設(shè)計,Video-TT的評測結(jié)果揭示了一個驚人的事實:目前的SOTA模型,在視頻思維能力上,與人類相比仍有巨大鴻溝。

從數(shù)據(jù)中可以清晰地看到:

  • 人類遙遙領(lǐng)先
  • 人類測試者在正確性上達到84.3%,魯棒性達到64.4%,展現(xiàn)了強大的理解與推理能力。
  • GPT-4o表現(xiàn)腰斬
  • 作為當(dāng)前最強的多模態(tài)模型之一,GPT-4o的正確率僅為36.6%,不足人類的一半。其36.0%的魯棒性得分也表明,它在面對干擾時同樣表現(xiàn)不佳。
  • 開源模型仍需努力
  • 雖然部分開源模型在多選題上能與GPT-4o媲美,但在更考驗真實理解能力的開放式問題上,差距顯著。這說明,現(xiàn)有的許多其他基準(zhǔn)測試可能因為側(cè)重選擇題而高估了模型的能力。

這一巨大的分數(shù)差距有力地證明,當(dāng)前的AI在真正成為AGI的道路上,尤其是在視頻理解這一核心領(lǐng)域,依然任重而道遠。



對AI的錯誤類型進行分析。可以看出,“復(fù)雜情節(jié)”(Complex Plot)和“世界知識”(World Knowledge)是導(dǎo)致模型在高級認知任務(wù)中失敗的主要原因。



Video-TT的作者們對GPT-4o的錯誤答案進行了深入的定性分析,發(fā)現(xiàn)了三大核心弱點:

弱點一:時空混淆——“理不清”時間與空間

在需要理解時空關(guān)系的任務(wù)中,模型錯誤率極高。

  • 物體計數(shù)
  • 模型很難精確追蹤隨時間變化的物體。例如,在一個視頻中,墻上的相框先出現(xiàn),然后移出畫面,再重新出現(xiàn)。模型可以數(shù)清單幀內(nèi)的相框數(shù)量,但無法正確計算整個過程中出現(xiàn)過的不同相框總數(shù)。
  • 序列定位
  • 當(dāng)越多事件被排序到一條視頻里,模型越分不清問題里的語義內(nèi)容和視頻的具體關(guān)聯(lián)。比如,單一事件場景下,它可能知道“翻跟斗”這個動作、也知道怎么數(shù)數(shù)定位,但在多事件場景里,卻無法正確數(shù)數(shù)定位到第二位“翻跟斗”的視頻人物。

弱點二:常識缺失——“看不懂”言外之意

許多錯誤源于模型缺乏人類社會和文化中的常識(World Knowledge)。

  • 角色動機與情感
  • 模型可以描述一個人的表情是“平靜的”,但無法結(jié)合上下文(例如,剛剛在比賽中獲得銀牌)理解這種“平靜”背后其實是“失望”。人類知道“銀牌得主通常比銅牌得主更失落”,因為他們離金牌僅一步之遙,而模型沒有這種深層社會心理知識。

弱點三:復(fù)雜情節(jié)理解失敗——“串不起”故事線

當(dāng)視頻敘事需要跨場景、跨線索進行邏輯推理時,模型往往會“掉線”。

  • 因果關(guān)系鏈條斷裂
  • 在一條視頻中,第一個場景是一個人在房屋附近打棒球,而第二個場景是展示房屋的押金被扣除。模型可以分別描述這兩個場景,但無法將它們聯(lián)系起來,推理出“因為棒球被打入屋里,破壞了房屋,所以押金被扣”這一核心的因果關(guān)系。它會錯誤地認為視頻只是在展示“買棒球棒花了多少錢”。

Video-TT這一評測基準(zhǔn)提示相關(guān)研究者,在看到AI技術(shù)進步的同時,也需留意其存在的不足,該領(lǐng)域的探索仍需不斷深入。

論文鏈接:https://arxiv.org/abs/2507.15028
數(shù)據(jù)集:https://huggingface.co/datasets/lmms-lab/video-tt
項目主頁:https://zhangyuanhan-ai.github.io/video-tt/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黑天鵝突然來臨,全球陷入暴跌!

黑天鵝突然來臨,全球陷入暴跌!

燕梳樓頻道
2025-08-02 23:27:25
海拉爾火鍋事件后續(xù)!商家發(fā)私信求放過,市監(jiān)局出手,已暫停營業(yè)

海拉爾火鍋事件后續(xù)!商家發(fā)私信求放過,市監(jiān)局出手,已暫停營業(yè)

奇思妙想草葉君
2025-08-02 23:19:15
“跳梁小丑”李玉剛摔下神壇,不再被世界寬容,梅葆玖:永不原諒

“跳梁小丑”李玉剛摔下神壇,不再被世界寬容,梅葆玖:永不原諒

芳芳歷史燴
2025-07-29 18:22:58
武大事件升級!教育專家高呼:不放過一個壞人,不冤枉一個好人…

武大事件升級!教育專家高呼:不放過一個壞人,不冤枉一個好人…

火山詩話
2025-07-31 12:54:44
父親去世,我拿50萬給繼母養(yǎng)老,2年后繼母去世,看她遺書我怔住了

父親去世,我拿50萬給繼母養(yǎng)老,2年后繼母去世,看她遺書我怔住了

紅豆講堂
2025-06-05 11:08:26
父親臨終塞他4億:把錢花光,當(dāng)個敗家子!他奉父命養(yǎng)3個女友27年

父親臨終塞他4億:把錢花光,當(dāng)個敗家子!他奉父命養(yǎng)3個女友27年

玥來玥好講故事
2025-07-22 20:43:32
看到俄方如今處境,更折服彭德懷當(dāng)初的兩大決斷,是多么正確

看到俄方如今處境,更折服彭德懷當(dāng)初的兩大決斷,是多么正確

滄海旅行家
2025-07-28 14:20:05
《南京照相館》高葉臉上的性暗示,申奧處理過,但看懂了細思極恐

《南京照相館》高葉臉上的性暗示,申奧處理過,但看懂了細思極恐

橘子大娛社
2025-07-31 19:20:03
中美達成共識!美方24%對等關(guān)稅及中方反制措施延期,新增5家美企豬禽肉類輸華

中美達成共識!美方24%對等關(guān)稅及中方反制措施延期,新增5家美企豬禽肉類輸華

農(nóng)財寶典畜牧版
2025-08-02 19:23:35
彭老總錯殺袁文才、王佐,讓毛主席一生都無法釋懷,有何內(nèi)情?

彭老總錯殺袁文才、王佐,讓毛主席一生都無法釋懷,有何內(nèi)情?

紅夢史說
2025-08-01 08:03:12
福建艦入列進入最后攻堅時刻!

福建艦入列進入最后攻堅時刻!

環(huán)球網(wǎng)資訊
2025-08-03 07:10:09
詹姆斯如果這樣奪冠,會不會就有資格與喬丹競爭GOAT了

詹姆斯如果這樣奪冠,會不會就有資格與喬丹競爭GOAT了

千百度籃球視角
2025-08-03 11:13:12
丁字褲那根帶子,聞起來到底有多臭?

丁字褲那根帶子,聞起來到底有多臭?

beebee
2025-02-20 11:20:25
iPhone 17 Pro Max曝光:升級15項,安卓看完直接破防

iPhone 17 Pro Max曝光:升級15項,安卓看完直接破防

科技Mentor
2025-07-31 22:19:32
中紀委曝光醫(yī)生受賄案!

中紀委曝光醫(yī)生受賄案!

賽柏藍
2025-08-02 19:42:45
考生被福耀科大錄取后,惡心的一幕出現(xiàn),和王樹國見面卻被抨擊

考生被福耀科大錄取后,惡心的一幕出現(xiàn),和王樹國見面卻被抨擊

娛樂看阿敞
2025-08-03 10:59:38
在健身房,被惡心到了。

在健身房,被惡心到了。

健身迷
2025-07-02 00:21:44
武大楊某的軟肋被抓到!網(wǎng)友真厲害,打蛇打七寸,這下有好戲看了

武大楊某的軟肋被抓到!網(wǎng)友真厲害,打蛇打七寸,這下有好戲看了

果娛
2025-07-31 13:43:11
3場丟9球,斯帥先給申花挖坑 德比前體能消耗更多 劉誠宇添新心魔

3場丟9球,斯帥先給申花挖坑 德比前體能消耗更多 劉誠宇添新心魔

替補席看球
2025-08-03 10:45:33
“余生好好走”,知名央視主持人王小丫,病床上的留言讓人感動

“余生好好走”,知名央視主持人王小丫,病床上的留言讓人感動

老吳教育課堂
2025-08-03 06:25:38
2025-08-03 12:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11012文章數(shù) 176212關(guān)注度
往期回顧 全部

科技要聞

乘龍卡車內(nèi)涵喊話:"活著,才有資格談理想"

頭條要聞

防城港"奔馳姐"亮的是丈夫的執(zhí)法證 律師:應(yīng)予以處罰

頭條要聞

防城港"奔馳姐"亮的是丈夫的執(zhí)法證 律師:應(yīng)予以處罰

體育要聞

山東遼寧這場群毆,代價何其慘重

娛樂要聞

趙露思又發(fā)文,這次估計是真不干了

財經(jīng)要聞

杜建英子女在美國或另有信托

汽車要聞

東風(fēng)奕派eπ008六座版售價18.86萬元起

態(tài)度原創(chuàng)

時尚
房產(chǎn)
手機
數(shù)碼
軍事航空

伊姐周六熱推:電影《浪浪山小妖怪》;電影《瑪麗和麥克斯》......

房產(chǎn)要聞

勁爆!海南又又又搶地了!

手機要聞

安卓7月手機性能榜出爐:驍龍穩(wěn)居第一,聯(lián)發(fā)科霸占次旗艦榜單!

數(shù)碼要聞

Meta 雷朋聯(lián)名智能眼鏡銷量今年激增 300%,第三代產(chǎn)品 10 月發(fā)售

軍事要聞

駁斥"解除武裝" 哈馬斯:建國后再談

無障礙瀏覽 進入關(guān)懷版 漂亮人妻日日操| 天天做天天爱天天综合网2021| 亚洲AV无码成人片在线观看黑料| 日本欧美视频在线观看| 久久www成人看片免费不卡| av激情小说| 欧美人与禽交片在线观看| 亚洲精品自拍在线视频| 成人国产精品秘 久久久 | 久操超碰免费资源站| 动漫肉在线观看网址| 日韩精品一区二区三区AV| 婷婷看看精品一区二区三区| 国产乱码AV不卡| 五级黄高潮片90分钟视频| 亚洲成a∨人片在线观看无码| 久久木日马马子| 激情熟妇熟女| 久久综合九色欧美综合狠狠| 久久综合给合久久97色| 人妻中文AV| 成人免费毛片aaaaaa片| 男人和女人做爽爽免费视频| 国产男女猛烈无遮挡免费视频| 三级片毛片欧洲| 成人少妇无码一区二区| 人妻洗澡被公日日操| 久久亚洲国产成人精品| 亚洲av无码国产精品久久| 无码h片在线观看网站| 天天日狠狠操| 亚洲av成人区| 久久国内精品自在自线波多野结氏 | 国产无码专区| 特级无码毛片免费视频尤物| 婷婷十月无码| 日韩久久无码精品不卡一区二区电影| 少妇AAA级久久久无码精品| 免費A級毛片| 日韩无码中文字| 内射无码专区久久亚洲|