夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能否「圣地巡禮」?多模態(tài)大模型全新評(píng)估基準(zhǔn)VIR-Bench來(lái)了

0
分享至



大家或許都有過(guò)這樣的體驗(yàn):

看完一部喜歡的動(dòng)漫,總會(huì)心血來(lái)潮地想去 “圣地巡禮”;刷到別人剪輯精美的旅行 vlog,也會(huì)忍不住收藏起來(lái),想著哪天親自走一遍同樣的路線。旅行與影像的結(jié)合,總是能勾起人們的探索欲望。那么,如果 AI 能自動(dòng)看懂這些旅行視頻,幫你解析出 “去了哪些地方”“順序是怎樣的”,甚至還能一鍵生成屬于你的旅行計(jì)劃,會(huì)不會(huì)很有趣?這不僅僅是阿宅的想象,更是多模態(tài)大模型在真實(shí)世界應(yīng)用中的一個(gè)重要場(chǎng)景。



正是在這樣的啟發(fā)下,來(lái)自日本早稻田大學(xué),CyberAgent 和奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)的團(tuán)隊(duì)提出了一個(gè)全新的多模態(tài)大模型評(píng)估基準(zhǔn) VIR-Bench ,旨在評(píng)測(cè) AI 是否真的能理解旅行視頻中的地理位置與時(shí)間順序,從而支撐更復(fù)雜、更實(shí)用的應(yīng)用。用一句話來(lái)概括,這項(xiàng)研究就是在追問(wèn):“我從哪里來(lái)?我要到哪里去?”



  • 論文地址:https://www.arxiv.org/abs/2509.19002
  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任務(wù)設(shè)計(jì)與數(shù)據(jù)集構(gòu)建

任務(wù)目標(biāo):行程還原(Itinerary Reconstruction)

在 VIR-Bench 中,給定一個(gè)旅行 vlog(在日本拍攝),模型要輸出訪問(wèn)順序圖(visiting order graph),也就是 “我去了哪些地點(diǎn)、按什么順序、地點(diǎn)之間有哪些包含關(guān)系” 的結(jié)構(gòu)化表示。

更具體地,這個(gè)訪問(wèn)順序圖是一個(gè)有向圖,其中:

  • 節(jié)點(diǎn)表示被訪問(wèn)的地點(diǎn),按層次分為 Prefecture,City,和 POI(Point of Interest)三層級(jí)。
  • 包含邊(Inclusion edge) 表示層次上的 “大地理單元包含小地理單元” 關(guān)系(例如某 POI 在某個(gè) City 里,某個(gè) City 在某個(gè) Prefecture 里)。
  • 轉(zhuǎn)移邊(Transition edge) 表示時(shí)間順序上的移動(dòng):從一個(gè)節(jié)點(diǎn)移動(dòng)到下一個(gè)節(jié)點(diǎn)(同層級(jí))表示旅行順序。



這意味著模型不僅要識(shí)別出 “我去過(guò)的地點(diǎn)”,還要判斷這些地點(diǎn)之間的時(shí)間順序,地理空間關(guān)系,進(jìn)而構(gòu)建出整個(gè)旅行路徑的結(jié)構(gòu)。此外,由于旅行視頻往往是自拍視角 / 行進(jìn)視角 / 風(fēng)光視角等交錯(cuò)出現(xiàn),模型需要在多樣視角、非連續(xù)畫(huà)面中“拼圖式” 理解,這進(jìn)一步提升了任務(wù)難度。

為便于模型訓(xùn)練與評(píng)測(cè),作者將這一復(fù)雜任務(wù)拆解為兩個(gè)子任務(wù):

1. 節(jié)點(diǎn)預(yù)測(cè):給定視頻,模型列出所有被訪問(wèn)的 Prefecture、City、POI。

2. 邊緣預(yù)測(cè):給定視頻 + 節(jié)點(diǎn)集合(節(jié)點(diǎn)標(biāo)簽順序被打亂),模型要判斷哪些節(jié)點(diǎn)之間存在包含邊,哪些節(jié)點(diǎn)之間存在轉(zhuǎn)移邊。即預(yù)測(cè)邊的集合。

通過(guò)這種分解方式,我們可以分別評(píng)估模型的地理識(shí)別能力與時(shí)序推理能力,以及它們?cè)趯?shí)際組合時(shí)的協(xié)同性。

數(shù)據(jù)集構(gòu)建:200 個(gè)旅行視頻 + 訪問(wèn)順序圖

為了支撐上述任務(wù),作者構(gòu)建了一個(gè)規(guī)模適中的專用數(shù)據(jù)集:

  • 視頻數(shù)量:200 個(gè)旅行 vlog(都在日本拍攝) 。
  • 地點(diǎn)覆蓋:共標(biāo)注出 3,689 個(gè) POI,分布在日本 43 個(gè)都道府縣(幾乎覆蓋全日本) 。
  • 標(biāo)注方式:每個(gè)視頻由人工注釋者識(shí)別每個(gè) POI 的起止時(shí)間、Google Maps 鏈接,并通過(guò)雙人校驗(yàn)后自動(dòng)構(gòu)建最終的訪問(wèn)順序圖。

作者在論文中還附上了詳細(xì)注釋指南、數(shù)據(jù)分布統(tǒng)計(jì)等信息(可見(jiàn) Appendix 部分)。

實(shí)驗(yàn)結(jié)果與洞察:當(dāng)前模型面臨的挑戰(zhàn)



在實(shí)驗(yàn)中,作者發(fā)現(xiàn)開(kāi)源模型整體上仍然落后于商用模型,尤其是在 POI 節(jié)點(diǎn)識(shí)別 和 轉(zhuǎn)移邊預(yù)測(cè) 這兩個(gè)子任務(wù)上差距尤為明顯。進(jìn)一步的分析顯示,轉(zhuǎn)移邊預(yù)測(cè)幾乎是所有模型的 “最難關(guān)”:不少模型要么直接誤解了任務(wù)要求,要么忽視了層級(jí)結(jié)構(gòu)的約束(只有同層級(jí)節(jié)點(diǎn)之間可以有轉(zhuǎn)移邊),結(jié)果往往接近隨機(jī)水平。

另一方面,模型規(guī)模的擴(kuò)展對(duì)性能提升具有顯著作用,尤其體現(xiàn)在邊緣預(yù)測(cè)上;而是否具備地理相關(guān)的預(yù)訓(xùn)練,則成為 POI 節(jié)點(diǎn)預(yù)測(cè)精度差異的關(guān)鍵因素。值得注意的是,思維鏈推理(Chain-of-Thought) 的效果在不同子任務(wù)中差別很大:在節(jié)點(diǎn)預(yù)測(cè)中提升有限,但在邊緣預(yù)測(cè)中卻能帶來(lái)顯著的改善。如果再進(jìn)一步結(jié)合音頻信息(例如 Gemini-2.5-Pro 的多模態(tài)輸入),效果提升尤為突出。

Ablation 實(shí)驗(yàn)也為我們揭示了模型性能提升的幾個(gè)關(guān)鍵方向:增加輸入幀數(shù)可以讓模型捕捉更完整的旅行線索,更長(zhǎng)的推理過(guò)程能幫助模型逐步還原旅行順序,而音頻的利用則能提供額外的語(yǔ)義提示。三者結(jié)合,共同推動(dòng)了模型在復(fù)雜時(shí)空理解任務(wù)上的進(jìn)步。

然而,即便有這些改進(jìn),整體性能仍遠(yuǎn)未達(dá)到可用水平。即使是當(dāng)前得分最高的 Gemini-2.5-Pro,在預(yù)測(cè)結(jié)果中依然存在大量錯(cuò)誤,這進(jìn)一步凸顯了多模態(tài)大模型在長(zhǎng)程地理與時(shí)間理解上的巨大挑戰(zhàn)。



表1: 節(jié)點(diǎn)預(yù)測(cè)的評(píng)估結(jié)果



表2: 邊緣預(yù)測(cè)的評(píng)估結(jié)果

總而言之,VIR-Bench 不僅是一個(gè)新的評(píng)測(cè)基準(zhǔn),更是為未來(lái)諸多應(yīng)用打開(kāi)了一扇窗口。通過(guò)在旅行視頻中重建行程順序,它逼迫模型同時(shí)理解 “地理位置 + 時(shí)間順序”,這與機(jī)器人如何理解世界、規(guī)劃路徑,以及自動(dòng)駕駛系統(tǒng)如何在動(dòng)態(tài)環(huán)境中進(jìn)行決策高度契合。

這一研究讓我們看清:當(dāng)前的大模型在長(zhǎng)程推理和時(shí)空理解上仍有明顯不足,但也指明了進(jìn)化的方向 —— 更強(qiáng)的地理空間感知、更可靠的時(shí)間推理,以及多模態(tài)信息的深度融合。當(dāng)這些能力逐漸成熟,AI 將不再只是 “看視頻”,而是真正具備 “在世界中行動(dòng)” 的潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)道重啟收費(fèi),地方政府也是沒(méi)辦法了

國(guó)道重啟收費(fèi),地方政府也是沒(méi)辦法了

冰川思想庫(kù)
2025-12-11 11:58:57
浙大否認(rèn)26歲博導(dǎo)靠家世上位,越描越黑了,細(xì)節(jié)曝光,信任撕裂!

浙大否認(rèn)26歲博導(dǎo)靠家世上位,越描越黑了,細(xì)節(jié)曝光,信任撕裂!

眼光很亮
2025-12-11 19:44:24
華為重奪中國(guó)手機(jī)市場(chǎng)份額第一

華為重奪中國(guó)手機(jī)市場(chǎng)份額第一

第一財(cái)經(jīng)資訊
2025-12-11 14:06:09
千萬(wàn)粉絲網(wǎng)紅“痞幼”開(kāi)阿斯頓·馬丁微型車上戀綜,被誤認(rèn)為是“老頭樂(lè)”,經(jīng)紀(jì)人回應(yīng):豪車是租的

千萬(wàn)粉絲網(wǎng)紅“痞幼”開(kāi)阿斯頓·馬丁微型車上戀綜,被誤認(rèn)為是“老頭樂(lè)”,經(jīng)紀(jì)人回應(yīng):豪車是租的

臺(tái)州交通廣播
2025-12-11 14:11:05
別再說(shuō)范曾糊涂了,87歲和37歲妻子造娃成功,女方才是真被套牢了

別再說(shuō)范曾糊涂了,87歲和37歲妻子造娃成功,女方才是真被套牢了

甜檸聊史
2025-12-11 21:38:28
嚴(yán)肅規(guī)勸范曾:莫再以“為國(guó)家文化藝術(shù)”遮蔽私德丑行

嚴(yán)肅規(guī)勸范曾:莫再以“為國(guó)家文化藝術(shù)”遮蔽私德丑行

谷小九
2025-12-11 22:01:49
按照雷氏營(yíng)銷法賣果凍橙!小姐姐真是學(xué)到精髓了

按照雷氏營(yíng)銷法賣果凍橙!小姐姐真是學(xué)到精髓了

爆角追蹤
2025-12-12 09:44:28
同樣是裁員,佳能63萬(wàn)補(bǔ)償,佛山一工廠699元賠償,打工人心酸了

同樣是裁員,佳能63萬(wàn)補(bǔ)償,佛山一工廠699元賠償,打工人心酸了

眼光很亮
2025-12-11 15:56:33
涉案金額高達(dá)9.7億元,深大通集團(tuán)實(shí)控人姜?jiǎng)ζ拮雍卤蟊磺卜?,被抓時(shí)已打算飛往美國(guó)

涉案金額高達(dá)9.7億元,深大通集團(tuán)實(shí)控人姜?jiǎng)ζ拮雍卤蟊磺卜担蛔r(shí)已打算飛往美國(guó)

每日經(jīng)濟(jì)新聞
2025-12-12 00:25:11
央視再次提醒別去日本旅游,網(wǎng)友喊話旅游就去俄羅斯和柬埔寨!

央視再次提醒別去日本旅游,網(wǎng)友喊話旅游就去俄羅斯和柬埔寨!

眼光很亮
2025-12-11 19:32:55
近3.6億起!佛山又一老牌商場(chǎng)被法拍!開(kāi)業(yè)已超20年

近3.6億起!佛山又一老牌商場(chǎng)被法拍!開(kāi)業(yè)已超20年

樂(lè)居好房
2025-12-12 09:11:22
2026央視春晚主題官宣僅1天,三大惡心情況發(fā)生了,陳佩斯沒(méi)說(shuō)錯(cuò)

2026央視春晚主題官宣僅1天,三大惡心情況發(fā)生了,陳佩斯沒(méi)說(shuō)錯(cuò)

觀察鑒娛
2025-12-11 08:55:39
五位中國(guó)男籃救兵!徐杰領(lǐng)銜,楊瀚森王俊杰在列,郭士強(qiáng)沒(méi)有退路

五位中國(guó)男籃救兵!徐杰領(lǐng)銜,楊瀚森王俊杰在列,郭士強(qiáng)沒(méi)有退路

多特體育說(shuō)
2025-12-11 23:17:09
彭加木被找到了,知情人:DNA專家說(shuō)99%就是彭加木,但有個(gè)遺憾

彭加木被找到了,知情人:DNA專家說(shuō)99%就是彭加木,但有個(gè)遺憾

芳芳?xì)v史燴
2025-12-11 16:17:36
錄音曝光!美國(guó)一飛行員高空欲關(guān)閉客機(jī)發(fā)動(dòng)機(jī),機(jī)艙混亂傳來(lái)搏斗聲,機(jī)上載有84人

錄音曝光!美國(guó)一飛行員高空欲關(guān)閉客機(jī)發(fā)動(dòng)機(jī),機(jī)艙混亂傳來(lái)搏斗聲,機(jī)上載有84人

中國(guó)能源網(wǎng)
2025-12-11 10:27:06
烏克蘭21歲富二代稱父親持有大量加密貨幣資產(chǎn),被同學(xué)設(shè)局綁架殺害,警方:他被殘忍折磨后,說(shuō)出兩個(gè)加密貨幣賬戶密碼

烏克蘭21歲富二代稱父親持有大量加密貨幣資產(chǎn),被同學(xué)設(shè)局綁架殺害,警方:他被殘忍折磨后,說(shuō)出兩個(gè)加密貨幣賬戶密碼

揚(yáng)子晚報(bào)
2025-12-11 07:12:36
古畫(huà)里,常出現(xiàn)一位手持寶劍提著頭顱的女子,她是誰(shuí)?

古畫(huà)里,常出現(xiàn)一位手持寶劍提著頭顱的女子,她是誰(shuí)?

收藏大視界
2025-12-10 20:39:32
63萬(wàn)補(bǔ)償曬不得?中山佳能員工發(fā)視頻因”炫富”違規(guī)下架

63萬(wàn)補(bǔ)償曬不得?中山佳能員工發(fā)視頻因”炫富”違規(guī)下架

雷科技
2025-12-11 17:07:10
年僅25歲!江蘇美女“寶貝”去世,生前貪睡不吃早飯,飲料當(dāng)水喝

年僅25歲!江蘇美女“寶貝”去世,生前貪睡不吃早飯,飲料當(dāng)水喝

鋭娛之樂(lè)
2025-12-11 08:21:37
一炮命中副司令?46名官兵當(dāng)場(chǎng)斃命,36萬(wàn)泰軍戰(zhàn)備,洪森迎來(lái)危機(jī)

一炮命中副司令?46名官兵當(dāng)場(chǎng)斃命,36萬(wàn)泰軍戰(zhàn)備,洪森迎來(lái)危機(jī)

諦聽(tīng)骨語(yǔ)本尊
2025-12-11 23:28:33
2025-12-12 10:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11900文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實(shí)測(cè)感受來(lái)了

頭條要聞

澤連斯基:已向美提交修訂后的和平計(jì)劃 更新五點(diǎn)信息

頭條要聞

澤連斯基:已向美提交修訂后的和平計(jì)劃 更新五點(diǎn)信息

體育要聞

你最看不上的人,關(guān)鍵時(shí)刻卻最想救你...

娛樂(lè)要聞

黃慧頤曝保劍鋒出軌細(xì)節(jié)!

財(cái)經(jīng)要聞

美國(guó)要組建C5,全世界大吃一驚

汽車要聞

長(zhǎng)途穿越更輕松 二代哈弗H9穿越版限時(shí)售23.29萬(wàn)

態(tài)度原創(chuàng)

游戲
健康
親子
教育
時(shí)尚

模擬器&策略發(fā)行商特賣來(lái)了!誰(shuí)在抄襲我的生活?

甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

親子要聞

“請(qǐng)向前一步!”當(dāng)孩子問(wèn)我們有多愛(ài)他時(shí),跟他玩這個(gè)游戲吧

教育要聞

韓國(guó)高考英語(yǔ)超高難度引爭(zhēng)議 韓國(guó)教育部嚴(yán)厲問(wèn)責(zé)

12月的奇跡,是“白”給的!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 97久久久免费精品人妻一区| 国产亚洲色女人| 视频一区视频二区视频三区| 中文无码日韩欧| 久久综合少妇11p| 亚洲国内自拍愉拍| 亚洲国产高清在线一区二区三区| 又大又粗弄得我出好多水| 大地资源网第二页免费观看| 超碰日韩AV在线| 国产在线视频一区二区| 精品人妻无码视频一区二区三区| 久久热在线视频精品视频| 黑人处破女免费播放| 欧美熟妇白浆| 欧洲专线二区三区| 人人添人人操| 俺去啦最新官网| 99xxxxx| www、色、com| 97人人揉人人捏人人添| 男人AV七色网| 成人免费看www网址入口| 天天日天天搞| 国产精品日韩Av一区二区三区| 国产资源精品中文字幕| 日产精品卡三卡在线| 精品久久一区二区三区蜜桃| 日韩美av一区二区三区| 性欧美老人牲交xxxxx视频| 欧美激情一区二区| 亚洲精品一区二区三区蜜| 精品国产一区二区三区不卡蜜臂| 久久无码精品国产| 久久精品国产6699国产精| 日A电影久久| 欧美激情六月性视频在线| 黑人91精品人伦| 国产360激情盗摄全集| 久久久久久久无码| 中文字幕一区二区三区在线无码|