夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

景不動人動,OST-Bench揭示多模態(tài)大模型在線時空理解短板

0
分享至



多模態(tài)大語言模型(MLLMs)已在視覺與語言模態(tài)融合的感知與推理任務中展現(xiàn)出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

對比離線 / 靜態(tài)的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰(zhàn)。代碼和數(shù)據均已開源。



  • 論文鏈接:https://arxiv.org/abs/2507.07984
  • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 數(shù)據集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

離線鳥瞰全景 VS 在線移步換景

在現(xiàn)實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現(xiàn)在在我的右后方」)。

和現(xiàn)實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現(xiàn)在在我左后方」,并據此決定行動。

隨著多模態(tài)大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現(xiàn)。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

然而,以往的空間智能評測多為離線、固定輸入長度,而涌現(xiàn)的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

  1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
  2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

視頻演示

正如下圖所示,與傳統(tǒng)離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



基準介紹:「移步換景」為大模型帶來了哪些新難題?

傳統(tǒng)的靜態(tài)場景理解主要關注物體屬性及其靜態(tài)關系。而探索的智能體中不斷改變自身位置和視角,帶來持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團隊據此將動態(tài)場景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(shù)(CNT)、時間定位(TEMP)四類題型?;谝?guī)則生成 + 人工篩選,生成了基準的 10k 條測試集數(shù)據 (1.4k 個場景) 以及用于微調的 50k 條訓練集數(shù)據 (7k 個場景)。



實驗結果:大模型的在線場景時空理解答卷







  1. 主流大模型陷入困境:當前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數(shù)的持續(xù)下降說明現(xiàn)有范式難以適應長時序的在線設定。
  2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建?!箼C制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降。總體來看,空間增強模型雖然在特定數(shù)據分布中表現(xiàn)良好,但在更開放、更復雜的在線場景中仍難以穩(wěn)健發(fā)揮。這也進一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實能力邊界方面的價值。



深入分析:大模型的表現(xiàn)診斷書

1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

通過錯誤統(tǒng)計我們發(fā)現(xiàn)模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發(fā)現(xiàn)一個十分典型的共性現(xiàn)象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

研究團隊將這種現(xiàn)象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據,往往只是 「表面合理」。





綠 / 紅色代表模型推理正確 / 錯誤的地方

2.跨視角推理測評子集——對于 MLLM 的專項補考

為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯(lián),多步空間關聯(lián)任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

(2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數(shù)據對多種模型進行了微調實驗。所有模型的分數(shù)均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發(fā)現(xiàn)真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩(wěn)定遵守格式對自己的答案進行解釋。

現(xiàn)象表明:微調可以帶來提升,但這種提升更像是「題海戰(zhàn)術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數(shù)據是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

總結

OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態(tài)大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發(fā)展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態(tài)模型邁向真實智能世界的關鍵一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
服了!白送一個世界級中鋒不要,巴薩你還想買誰?凱恩嗎?

服了!白送一個世界級中鋒不要,巴薩你還想買誰?凱恩嗎?

慢歌輕步謠
2025-12-12 11:42:55
直線拉升!這一概念,漲停潮!

直線拉升!這一概念,漲停潮!

中國基金報
2025-12-12 10:37:41
A股:大家要做好心理準備,明年,不出所料,股市或將重演歷史?

A股:大家要做好心理準備,明年,不出所料,股市或將重演歷史?

振華觀史
2025-12-12 10:44:50
73勝紀錄注定被打破?無敵雷霆完美復刻昔日勇士:已創(chuàng)多項神跡

73勝紀錄注定被打破?無敵雷霆完美復刻昔日勇士:已創(chuàng)多項神跡

羅說NBA
2025-12-11 20:00:55
中美德盾構機挖掘速度斷崖:美國每小時3.6米,德國6米,中國多少

中美德盾構機挖掘速度斷崖:美國每小時3.6米,德國6米,中國多少

老范談史
2025-12-03 20:29:42
四野三萬精銳部隊,借給金日成血戰(zhàn)三年,最后歸來的將士還有多少

四野三萬精銳部隊,借給金日成血戰(zhàn)三年,最后歸來的將士還有多少

流云青史
2025-12-10 16:44:10
女孩曬出已故父親合影,沒想到卻是網友先繃不住了:這不是……

女孩曬出已故父親合影,沒想到卻是網友先繃不住了:這不是……

譚老師地理大課堂
2025-12-11 22:20:25
清朝最后一名太監(jiān)回憶:妃子洗澡從不用手和避諱太監(jiān),十分侮辱人

清朝最后一名太監(jiān)回憶:妃子洗澡從不用手和避諱太監(jiān),十分侮辱人

興趣知識
2025-12-04 21:01:19
德羅贊超卡特升歷史總得分榜第23位,僅差第22位庫里100分左右

德羅贊超卡特升歷史總得分榜第23位,僅差第22位庫里100分左右

懂球帝
2025-12-12 12:49:06
“黑飛”無人機躥上8000米,天空不容法外狂飆|新京報快評

“黑飛”無人機躥上8000米,天空不容法外狂飆|新京報快評

新京報
2025-12-11 15:51:05
一輛都沒有賣出,銷售量直接下降了超過了80%,官媒有最新發(fā)聲!

一輛都沒有賣出,銷售量直接下降了超過了80%,官媒有最新發(fā)聲!

生活魔術專家
2025-12-12 03:34:13
喬冠華死后歸葬故鄉(xiāng)鹽城被拒,蘇州聯(lián)系章含之:鹽城不要,我們要

喬冠華死后歸葬故鄉(xiāng)鹽城被拒,蘇州聯(lián)系章含之:鹽城不要,我們要

范櫳舍長
2025-12-09 15:43:53
喜訊!申花已官宣跟帶隊兩年拿兩冠的大牌名帥提前續(xù)約,值得期待

喜訊!申花已官宣跟帶隊兩年拿兩冠的大牌名帥提前續(xù)約,值得期待

張麗說足球
2025-12-12 12:55:58
33歲的廣州演員康天庥,與羅飛雁已緣盡,現(xiàn)實妻子與他一起當網紅

33歲的廣州演員康天庥,與羅飛雁已緣盡,現(xiàn)實妻子與他一起當網紅

妙知
2025-12-12 12:35:27
日本統(tǒng)合幕僚長:30年前我是F15飛行員,從未經歷30分鐘連續(xù)照射

日本統(tǒng)合幕僚長:30年前我是F15飛行員,從未經歷30分鐘連續(xù)照射

環(huán)球熱點快評
2025-12-12 13:58:26
APEC領導人非正式會議將于2026年11月18日至19日在深圳舉行

APEC領導人非正式會議將于2026年11月18日至19日在深圳舉行

澎湃新聞
2025-12-12 15:59:03
事情鬧大,美國第一次批評中國雷達照射日本戰(zhàn)機,北約也開始介入

事情鬧大,美國第一次批評中國雷達照射日本戰(zhàn)機,北約也開始介入

策略述
2025-12-11 17:34:24
36億砸出個空城?云南這個“國內第一玉器城”,真沒救了嗎?

36億砸出個空城?云南這個“國內第一玉器城”,真沒救了嗎?

GA環(huán)球建筑
2025-12-11 11:27:43
終于知道徐萌為什么會愛上范增,原因很簡單

終于知道徐萌為什么會愛上范增,原因很簡單

可樂談情感
2025-12-12 08:32:58
76年周總理追悼會開始前,汪東興下達事關毛主席密令,追悼會推遲

76年周總理追悼會開始前,汪東興下達事關毛主席密令,追悼會推遲

海佑講史
2025-12-11 13:00:06
2025-12-12 18:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11906文章數(shù) 142509關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

沈逸:美國用最強硬的方式 吹響戰(zhàn)略撤退號角

頭條要聞

沈逸:美國用最強硬的方式 吹響戰(zhàn)略撤退號角

體育要聞

15輪2分,他們怎么成了英超最爛球隊?

娛樂要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財經要聞

鎂信健康闖關港交所:被指竊取商業(yè)秘密

汽車要聞

插混四驅法拉利?849 Testarossa國內發(fā)布516.8萬起

態(tài)度原創(chuàng)

游戲
數(shù)碼
旅游
教育
公開課

《鵝鴨殺》手游定檔熱搜:年輕人用“社交貨幣”投出了一張信任票

數(shù)碼要聞

必看!5款質量好又安全的電熱水器安全性高首選瑞美

旅游要聞

共襄盛會 共話東坡 文旅深度融合再譜新篇 2025東坡論壇在眉山啟幕

教育要聞

校長先要成為讀書人

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 亚洲理论在线A中文字幕| 无码国模国产在线观看免费| 揄拍成人国产精品视频| 国产日韩亚洲大尺度高清| avtt亚洲一区二区| 真人与拘做受免费视频| 亚洲AⅤ优女AV综合久久久| 一边吃胸一边做边爱的片| 国产精品啪| 亚洲成a人片在线观看无码专区| 久久综合网丁香五月| 国产a∨精品一区二区三区不卡 | 国产乱码精品一区二区三区优势| 天堂av最新版中文在线| 亚洲男人天堂2023| 产免费AV片在线观看播放| 毛片色偷拍免费观看| 精品国产成人一区二区三区| 西西大胆午夜人体视频| 777奇米四色成人影视色区| 蜜桃无码av一区二区| 中文有码人妻字幕在线| 国产成人拍精品视频午夜网站| 欧美肥胖老妇bbw| 不卡一区二区在线视频| 成人无码a级毛片免费| 亚洲va精品中文字幕| 欧洲免费av| 免费人成无码大片在线观看| 国产尤物在线| 亚洲综合无码一区二区三区| 国产精品三级久久久久久久| AV小说网站| 国产八区在线| 少夫熟女视频一区二区三区免费观看 | 成年女人永久免费观看视频| 久久av一区二区三区| 亚洲色大成网站www看下面| 亚洲一二区AV| yy1111111少妇影院无码| 四虎影院海外永久|