夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

景不動(dòng)人動(dòng),OST-Bench揭示多模態(tài)大模型在線時(shí)空理解短板

0
分享至



多模態(tài)大語言模型(MLLMs)已在視覺與語言模態(tài)融合的感知與推理任務(wù)中展現(xiàn)出強(qiáng)大能力。而上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)、香港中文大學(xué)的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動(dòng)態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。

對(duì)比離線 / 靜態(tài)的空間智能基準(zhǔn),OST-Bench 更精準(zhǔn)地反映了具身感知在真實(shí)世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。



  • 論文鏈接:https://arxiv.org/abs/2507.07984
  • 項(xiàng)目主頁:https://rbler1234.github.io/OSTBench.github.io/
  • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
  • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

離線鳥瞰全景 VS 在線移步換景

在現(xiàn)實(shí)世界中,我們的視野范圍是有限的,我們的眼睛在某一時(shí)刻只能聚焦于一個(gè)局部的場景。隨著不斷的探索,移步換景,我們對(duì)于全局場景逐步地形成一個(gè)更為清晰的認(rèn)識(shí);與此同時(shí),基于當(dāng)前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關(guān)系 (「我離那把椅子越來越遠(yuǎn)」「棕色的枕頭現(xiàn)在在我的右后方」)。

和現(xiàn)實(shí)中的人類一樣,在真實(shí)世界部署的智能體通常無法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護(hù)與時(shí)空推理。這對(duì)導(dǎo)航、移動(dòng)操控等具身任務(wù)尤為關(guān)鍵:比如在導(dǎo)航中,模型需要在當(dāng)前時(shí)刻判斷「剛才見到的目標(biāo)現(xiàn)在在我左后方」,并據(jù)此決定行動(dòng)。

隨著多模態(tài)大模型在各類基準(zhǔn)上不斷刷新紀(jì)錄,人們開始關(guān)注它們?cè)?strong>真實(shí)世界設(shè)定下的表現(xiàn)。在時(shí)間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構(gòu)建 3d 空間布局認(rèn)知。

然而,以往的空間智能評(píng)測多為離線、固定輸入長度,而涌現(xiàn)的一些在線視頻評(píng)測基準(zhǔn)往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實(shí)世界場景,相比以往基準(zhǔn)具有兩大核心特點(diǎn):

  1. 在線設(shè)定:模型必須在不斷增長的觀測中進(jìn)行實(shí)時(shí)感知、記憶與推理;
  2. 跨時(shí)空理解:需要同時(shí)結(jié)合當(dāng)前畫面與歷史信息,完成面向時(shí)間跨度的復(fù)雜空間推理

視頻演示

正如下圖所示,與傳統(tǒng)離線空間基準(zhǔn)相比,在線設(shè)定對(duì)模型提出了更高、更接近真實(shí)世界的要求。



基準(zhǔn)介紹:「移步換景」為大模型帶來了哪些新難題?

傳統(tǒng)的靜態(tài)場景理解主要關(guān)注物體屬性及其靜態(tài)關(guān)系。而探索的智能體中不斷改變自身位置和視角,帶來持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團(tuán)隊(duì)據(jù)此將動(dòng)態(tài)場景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關(guān)系。基于這三類信息,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了15 個(gè)子任務(wù),覆蓋判斷(JUD)、估算(EST)、計(jì)數(shù)(CNT)、時(shí)間定位(TEMP)四類題型?;谝?guī)則生成 + 人工篩選,生成了基準(zhǔn)的 10k 條測試集數(shù)據(jù) (1.4k 個(gè)場景) 以及用于微調(diào)的 50k 條訓(xùn)練集數(shù)據(jù) (7k 個(gè)場景)。



實(shí)驗(yàn)結(jié)果:大模型的在線場景時(shí)空理解答卷







  1. 主流大模型陷入困境:當(dāng)前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時(shí)空信息推理的能力短板 (上面表 1 / 表 2)。模型的準(zhǔn)確率隨著探索步數(shù)的持續(xù)下降說明現(xiàn)有范式難以適應(yīng)長時(shí)序的在線設(shè)定。
  2. 空間增強(qiáng)模型能做好嗎?結(jié)果可能沒那么樂觀。「空間建?!箼C(jī)制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預(yù)期的顯著提升,反而在部分任務(wù)上明顯退步,并伴隨指令遵循能力的下降??傮w來看,空間增強(qiáng)模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開放、更復(fù)雜的在線場景中仍難以穩(wěn)健發(fā)揮。這也進(jìn)一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實(shí)能力邊界方面的價(jià)值。



深入分析:大模型的表現(xiàn)診斷書

1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

通過錯(cuò)誤統(tǒng)計(jì)我們發(fā)現(xiàn)模型的犯錯(cuò)集中在推理步驟,而在對(duì)錯(cuò)誤案例的深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)十分典型的共性現(xiàn)象:在面對(duì)復(fù)雜時(shí)空推理問題時(shí),對(duì)比主動(dòng)回溯歷史信息或檢索關(guān)鍵線索,模型更傾向于「就地猜測」—— 僅依據(jù)當(dāng)前片段中的有限信息做出草率推斷,而非進(jìn)行真正的時(shí)空整合推理。

研究團(tuán)隊(duì)將這種現(xiàn)象稱為「時(shí)空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據(jù),往往只是 「表面合理」。





綠 / 紅色代表模型推理正確 / 錯(cuò)誤的地方

2.跨視角推理測評(píng)子集——對(duì)于 MLLM 的專項(xiàng)補(bǔ)考

為了更精確地定位模型的能力邊界,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)針對(duì)性子集。和之前的測評(píng)不同,這次 (1) 按難度分級(jí):研究團(tuán)隊(duì)按是否需要多步的復(fù)雜推理 (如下圖) 以及是否提前提出關(guān)鍵幀,將問題劃分為四個(gè)難度等級(jí)。對(duì)比單步關(guān)聯(lián),多步空間關(guān)聯(lián)任務(wù)要求更強(qiáng)的推理能力;對(duì)比只有關(guān)鍵幀輸入,全視頻輸入則需在冗長觀察中識(shí)別用于解答的關(guān)鍵幀。

(2) 補(bǔ)考的結(jié)果表明:復(fù)雜線索條件下的空間推理能力不足與長期記憶檢索機(jī)制薄弱是當(dāng)前模型在在線時(shí)空理解任務(wù)中準(zhǔn)確率受限的兩大關(guān)鍵因素。



3.微調(diào)實(shí)驗(yàn)——提前「預(yù)習(xí)」在 OST-Bench 的幫助有多大?

為了評(píng)估模型能力的上限,研究團(tuán)隊(duì)基于來自 7000 個(gè)場景的 5 萬條問答數(shù)據(jù)對(duì)多種模型進(jìn)行了微調(diào)實(shí)驗(yàn)。所有模型的分?jǐn)?shù)均提升了超過 10%,證明「提前預(yù)習(xí)突擊」確實(shí)有效。然而,團(tuán)隊(duì)也發(fā)現(xiàn)真正涉及復(fù)雜時(shí)空推理的任務(wù)仍難以突破 50% 的準(zhǔn)確率,說明單純微調(diào)并不能觸及問題本質(zhì);此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調(diào)后的模型還容易「變得不聽話」,無法穩(wěn)定遵守格式對(duì)自己的答案進(jìn)行解釋。

現(xiàn)象表明:微調(diào)可以帶來提升,但這種提升更像是「題海戰(zhàn)術(shù)式的熟練」,而非 「機(jī)制上的理解進(jìn)步」。在這門課上,沒有結(jié)構(gòu)和范式的突破,僅靠刷數(shù)據(jù)是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強(qiáng)的模型設(shè)計(jì)或訓(xùn)練策略。

總結(jié)

OST-Bench 提出了一個(gè)在線的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn),通過對(duì)于多個(gè)多模態(tài)大模型的評(píng)估,揭示了當(dāng)前模型在面對(duì)「在線時(shí)空理解」任務(wù)時(shí)的深層短板,也為未來模型的發(fā)展指明了方向:突破復(fù)雜空間推理能力與長期記憶機(jī)制,將是下一代多模態(tài)模型邁向真實(shí)智能世界的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哈工大研究:喜歡吃面大量放醋的人,不出半年,血管或有5個(gè)變化

哈工大研究:喜歡吃面大量放醋的人,不出半年,血管或有5個(gè)變化

小舟談歷史
2025-10-14 09:16:29
核武器專家張憲義,帶著全家人和許多重要機(jī)密資料叛逃到美國!

核武器專家張憲義,帶著全家人和許多重要機(jī)密資料叛逃到美國!

忠于法紀(jì)
2025-10-10 08:58:02
吃里扒外。13年前定居美國,回國撈金遭“驅(qū)逐”的她,52歲成笑話

吃里扒外。13年前定居美國,回國撈金遭“驅(qū)逐”的她,52歲成笑話

小張帥
2025-10-17 08:57:50
李亞鵬官宣離婚,網(wǎng)友集體心疼汪峰,評(píng)論區(qū)句句都是梗

李亞鵬官宣離婚,網(wǎng)友集體心疼汪峰,評(píng)論區(qū)句句都是梗

廣西阿妹香香
2025-10-17 09:07:49
正式完成簽約!威斯布魯克找到工作,給當(dāng)年小弟打替補(bǔ)

正式完成簽約!威斯布魯克找到工作,給當(dāng)年小弟打替補(bǔ)

德譯洋洋
2025-10-16 13:06:00
為入戶消殺,江門一社區(qū)要求業(yè)主上交鑰匙,不提供就強(qiáng)制開鎖

為入戶消殺,江門一社區(qū)要求業(yè)主上交鑰匙,不提供就強(qiáng)制開鎖

映射生活的身影
2025-10-16 11:02:26
吳石直到犧牲也不知道,自己小兒子能美國留學(xué),竟是“對(duì)頭”幫忙

吳石直到犧牲也不知道,自己小兒子能美國留學(xué),竟是“對(duì)頭”幫忙

雙色球的方向舵
2025-10-15 14:35:38
行業(yè)透視 | 上海二手房“怪象”:9 成小區(qū)下調(diào)掛牌價(jià),房價(jià)卻現(xiàn)止跌勢頭

行業(yè)透視 | 上海二手房“怪象”:9 成小區(qū)下調(diào)掛牌價(jià),房價(jià)卻現(xiàn)止跌勢頭

新浪財(cái)經(jīng)
2025-10-16 17:44:43
毛主席有多明智?成立新疆生產(chǎn)建設(shè)兵團(tuán),七十年后誰都得服

毛主席有多明智?成立新疆生產(chǎn)建設(shè)兵團(tuán),七十年后誰都得服

wenwen123
2025-10-02 07:44:39
阿勒代斯:如果利物浦主帥是弗格森,早就將薩拉赫給賣掉了

阿勒代斯:如果利物浦主帥是弗格森,早就將薩拉赫給賣掉了

雷速體育
2025-10-16 11:09:50
“零租金”浪潮正席卷中國!

“零租金”浪潮正席卷中國!

金投網(wǎng)
2025-10-16 16:25:49
解放上海:為何高橋和月浦打得最慘烈?兩支美械部隊(duì)死戰(zhàn)不降

解放上海:為何高橋和月浦打得最慘烈?兩支美械部隊(duì)死戰(zhàn)不降

太傅言史
2025-10-16 08:42:50
中國要做好最充足的打算:一旦俄羅斯打贏了,我們或許得做三件事

中國要做好最充足的打算:一旦俄羅斯打贏了,我們或許得做三件事

荷蘭豆愛健康
2025-10-17 04:17:02
又壞又蠢!小米SU7司機(jī)被燒死!米粉到處洗白,這和車子無關(guān)

又壞又蠢!小米SU7司機(jī)被燒死!米粉到處洗白,這和車子無關(guān)

吃瓜局
2025-10-14 13:39:54
我招待老鄉(xiāng)一周花11萬,走時(shí)他們只字不提,一周后律師敲響我家門

我招待老鄉(xiāng)一周花11萬,走時(shí)他們只字不提,一周后律師敲響我家門

牛魔王與芭蕉扇
2025-10-15 17:15:08
浙江新婚夫妻天塌了!婚禮在即,請(qǐng)柬已發(fā)出,突然被通知…連丈母娘都緊急出馬!

浙江新婚夫妻天塌了!婚禮在即,請(qǐng)柬已發(fā)出,突然被通知…連丈母娘都緊急出馬!

FM93浙江交通之聲
2025-10-14 10:46:01
緬甸女魔頭穆嘉玲,最殘酷的手段是割“小乳豬”,受害者全是男性

緬甸女魔頭穆嘉玲,最殘酷的手段是割“小乳豬”,受害者全是男性

懸案解密檔案
2025-10-14 09:40:03
《沉默的榮耀》收官在即,四位女演員哭戲見真章,吳越演技再封神

《沉默的榮耀》收官在即,四位女演員哭戲見真章,吳越演技再封神

娛樂官已上任
2025-10-17 08:33:56
11月初,運(yùn)勢爆發(fā)的三個(gè)星座,事業(yè)愛情全面開花

11月初,運(yùn)勢爆發(fā)的三個(gè)星座,事業(yè)愛情全面開花

小晴星座說
2025-10-16 15:21:33
美股恐慌指數(shù),飆升

美股恐慌指數(shù),飆升

中國基金報(bào)
2025-10-17 08:13:37
2025-10-17 10:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11483文章數(shù) 142484關(guān)注度
往期回顧 全部

科技要聞

雷軍:汽車安全是基礎(chǔ) 共同抵制水軍黑公關(guān)

頭條要聞

投保2000萬的公司發(fā)生火災(zāi) 保險(xiǎn)公司:只能賠100萬"

頭條要聞

投保2000萬的公司發(fā)生火災(zāi) 保險(xiǎn)公司:只能賠100萬"

體育要聞

人口5.5萬,他們還在延續(xù)世界杯的夢想

娛樂要聞

還清債務(wù)的劉濤 已走上了另一條大道

財(cái)經(jīng)要聞

愛爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

提問蓮花馮擎峰:如何保證事故后車門正常開啟?

態(tài)度原創(chuàng)

健康
游戲
教育
時(shí)尚
手機(jī)

內(nèi)分泌科專家破解身高八大謠言

Techland 發(fā)布《消逝的光芒:困獸》的最新開發(fā)路線圖,并邀請(qǐng)玩家共同參與11周“困獸回響”挑戰(zhàn)

教育要聞

自學(xué)能力從高中就要培養(yǎng)。 學(xué)業(yè)之路全靠自驅(qū)力,后勁才足

一下老了30歲?!她真讓人認(rèn)不出

手機(jī)要聞

八月份全球市場排名,OPPO第四還是第五呢?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久嫖妓电影| 日本怡春院一区二区三区| 黑人操日本女人| 久久久久99精品成人片欧美| 2022无码| 太久.3m8u| 久久久久少妇久久久久| 真人做受试看120分钟小视频| 胖女人日B视频| 五月丁香六月狠狠爱综合| 东北女人高潮时嗷嗷叫| 制服丝袜,亚洲| 国产在线观看免费人成视频| 国产AVAV国产| 国产成人AV无码精品天堂| 色综合色狠狠天天综合网| 最新一本无码| 日本欧美一区二区三区高清| 国产精品亚洲综合一区| 国产成人无码A区在线| 后入大屁股91| 人妻大战黑人白浆狂泄| 国内揄拍国内精品少妇| av天堂资源在线观看| 韩国性生交大片免费观看视频 | 日韩中文字幕av有码| 丰满女同老熟女| 综合区色网站| 国产精品日日摸夜夜添夜夜添无码| 午夜肉伦伦影院| 国产极品粉嫩泬免费观看| 欧美性爱免费网站| 国产超碰人人做人人爰| 中文aV无码无码无码无码aV中文专区| 欧美疯狂做受xxxx| AV网站免费观看| 国产精品免费福利久久| 久久久久亚洲AV成人网电影| 国产精品美脚玉足脚交欧美| 亚洲国产精品久久久就秋霞| 欧洲老熟妇又粗又大|