多模態(tài)大語言模型(MLLMs)已在視覺與語言模態(tài)融合的感知與推理任務(wù)中展現(xiàn)出強(qiáng)大能力。而上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)、香港大學(xué)、香港中文大學(xué)的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動(dòng)態(tài)在線視角出發(fā),為大模型的能力提出了新的挑戰(zhàn)。
對(duì)比離線 / 靜態(tài)的空間智能基準(zhǔn),OST-Bench 更精準(zhǔn)地反映了具身感知在真實(shí)世界中的核心挑戰(zhàn)。代碼和數(shù)據(jù)均已開源。
- 論文鏈接:https://arxiv.org/abs/2507.07984
- 項(xiàng)目主頁:https://rbler1234.github.io/OSTBench.github.io/
- Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/rbler/OST-Bench
- GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench
離線鳥瞰全景 VS 在線移步換景
在現(xiàn)實(shí)世界中,我們的視野范圍是有限的,我們的眼睛在某一時(shí)刻只能聚焦于一個(gè)局部的場景。隨著不斷的探索,移步換景,我們對(duì)于全局場景逐步地形成一個(gè)更為清晰的認(rèn)識(shí);與此同時(shí),基于當(dāng)前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關(guān)系 (「我離那把椅子越來越遠(yuǎn)」「棕色的枕頭現(xiàn)在在我的右后方」)。
和現(xiàn)實(shí)中的人類一樣,在真實(shí)世界部署的智能體通常無法一次性獲取全局環(huán)境,而是依賴連續(xù)輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護(hù)與時(shí)空推理。這對(duì)導(dǎo)航、移動(dòng)操控等具身任務(wù)尤為關(guān)鍵:比如在導(dǎo)航中,模型需要在當(dāng)前時(shí)刻判斷「剛才見到的目標(biāo)現(xiàn)在在我左后方」,并據(jù)此決定行動(dòng)。
隨著多模態(tài)大模型在各類基準(zhǔn)上不斷刷新紀(jì)錄,人們開始關(guān)注它們?cè)?strong>真實(shí)世界設(shè)定下的表現(xiàn)。在時(shí)間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構(gòu)建 3d 空間布局認(rèn)知。
然而,以往的空間智能評(píng)測多為離線、固定輸入長度,而涌現(xiàn)的一些在線視頻評(píng)測基準(zhǔn)往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實(shí)世界場景,相比以往基準(zhǔn)具有兩大核心特點(diǎn):
- 在線設(shè)定:模型必須在不斷增長的觀測中進(jìn)行實(shí)時(shí)感知、記憶與推理;
- 跨時(shí)空理解:需要同時(shí)結(jié)合當(dāng)前畫面與歷史信息,完成面向時(shí)間跨度的復(fù)雜空間推理
視頻演示
正如下圖所示,與傳統(tǒng)離線空間基準(zhǔn)相比,在線設(shè)定對(duì)模型提出了更高、更接近真實(shí)世界的要求。
基準(zhǔn)介紹:「移步換景」為大模型帶來了哪些新難題?
傳統(tǒng)的靜態(tài)場景理解主要關(guān)注物體屬性及其靜態(tài)關(guān)系。而探索的智能體中不斷改變自身位置和視角,帶來持續(xù)更新的信息類型與更豐富的問題形態(tài)。研究團(tuán)隊(duì)據(jù)此將動(dòng)態(tài)場景理解劃分為三大信息類別:智能體空間狀態(tài)、智能體可見信息、智能體 - 物體空間關(guān)系。基于這三類信息,研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了15 個(gè)子任務(wù),覆蓋判斷(JUD)、估算(EST)、計(jì)數(shù)(CNT)、時(shí)間定位(TEMP)四類題型?;谝?guī)則生成 + 人工篩選,生成了基準(zhǔn)的 10k 條測試集數(shù)據(jù) (1.4k 個(gè)場景) 以及用于微調(diào)的 50k 條訓(xùn)練集數(shù)據(jù) (7k 個(gè)場景)。
實(shí)驗(yàn)結(jié)果:大模型的在線場景時(shí)空理解答卷
- 主流大模型陷入困境:當(dāng)前主流多模態(tài)大模型與人類存在顯著性能差距,暴露出跨時(shí)空信息推理的能力短板 (上面表 1 / 表 2)。模型的準(zhǔn)確率隨著探索步數(shù)的持續(xù)下降說明現(xiàn)有范式難以適應(yīng)長時(shí)序的在線設(shè)定。
- 空間增強(qiáng)模型能做好嗎?結(jié)果可能沒那么樂觀。「空間建?!箼C(jī)制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預(yù)期的顯著提升,反而在部分任務(wù)上明顯退步,并伴隨指令遵循能力的下降??傮w來看,空間增強(qiáng)模型雖然在特定數(shù)據(jù)分布中表現(xiàn)良好,但在更開放、更復(fù)雜的在線場景中仍難以穩(wěn)健發(fā)揮。這也進(jìn)一步體現(xiàn)體現(xiàn)了 OST-Bench 在揭示模型真實(shí)能力邊界方面的價(jià)值。
深入分析:大模型的表現(xiàn)診斷書
1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?
通過錯(cuò)誤統(tǒng)計(jì)我們發(fā)現(xiàn)模型的犯錯(cuò)集中在推理步驟,而在對(duì)錯(cuò)誤案例的深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)十分典型的共性現(xiàn)象:在面對(duì)復(fù)雜時(shí)空推理問題時(shí),對(duì)比主動(dòng)回溯歷史信息或檢索關(guān)鍵線索,模型更傾向于「就地猜測」—— 僅依據(jù)當(dāng)前片段中的有限信息做出草率推斷,而非進(jìn)行真正的時(shí)空整合推理。
研究團(tuán)隊(duì)將這種現(xiàn)象稱為「時(shí)空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據(jù),往往只是 「表面合理」。
綠 / 紅色代表模型推理正確 / 錯(cuò)誤的地方
2.跨視角推理測評(píng)子集——對(duì)于 MLLM 的專項(xiàng)補(bǔ)考
為了更精確地定位模型的能力邊界,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)針對(duì)性子集。和之前的測評(píng)不同,這次 (1) 按難度分級(jí):研究團(tuán)隊(duì)按是否需要多步的復(fù)雜推理 (如下圖) 以及是否提前提出關(guān)鍵幀,將問題劃分為四個(gè)難度等級(jí)。對(duì)比單步關(guān)聯(lián),多步空間關(guān)聯(lián)任務(wù)要求更強(qiáng)的推理能力;對(duì)比只有關(guān)鍵幀輸入,全視頻輸入則需在冗長觀察中識(shí)別用于解答的關(guān)鍵幀。
(2) 補(bǔ)考的結(jié)果表明:復(fù)雜線索條件下的空間推理能力不足與長期記憶檢索機(jī)制薄弱是當(dāng)前模型在在線時(shí)空理解任務(wù)中準(zhǔn)確率受限的兩大關(guān)鍵因素。
3.微調(diào)實(shí)驗(yàn)——提前「預(yù)習(xí)」在 OST-Bench 的幫助有多大?
為了評(píng)估模型能力的上限,研究團(tuán)隊(duì)基于來自 7000 個(gè)場景的 5 萬條問答數(shù)據(jù)對(duì)多種模型進(jìn)行了微調(diào)實(shí)驗(yàn)。所有模型的分?jǐn)?shù)均提升了超過 10%,證明「提前預(yù)習(xí)突擊」確實(shí)有效。然而,團(tuán)隊(duì)也發(fā)現(xiàn)真正涉及復(fù)雜時(shí)空推理的任務(wù)仍難以突破 50% 的準(zhǔn)確率,說明單純微調(diào)并不能觸及問題本質(zhì);此外,模型在部分題型上呈現(xiàn)出明顯的「背答案」傾向而非真正理解。微調(diào)后的模型還容易「變得不聽話」,無法穩(wěn)定遵守格式對(duì)自己的答案進(jìn)行解釋。
現(xiàn)象表明:微調(diào)可以帶來提升,但這種提升更像是「題海戰(zhàn)術(shù)式的熟練」,而非 「機(jī)制上的理解進(jìn)步」。在這門課上,沒有結(jié)構(gòu)和范式的突破,僅靠刷數(shù)據(jù)是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強(qiáng)的模型設(shè)計(jì)或訓(xùn)練策略。
總結(jié)
OST-Bench 提出了一個(gè)在線的時(shí)空?qǐng)鼍袄斫饣鶞?zhǔn),通過對(duì)于多個(gè)多模態(tài)大模型的評(píng)估,揭示了當(dāng)前模型在面對(duì)「在線時(shí)空理解」任務(wù)時(shí)的深層短板,也為未來模型的發(fā)展指明了方向:突破復(fù)雜空間推理能力與長期記憶機(jī)制,將是下一代多模態(tài)模型邁向真實(shí)智能世界的關(guān)鍵一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.