網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

太牛了！多模態(tài)大模型用來(lái)“抓小三”

2025-09-18 21:41:58　來(lái)源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

題目：CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning

論文地址：https://arxiv.org/pdf/2507.00045

代碼地址: https://github.com/mingliiii/CaughtCheating

創(chuàng)新點(diǎn)

CaughtCheating 基準(zhǔn)專注于評(píng)估多模態(tài)大型語(yǔ)言模型（MLLMs）在真實(shí)世界圖像中檢測(cè)微妙、依賴上下文的可疑線索的能力。這種任務(wù)模擬了社交媒體上人們請(qǐng)求他人從照片中發(fā)現(xiàn)可能違背伴侶聲稱的可疑線索的場(chǎng)景，例如從餐廳照片中發(fā)現(xiàn)伴侶是否真的獨(dú)自用餐等，這與以往的視覺(jué)任務(wù)有顯著不同，更具挑戰(zhàn)性和現(xiàn)實(shí)意義。
為了從理論上分析 CaughtCheating 與現(xiàn)有挑戰(zhàn)性任務(wù)之間的難度差異以及 MLLMs 失敗的原因，作者引入了認(rèn)知科學(xué)中的引導(dǎo)搜索理論，并探討了視覺(jué)搜索中引導(dǎo)注意力的因素。根據(jù)該理論，CaughtCheating 任務(wù)具有極低的自下而上顯著性（關(guān)鍵線索不易從周圍環(huán)境中突出）、缺乏自上而下的特征引導(dǎo)（模型不知道要尋找什么）、場(chǎng)景結(jié)構(gòu)和意義模糊等特點(diǎn)。

方法

本文的主要研究方法是構(gòu)建了一個(gè)名為CaughtCheating的基準(zhǔn)，用于評(píng)估多模態(tài)大型語(yǔ)言模型在真實(shí)世界圖像中檢測(cè)微妙、依賴上下文的可疑線索的能力。研究者從社交媒體上收集了100張圖像，這些圖像被分為有線索和無(wú)線索兩類，主要場(chǎng)景包括酒店和餐飲場(chǎng)所。每個(gè)圖像都被標(biāo)注了關(guān)于潛在違反原始聲稱的主要問(wèn)題、確定性和非確定性線索，以及一系列分解問(wèn)題，用于分析MLLMs的視覺(jué)推理過(guò)程。為了評(píng)估模型的性能，研究者設(shè)計(jì)了多種評(píng)估指標(biāo)，包括Clued Accuracy（檢測(cè)確定性線索的準(zhǔn)確率）、Intersection over Union（檢測(cè)所有相關(guān)線索的IoU）、Unclued Accuracy（判斷圖像中沒(méi)有可疑線索的準(zhǔn)確率）以及分解問(wèn)題的準(zhǔn)確率等。此外，研究者還引入了認(rèn)知科學(xué)中的引導(dǎo)搜索理論，分析了CaughtCheating任務(wù)的難度，并解釋了為什么現(xiàn)有的MLLMs在該任務(wù)上表現(xiàn)不佳。通過(guò)在CaughtCheating基準(zhǔn)上對(duì)多種MLLMs進(jìn)行廣泛的實(shí)驗(yàn)和分析，研究者揭示了當(dāng)前MLLMs在視覺(jué)感知和推理方面的極限，并展示了其推理過(guò)程的詳細(xì)分析。

CaughtCheating 基準(zhǔn)中的示例

本圖展示了 CaughtCheating 基準(zhǔn)中的一個(gè)示例，用于說(shuō)明該基準(zhǔn)任務(wù)的典型場(chǎng)景和挑戰(zhàn)性。在這個(gè)示例中，用戶提出了一個(gè)問(wèn)題：“我的男朋友說(shuō)他在餐廳獨(dú)自用餐，并給我發(fā)了這張照片。你注意到照片中有什么可疑之處與他的說(shuō)法相矛盾嗎？”這張照片本身看起來(lái)像是一個(gè)普通的餐廳食物分享照片，但在勺子的反射中，可以看到有其他人，包括一個(gè)長(zhǎng)發(fā)女孩，這與聲稱獨(dú)自用餐的說(shuō)法相矛盾。這個(gè)示例體現(xiàn)了 CaughtCheating 任務(wù)的核心特點(diǎn)：關(guān)鍵線索（勺子反射中的人）非常微妙且容易被忽視，模型需要具備偵探級(jí)別的視覺(jué)感知和推理能力才能發(fā)現(xiàn)這些線索。這種任務(wù)對(duì) MLLMs 來(lái)說(shuō)極具挑戰(zhàn)性，因?yàn)樗鼈冃枰跊](méi)有明確提示的情況下，主動(dòng)搜索并識(shí)別出這些隱藏在圖像中的線索，并理解這些線索與原始聲稱之間的關(guān)系。

GPT-o3 的多模態(tài)視覺(jué)推理能力展示

本圖展示了 GPT-o3 在解決不同類型視覺(jué)任務(wù)時(shí)的推理過(guò)程，這些任務(wù)雖然極具挑戰(zhàn)性，但 GPT-o3 都能夠成功解決。圖中選取了 4 個(gè)具有代表性的任務(wù)場(chǎng)景，通過(guò)這些場(chǎng)景可以深入理解 GPT-o3 的視覺(jué)感知和推理能力。通過(guò)這些示例，可以看出 GPT-o3 在解決各種視覺(jué)任務(wù)時(shí)展現(xiàn)出了強(qiáng)大的視覺(jué)感知和推理能力，這些任務(wù)對(duì)于大多數(shù)人來(lái)說(shuō)是難以完成的。然而，盡管 GPT-o3 能夠完成這些復(fù)雜任務(wù)，但其主要依賴于窮舉網(wǎng)格搜索的方法，這表明它在偵探級(jí)別的視覺(jué)感知和推理能力方面仍有待提高。

CaughtCheating 數(shù)據(jù)集標(biāo)注示例解析

本圖展示了 CaughtCheating 數(shù)據(jù)集中一個(gè)標(biāo)注示例的詳細(xì)內(nèi)容，這個(gè)示例清晰地體現(xiàn)了數(shù)據(jù)集的標(biāo)注方式和任務(wù)的復(fù)雜性。圖中展示了一張屬于“Clued”（有線索）類別的圖像，這張圖像被標(biāo)注了一系列的問(wèn)題和對(duì)應(yīng)的答案，這些問(wèn)題和答案共同構(gòu)成了對(duì)模型視覺(jué)推理能力的全面評(píng)估。在圖的左側(cè)，是一個(gè)關(guān)于潛在違反聲稱的主要問(wèn)題：“我的男朋友說(shuō)他獨(dú)自一人在餐廳，給我發(fā)了這張照片。你注意到照片中有什么可疑之處與他的說(shuō)法相矛盾嗎？”這個(gè)問(wèn)題直接引出了圖像中可能存在的關(guān)鍵線索，即那些能夠表明男朋友可能沒(méi)有獨(dú)自用餐的細(xì)節(jié)。在圖的右側(cè)，是一系列分解問(wèn)題，這些問(wèn)題進(jìn)一步細(xì)化了對(duì)模型視覺(jué)推理過(guò)程的分析。分解問(wèn)題包括兩個(gè)部分：分解感知問(wèn)題和分解推理問(wèn)題。分解感知問(wèn)題評(píng)估模型是否能夠識(shí)別出確定性線索，即使在明確提及線索和位置的情況下。

實(shí)驗(yàn)

本表展示了在 CaughtCheating 基準(zhǔn)上，多種多模態(tài)大型語(yǔ)言模型（MLLMs）的性能對(duì)比結(jié)果。這些模型根據(jù)參數(shù)規(guī)模和類型（開源與專有）被分組評(píng)估，涵蓋了從早期到最新的模型版本。表中列出了模型在 Clued 類別（有線索圖像）上的準(zhǔn)確率（Clued Acc）和交并比（IoU），以及在 Unclued 類別（無(wú)線索圖像）上的準(zhǔn)確率（Unclued Acc）。此外，還提供了模型在分解問(wèn)題上的準(zhǔn)確率，包括分解感知準(zhǔn)確率（Dec. P Acc）、分解推理準(zhǔn)確率（Dec. R Acc）以及分解整體準(zhǔn)確率（Dec. Acc）。最后，表中還給出了模型的精確率（Precision）、召回率（Recall）和 F1 分?jǐn)?shù)，用于綜合評(píng)估模型性能。本表為我們提供了一個(gè)全面的視角，以了解不同 MLLMs 在面對(duì)復(fù)雜視覺(jué)推理任務(wù)時(shí)的能力邊界，同時(shí)也揭示了現(xiàn)有模型在偵探級(jí)視覺(jué)感知和推理方面的不足。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.