題目:CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning
論文地址:https://arxiv.org/pdf/2507.00045
代碼地址: https://github.com/mingliiii/CaughtCheating
創(chuàng)新點(diǎn)
CaughtCheating 基準(zhǔn)專注于評(píng)估多模態(tài)大型語(yǔ)言模型(MLLMs)在真實(shí)世界圖像中檢測(cè)微妙、依賴上下文的可疑線索的能力。這種任務(wù)模擬了社交媒體上人們請(qǐng)求他人從照片中發(fā)現(xiàn)可能違背伴侶聲稱的可疑線索的場(chǎng)景,例如從餐廳照片中發(fā)現(xiàn)伴侶是否真的獨(dú)自用餐等,這與以往的視覺(jué)任務(wù)有顯著不同,更具挑戰(zhàn)性和現(xiàn)實(shí)意義。
為了從理論上分析 CaughtCheating 與現(xiàn)有挑戰(zhàn)性任務(wù)之間的難度差異以及 MLLMs 失敗的原因,作者引入了認(rèn)知科學(xué)中的引導(dǎo)搜索理論,并探討了視覺(jué)搜索中引導(dǎo)注意力的因素。根據(jù)該理論,CaughtCheating 任務(wù)具有極低的自下而上顯著性(關(guān)鍵線索不易從周圍環(huán)境中突出)、缺乏自上而下的特征引導(dǎo)(模型不知道要尋找什么)、場(chǎng)景結(jié)構(gòu)和意義模糊等特點(diǎn)。
本文的主要研究方法是構(gòu)建了一個(gè)名為CaughtCheating的基準(zhǔn),用于評(píng)估多模態(tài)大型語(yǔ)言模型在真實(shí)世界圖像中檢測(cè)微妙、依賴上下文的可疑線索的能力。研究者從社交媒體上收集了100張圖像,這些圖像被分為有線索和無(wú)線索兩類,主要場(chǎng)景包括酒店和餐飲場(chǎng)所。每個(gè)圖像都被標(biāo)注了關(guān)于潛在違反原始聲稱的主要問(wèn)題、確定性和非確定性線索,以及一系列分解問(wèn)題,用于分析MLLMs的視覺(jué)推理過(guò)程。為了評(píng)估模型的性能,研究者設(shè)計(jì)了多種評(píng)估指標(biāo),包括Clued Accuracy(檢測(cè)確定性線索的準(zhǔn)確率)、Intersection over Union(檢測(cè)所有相關(guān)線索的IoU)、Unclued Accuracy(判斷圖像中沒(méi)有可疑線索的準(zhǔn)確率)以及分解問(wèn)題的準(zhǔn)確率等。此外,研究者還引入了認(rèn)知科學(xué)中的引導(dǎo)搜索理論,分析了CaughtCheating任務(wù)的難度,并解釋了為什么現(xiàn)有的MLLMs在該任務(wù)上表現(xiàn)不佳。通過(guò)在CaughtCheating基準(zhǔn)上對(duì)多種MLLMs進(jìn)行廣泛的實(shí)驗(yàn)和分析,研究者揭示了當(dāng)前MLLMs在視覺(jué)感知和推理方面的極限,并展示了其推理過(guò)程的詳細(xì)分析。
CaughtCheating 基準(zhǔn)中的示例
本圖展示了 CaughtCheating 基準(zhǔn)中的一個(gè)示例,用于說(shuō)明該基準(zhǔn)任務(wù)的典型場(chǎng)景和挑戰(zhàn)性。在這個(gè)示例中,用戶提出了一個(gè)問(wèn)題:“我的男朋友說(shuō)他在餐廳獨(dú)自用餐,并給我發(fā)了這張照片。你注意到照片中有什么可疑之處與他的說(shuō)法相矛盾嗎?”這張照片本身看起來(lái)像是一個(gè)普通的餐廳食物分享照片,但在勺子的反射中,可以看到有其他人,包括一個(gè)長(zhǎng)發(fā)女孩,這與聲稱獨(dú)自用餐的說(shuō)法相矛盾。這個(gè)示例體現(xiàn)了 CaughtCheating 任務(wù)的核心特點(diǎn):關(guān)鍵線索(勺子反射中的人)非常微妙且容易被忽視,模型需要具備偵探級(jí)別的視覺(jué)感知和推理能力才能發(fā)現(xiàn)這些線索。這種任務(wù)對(duì) MLLMs 來(lái)說(shuō)極具挑戰(zhàn)性,因?yàn)樗鼈冃枰跊](méi)有明確提示的情況下,主動(dòng)搜索并識(shí)別出這些隱藏在圖像中的線索,并理解這些線索與原始聲稱之間的關(guān)系。
GPT-o3 的多模態(tài)視覺(jué)推理能力展示
本圖展示了 GPT-o3 在解決不同類型視覺(jué)任務(wù)時(shí)的推理過(guò)程,這些任務(wù)雖然極具挑戰(zhàn)性,但 GPT-o3 都能夠成功解決。圖中選取了 4 個(gè)具有代表性的任務(wù)場(chǎng)景,通過(guò)這些場(chǎng)景可以深入理解 GPT-o3 的視覺(jué)感知和推理能力。通過(guò)這些示例,可以看出 GPT-o3 在解決各種視覺(jué)任務(wù)時(shí)展現(xiàn)出了強(qiáng)大的視覺(jué)感知和推理能力,這些任務(wù)對(duì)于大多數(shù)人來(lái)說(shuō)是難以完成的。然而,盡管 GPT-o3 能夠完成這些復(fù)雜任務(wù),但其主要依賴于窮舉網(wǎng)格搜索的方法,這表明它在偵探級(jí)別的視覺(jué)感知和推理能力方面仍有待提高。
CaughtCheating 數(shù)據(jù)集標(biāo)注示例解析
本圖展示了 CaughtCheating 數(shù)據(jù)集中一個(gè)標(biāo)注示例的詳細(xì)內(nèi)容,這個(gè)示例清晰地體現(xiàn)了數(shù)據(jù)集的標(biāo)注方式和任務(wù)的復(fù)雜性。圖中展示了一張屬于“Clued”(有線索)類別的圖像,這張圖像被標(biāo)注了一系列的問(wèn)題和對(duì)應(yīng)的答案,這些問(wèn)題和答案共同構(gòu)成了對(duì)模型視覺(jué)推理能力的全面評(píng)估。在圖的左側(cè),是一個(gè)關(guān)于潛在違反聲稱的主要問(wèn)題:“我的男朋友說(shuō)他獨(dú)自一人在餐廳,給我發(fā)了這張照片。你注意到照片中有什么可疑之處與他的說(shuō)法相矛盾嗎?”這個(gè)問(wèn)題直接引出了圖像中可能存在的關(guān)鍵線索,即那些能夠表明男朋友可能沒(méi)有獨(dú)自用餐的細(xì)節(jié)。在圖的右側(cè),是一系列分解問(wèn)題,這些問(wèn)題進(jìn)一步細(xì)化了對(duì)模型視覺(jué)推理過(guò)程的分析。分解問(wèn)題包括兩個(gè)部分:分解感知問(wèn)題和分解推理問(wèn)題。分解感知問(wèn)題評(píng)估模型是否能夠識(shí)別出確定性線索,即使在明確提及線索和位置的情況下。
實(shí)驗(yàn)
本表展示了在 CaughtCheating 基準(zhǔn)上,多種多模態(tài)大型語(yǔ)言模型(MLLMs)的性能對(duì)比結(jié)果。這些模型根據(jù)參數(shù)規(guī)模和類型(開源與專有)被分組評(píng)估,涵蓋了從早期到最新的模型版本。表中列出了模型在 Clued 類別(有線索圖像)上的準(zhǔn)確率(Clued Acc)和交并比(IoU),以及在 Unclued 類別(無(wú)線索圖像)上的準(zhǔn)確率(Unclued Acc)。此外,還提供了模型在分解問(wèn)題上的準(zhǔn)確率,包括分解感知準(zhǔn)確率(Dec. P Acc)、分解推理準(zhǔn)確率(Dec. R Acc)以及分解整體準(zhǔn)確率(Dec. Acc)。最后,表中還給出了模型的精確率(Precision)、召回率(Recall)和 F1 分?jǐn)?shù),用于綜合評(píng)估模型性能。本表為我們提供了一個(gè)全面的視角,以了解不同 MLLMs 在面對(duì)復(fù)雜視覺(jué)推理任務(wù)時(shí)的能力邊界,同時(shí)也揭示了現(xiàn)有模型在偵探級(jí)視覺(jué)感知和推理方面的不足。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.