夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

太牛了!多模態(tài)大模型用來(lái)“抓小三”

0
分享至

題目:CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning

論文地址:https://arxiv.org/pdf/2507.00045

代碼地址: https://github.com/mingliiii/CaughtCheating


創(chuàng)新點(diǎn)


  • CaughtCheating 基準(zhǔn)專注于評(píng)估多模態(tài)大型語(yǔ)言模型(MLLMs)在真實(shí)世界圖像中檢測(cè)微妙、依賴上下文的可疑線索的能力。這種任務(wù)模擬了社交媒體上人們請(qǐng)求他人從照片中發(fā)現(xiàn)可能違背伴侶聲稱的可疑線索的場(chǎng)景,例如從餐廳照片中發(fā)現(xiàn)伴侶是否真的獨(dú)自用餐等,這與以往的視覺(jué)任務(wù)有顯著不同,更具挑戰(zhàn)性和現(xiàn)實(shí)意義。

  • 為了從理論上分析 CaughtCheating 與現(xiàn)有挑戰(zhàn)性任務(wù)之間的難度差異以及 MLLMs 失敗的原因,作者引入了認(rèn)知科學(xué)中的引導(dǎo)搜索理論,并探討了視覺(jué)搜索中引導(dǎo)注意力的因素。根據(jù)該理論,CaughtCheating 任務(wù)具有極低的自下而上顯著性(關(guān)鍵線索不易從周圍環(huán)境中突出)、缺乏自上而下的特征引導(dǎo)(模型不知道要尋找什么)、場(chǎng)景結(jié)構(gòu)和意義模糊等特點(diǎn)。

方法

本文的主要研究方法是構(gòu)建了一個(gè)名為CaughtCheating的基準(zhǔn),用于評(píng)估多模態(tài)大型語(yǔ)言模型在真實(shí)世界圖像中檢測(cè)微妙、依賴上下文的可疑線索的能力。研究者從社交媒體上收集了100張圖像,這些圖像被分為有線索和無(wú)線索兩類,主要場(chǎng)景包括酒店和餐飲場(chǎng)所。每個(gè)圖像都被標(biāo)注了關(guān)于潛在違反原始聲稱的主要問(wèn)題、確定性和非確定性線索,以及一系列分解問(wèn)題,用于分析MLLMs的視覺(jué)推理過(guò)程。為了評(píng)估模型的性能,研究者設(shè)計(jì)了多種評(píng)估指標(biāo),包括Clued Accuracy(檢測(cè)確定性線索的準(zhǔn)確率)、Intersection over Union(檢測(cè)所有相關(guān)線索的IoU)、Unclued Accuracy(判斷圖像中沒(méi)有可疑線索的準(zhǔn)確率)以及分解問(wèn)題的準(zhǔn)確率等。此外,研究者還引入了認(rèn)知科學(xué)中的引導(dǎo)搜索理論,分析了CaughtCheating任務(wù)的難度,并解釋了為什么現(xiàn)有的MLLMs在該任務(wù)上表現(xiàn)不佳。通過(guò)在CaughtCheating基準(zhǔn)上對(duì)多種MLLMs進(jìn)行廣泛的實(shí)驗(yàn)和分析,研究者揭示了當(dāng)前MLLMs在視覺(jué)感知和推理方面的極限,并展示了其推理過(guò)程的詳細(xì)分析。

CaughtCheating 基準(zhǔn)中的示例

本圖展示了 CaughtCheating 基準(zhǔn)中的一個(gè)示例,用于說(shuō)明該基準(zhǔn)任務(wù)的典型場(chǎng)景和挑戰(zhàn)性。在這個(gè)示例中,用戶提出了一個(gè)問(wèn)題:“我的男朋友說(shuō)他在餐廳獨(dú)自用餐,并給我發(fā)了這張照片。你注意到照片中有什么可疑之處與他的說(shuō)法相矛盾嗎?”這張照片本身看起來(lái)像是一個(gè)普通的餐廳食物分享照片,但在勺子的反射中,可以看到有其他人,包括一個(gè)長(zhǎng)發(fā)女孩,這與聲稱獨(dú)自用餐的說(shuō)法相矛盾。這個(gè)示例體現(xiàn)了 CaughtCheating 任務(wù)的核心特點(diǎn):關(guān)鍵線索(勺子反射中的人)非常微妙且容易被忽視,模型需要具備偵探級(jí)別的視覺(jué)感知和推理能力才能發(fā)現(xiàn)這些線索。這種任務(wù)對(duì) MLLMs 來(lái)說(shuō)極具挑戰(zhàn)性,因?yàn)樗鼈冃枰跊](méi)有明確提示的情況下,主動(dòng)搜索并識(shí)別出這些隱藏在圖像中的線索,并理解這些線索與原始聲稱之間的關(guān)系。

GPT-o3 的多模態(tài)視覺(jué)推理能力展示

本圖展示了 GPT-o3 在解決不同類型視覺(jué)任務(wù)時(shí)的推理過(guò)程,這些任務(wù)雖然極具挑戰(zhàn)性,但 GPT-o3 都能夠成功解決。圖中選取了 4 個(gè)具有代表性的任務(wù)場(chǎng)景,通過(guò)這些場(chǎng)景可以深入理解 GPT-o3 的視覺(jué)感知和推理能力。通過(guò)這些示例,可以看出 GPT-o3 在解決各種視覺(jué)任務(wù)時(shí)展現(xiàn)出了強(qiáng)大的視覺(jué)感知和推理能力,這些任務(wù)對(duì)于大多數(shù)人來(lái)說(shuō)是難以完成的。然而,盡管 GPT-o3 能夠完成這些復(fù)雜任務(wù),但其主要依賴于窮舉網(wǎng)格搜索的方法,這表明它在偵探級(jí)別的視覺(jué)感知和推理能力方面仍有待提高。

CaughtCheating 數(shù)據(jù)集標(biāo)注示例解析

本圖展示了 CaughtCheating 數(shù)據(jù)集中一個(gè)標(biāo)注示例的詳細(xì)內(nèi)容,這個(gè)示例清晰地體現(xiàn)了數(shù)據(jù)集的標(biāo)注方式和任務(wù)的復(fù)雜性。圖中展示了一張屬于“Clued”(有線索)類別的圖像,這張圖像被標(biāo)注了一系列的問(wèn)題和對(duì)應(yīng)的答案,這些問(wèn)題和答案共同構(gòu)成了對(duì)模型視覺(jué)推理能力的全面評(píng)估。在圖的左側(cè),是一個(gè)關(guān)于潛在違反聲稱的主要問(wèn)題:“我的男朋友說(shuō)他獨(dú)自一人在餐廳,給我發(fā)了這張照片。你注意到照片中有什么可疑之處與他的說(shuō)法相矛盾嗎?”這個(gè)問(wèn)題直接引出了圖像中可能存在的關(guān)鍵線索,即那些能夠表明男朋友可能沒(méi)有獨(dú)自用餐的細(xì)節(jié)。在圖的右側(cè),是一系列分解問(wèn)題,這些問(wèn)題進(jìn)一步細(xì)化了對(duì)模型視覺(jué)推理過(guò)程的分析。分解問(wèn)題包括兩個(gè)部分:分解感知問(wèn)題和分解推理問(wèn)題。分解感知問(wèn)題評(píng)估模型是否能夠識(shí)別出確定性線索,即使在明確提及線索和位置的情況下。

實(shí)驗(yàn)

本表展示了在 CaughtCheating 基準(zhǔn)上,多種多模態(tài)大型語(yǔ)言模型(MLLMs)的性能對(duì)比結(jié)果。這些模型根據(jù)參數(shù)規(guī)模和類型(開源與專有)被分組評(píng)估,涵蓋了從早期到最新的模型版本。表中列出了模型在 Clued 類別(有線索圖像)上的準(zhǔn)確率(Clued Acc)和交并比(IoU),以及在 Unclued 類別(無(wú)線索圖像)上的準(zhǔn)確率(Unclued Acc)。此外,還提供了模型在分解問(wèn)題上的準(zhǔn)確率,包括分解感知準(zhǔn)確率(Dec. P Acc)、分解推理準(zhǔn)確率(Dec. R Acc)以及分解整體準(zhǔn)確率(Dec. Acc)。最后,表中還給出了模型的精確率(Precision)、召回率(Recall)和 F1 分?jǐn)?shù),用于綜合評(píng)估模型性能。本表為我們提供了一個(gè)全面的視角,以了解不同 MLLMs 在面對(duì)復(fù)雜視覺(jué)推理任務(wù)時(shí)的能力邊界,同時(shí)也揭示了現(xiàn)有模型在偵探級(jí)視覺(jué)感知和推理方面的不足。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
1990年,46歲的三毛跑到新疆,和76歲的王洛賓同居,王洛賓拒絕

1990年,46歲的三毛跑到新疆,和76歲的王洛賓同居,王洛賓拒絕

百態(tài)人間
2025-09-27 15:29:33
殺瘋了!烏克蘭一夜擊落俄軍全系空中武器:420個(gè)被摧毀

殺瘋了!烏克蘭一夜擊落俄軍全系空中武器:420個(gè)被摧毀

軍迷戰(zhàn)情室
2025-10-10 19:51:17
國(guó)民黨集體宣告“拒絕統(tǒng)一”,大陸“和平統(tǒng)一”幻想破滅?

國(guó)民黨集體宣告“拒絕統(tǒng)一”,大陸“和平統(tǒng)一”幻想破滅?

何蕥室內(nèi)設(shè)計(jì)
2025-10-12 22:00:58
陳寶倉(cāng)將軍:提前3個(gè)月安排家人撤離臺(tái)灣,距他被捕僅有兩個(gè)月。

陳寶倉(cāng)將軍:提前3個(gè)月安排家人撤離臺(tái)灣,距他被捕僅有兩個(gè)月。

阿鄖田間生活
2025-10-11 16:32:13
63年新疆出土伏羲女媧交尾圖,古巴比倫、印度、希臘都有類似傳說(shuō)

63年新疆出土伏羲女媧交尾圖,古巴比倫、印度、希臘都有類似傳說(shuō)

抽象派大師
2025-10-11 17:29:38
耗資500億!上海第三機(jī)場(chǎng),為何落在江蘇小城?

耗資500億!上海第三機(jī)場(chǎng),為何落在江蘇小城?

GA環(huán)球建筑
2025-10-12 09:15:13
最后一場(chǎng)國(guó)民黨主席辯論會(huì),對(duì)于是否支持統(tǒng)一,鄭麗文給出了答案

最后一場(chǎng)國(guó)民黨主席辯論會(huì),對(duì)于是否支持統(tǒng)一,鄭麗文給出了答案

近史談
2025-10-12 18:22:50
加盟快船后首次先發(fā)!隊(duì)記:科林斯今天戰(zhàn)掘金將首發(fā)出場(chǎng)

加盟快船后首次先發(fā)!隊(duì)記:科林斯今天戰(zhàn)掘金將首發(fā)出場(chǎng)

雷速體育
2025-10-13 08:33:03
廣州的廖一帆爸爸火了,因?yàn)樗议_了家委會(huì)的真相

廣州的廖一帆爸爸火了,因?yàn)樗议_了家委會(huì)的真相

清暉有墨
2025-09-05 19:24:18
張智霖袁詠儀因兒子實(shí)習(xí)起爭(zhēng)執(zhí):一個(gè)護(hù)著怕摔,一個(gè)放手讓闖

張智霖袁詠儀因兒子實(shí)習(xí)起爭(zhēng)執(zhí):一個(gè)護(hù)著怕摔,一個(gè)放手讓闖

楠風(fēng)享說(shuō)
2025-10-12 14:25:40
全球熱議!外媒回過(guò)神集體報(bào)道殲-16鎖定F-22A,基本都沒(méi)人相信?

全球熱議!外媒回過(guò)神集體報(bào)道殲-16鎖定F-22A,基本都沒(méi)人相信?

軍機(jī)Talk
2025-10-11 14:35:41
雙項(xiàng)世界第1!中國(guó)女乒又一21歲王牌崛起:打張本美和3勝1負(fù)

雙項(xiàng)世界第1!中國(guó)女乒又一21歲王牌崛起:打張本美和3勝1負(fù)

李喜林籃球絕殺
2025-10-12 12:46:52
楊超越這一期《向往的生活》,直接封神!

楊超越這一期《向往的生活》,直接封神!

萌姐
2025-10-11 18:02:31
王洪飛已任中央紀(jì)委國(guó)家監(jiān)委駐中儲(chǔ)糧紀(jì)檢監(jiān)察組組長(zhǎng)

王洪飛已任中央紀(jì)委國(guó)家監(jiān)委駐中儲(chǔ)糧紀(jì)檢監(jiān)察組組長(zhǎng)

澎湃新聞
2025-10-12 21:54:28
上海知名流浪漢發(fā)布個(gè)人寫真照!直言此生不結(jié)婚,曉曉或只是過(guò)客

上海知名流浪漢發(fā)布個(gè)人寫真照!直言此生不結(jié)婚,曉曉或只是過(guò)客

火山詩(shī)話
2025-10-13 05:55:10
任家萱為友人慶生,抱著兒子腹部好凸似懷二胎,男友露面變好看了

任家萱為友人慶生,抱著兒子腹部好凸似懷二胎,男友露面變好看了

小咪侃娛圈
2025-10-13 09:17:57
姆巴佩:和梅西并肩作戰(zhàn)是一種恩賜,我從沒(méi)想過(guò)加盟巴薩

姆巴佩:和梅西并肩作戰(zhàn)是一種恩賜,我從沒(méi)想過(guò)加盟巴薩

雷速體育
2025-10-12 23:22:22
涉嫌嚴(yán)重違紀(jì)違法!廣東一學(xué)校校長(zhǎng)被查!

涉嫌嚴(yán)重違紀(jì)違法!廣東一學(xué)校校長(zhǎng)被查!

花young的生活
2025-10-13 00:02:02
起拍價(jià)1544000元!車牌晉A99999勞斯萊斯幻影將被司法拍賣,車牌號(hào)不在拍賣范圍

起拍價(jià)1544000元!車牌晉A99999勞斯萊斯幻影將被司法拍賣,車牌號(hào)不在拍賣范圍

紅星新聞
2025-10-12 13:31:09
2025-10-13 09:59:00
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5157文章數(shù) 64593關(guān)注度
往期回顧 全部

科技要聞

海外子公司被荷蘭凍結(jié) 聞泰科技:堅(jiān)決反對(duì)

頭條要聞

美防長(zhǎng)稱外國(guó)要在美國(guó)本土建軍事基地 惹怒特朗普擁躉

頭條要聞

美防長(zhǎng)稱外國(guó)要在美國(guó)本土建軍事基地 惹怒特朗普擁躉

體育要聞

表兄弟決賽相遇,他們?cè)谏虾?chuàng)造黑馬奇跡

娛樂(lè)要聞

娜扎被搶休息室,網(wǎng)友扒出疑似林允

財(cái)經(jīng)要聞

三大指數(shù)均大幅低開 創(chuàng)業(yè)板指跌4.44%

汽車要聞

1.5T動(dòng)力/尺寸越級(jí) 國(guó)民家轎第5代帝豪首秀亮相

態(tài)度原創(chuàng)

藝術(shù)
家居
親子
教育
時(shí)尚

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

空間藝術(shù) 星河宇宙之旅

親子要聞

雯雯說(shuō)得對(duì)嗎?

教育要聞

高考地理必考的16種地貌

60歲阿姨靠穿搭火了!“簡(jiǎn)約款”穿出高級(jí)感,自然老去也很美

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 chinese国产精品男女av| 国产成人A在线视频免费| 国精品无码一区二区三区左线| 久久久久9999| 美女禁区a级全片免费观看| 最新无码人妻在线视频| 制服丝袜影音先锋| 午夜阳光精品一区二区三区| 自由 日本语 热 亚洲人| 日本二三区高清不卡| 亚洲精品一区二区国产精华液| 性色av无码专区一ⅴa亚洲| 老熟妇伦子伦456| 免费一级肉体全黄毛片高清| 少如四川BB站| 四虎国产精品成人免费久久| 咪咪成人一区二区三区| 最新av在线播放| 777亚洲精品乱码久久久久久| 青青青爽在线视频免费观看| 国产人碰人摸人爱免费视频| 日韩人妻无码久久精品a免费| 无码免费观看视频| 久久国产自偷自偷免费一区调| 在线观看免费大片vr| 伊人久久大香线蕉av五月天 | 国产精品高潮久久久久久养生馆| 欧美性群另类交| 亚洲午夜精品女人香蕉99| 伊人久久大香线蕉综合5g| 无码AV任你躁| a888av视频| 国产精品无码无需播放器| 欧美性爱一级视频| aV成人试看| 亚洲妇女无套内射视频| 中文字幕日韩精品欧美一区| 亚洲国产精品精JIZZ老师| 精品无码久久久久国产手机版 | 三级黄色片一区二区三区| 少妇张开腿让黑人桶|