夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MLLM集體翻車,缺乏嬰兒級(jí)常識(shí)!業(yè)界首個(gè)核心認(rèn)知基準(zhǔn)發(fā)布,LeCun轉(zhuǎn)贊

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】當(dāng)前大模型在最基礎(chǔ)的感知、物理常識(shí)等12項(xiàng)核心認(rèn)知上普遍落后人類10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知識(shí)的極少。團(tuán)隊(duì)公開首個(gè)系統(tǒng)評(píng)測(cè)框架和題庫,呼吁先把「三歲孩子都懂」的常識(shí)打牢,再談更高層的智能。

最近,一篇被Yann LeCun轉(zhuǎn)發(fā)的ICML 2025研究結(jié)果顯示,在CoreCognition基準(zhǔn)1,503題大考中,230個(gè)主流模型紛紛暴露對(duì)于世界模型的「常識(shí)性盲區(qū)」。

再大的多模態(tài)語言模型,也缺少人類嬰兒就有的「核心知識(shí)」地基,即使高層推理再花哨,也架不住地基塌陷。


從下面這張震撼的對(duì)比表中,我們可以看到模型在12項(xiàng)「幼兒園」測(cè)試中,集體翻車。

  • Object Permanence:人類88.1%,最強(qiáng)模型InternVL3-78B僅74.1%,差距14%;

  • Perspective Taking:人類91.99%,最強(qiáng)模型QVQ-72B-Preview也僅83.25%,差距9%;

  • Intuitive Physics:人類91.52%,最強(qiáng)模型GPT-o1僅75.45%,差距超16%,各大模型普遍落后10-30%不等。


來自加州大學(xué)圣地亞哥分校、約翰霍普金斯大學(xué)、埃默里大學(xué)、北卡羅來納大學(xué)教堂山分校、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究人員聯(lián)合認(rèn)知科學(xué)領(lǐng)域科學(xué)家,花費(fèi)一年時(shí)間構(gòu)造并開源了業(yè)界首個(gè)核心認(rèn)知基準(zhǔn)CoreCognition。

其中包含1,503道精選題目從感知運(yùn)動(dòng)到形式運(yùn)算12項(xiàng)核心能力,每個(gè)概念95+樣本,全面覆蓋人類認(rèn)知各個(gè)發(fā)展階段。


論文鏈接:https://arxiv.org/pdf/2410.10855

項(xiàng)目網(wǎng)站:https://williamium3000.github.io/core-knowledge/

開源數(shù)據(jù)集:https://huggingface.co/datasets/williamium/CoreCognition

此外,聯(lián)合團(tuán)隊(duì)還維持了三個(gè)高標(biāo)準(zhǔn):

  • 判別性(缺乏目標(biāo)核心知識(shí)的模型必然選錯(cuò)答案)

  • 最小混淆(避免依賴物體識(shí)別等無關(guān)能力)

  • 最小文本捷徑(答案不能僅通過文本推導(dǎo)獲得)

12名標(biāo)注員協(xié)作完成數(shù)據(jù)集構(gòu)建,經(jīng)過雙輪交叉驗(yàn)證和20人Amazon Mechanical Turk人工校驗(yàn)。

230個(gè)模型大考,涵蓋GPT、Claude、Qwen等主流商業(yè)模型及開源模型;11種提示策略,全方位測(cè)試模型真實(shí)能力。



據(jù)悉,團(tuán)隊(duì)不僅構(gòu)建了均衡答案位置和混合答案解析的完整評(píng)測(cè)基礎(chǔ)設(shè)施,而且還計(jì)劃開源一個(gè)支持這230個(gè)模型的MLLM統(tǒng)一測(cè)試框架,亮點(diǎn)是極易上手。

只需幾行代碼就能復(fù)現(xiàn)本文章及其他熱門數(shù)據(jù)的全部實(shí)驗(yàn)結(jié)果!

「概念黑客」雙重盲盒

捅破捷徑學(xué)習(xí)的遮羞布

更絕的是團(tuán)隊(duì)獨(dú)創(chuàng)的Concept Hacking方法,專門用來識(shí)破模型是「真懂」還是「假懂」

核心思路給每道題做一個(gè)保持所有無關(guān)細(xì)節(jié)完全相同,只把核心概念反轉(zhuǎn)的「孿生題」


例如其中的Perspective Taking測(cè)試

  • 原版題:圖像順時(shí)針旋轉(zhuǎn)90°后,看起來像鴨子還是兔子?→ 測(cè)試真正的perspective taking轉(zhuǎn)換理解

  • 孿生版:同樣的旋轉(zhuǎn)操作,但正確答案相反 → 測(cè)試是否只是在套用固定模板

  • 人類表現(xiàn)兩題都答對(duì)(真正理解空間旋轉(zhuǎn)后的形狀變化)

  • 模型表現(xiàn)原版答對(duì),孿生版直接翻車(暴露對(duì)「鴨兔錯(cuò)覺」的刻板印象依賴)

把MLLM的「高級(jí)智能」拆解標(biāo)題

Finding 1:核心知識(shí)缺失——高層推理沒地基


實(shí)驗(yàn)里,模型在低階任務(wù)上集體表現(xiàn)不佳。這說明它們的高級(jí)推理/感知沒有扎根于人類嬰幼兒就具備的核心知識(shí)。面對(duì)不同表述方式和背景變化時(shí)無法表現(xiàn)出robust且穩(wěn)定高水平的能力。

Finding 2:能力之間「各玩各的」


關(guān)聯(lián)性矩陣顯示了模型能力間的「分裂」現(xiàn)象:低階能力如Permanence、Continuity與對(duì)應(yīng)高階能力如Perspective Taking、Conservation幾乎零相關(guān)。人類認(rèn)知發(fā)展是下層搭積木,上層蓋高樓,層層遞進(jìn);

模型現(xiàn)狀是高樓直接懸空,缺乏發(fā)育鏈條支撐。這種能力間的斷裂意味著任何基礎(chǔ)認(rèn)知的擾動(dòng),都可能讓整個(gè)「智能大廈」瞬間散架。

Finding 3:核心知識(shí)在更多任務(wù)上管用


統(tǒng)計(jì)發(fā)現(xiàn),除了Perspective和 Intuitive Physics,10項(xiàng)核心能力得分與26個(gè)公開基準(zhǔn)(除了偏向檢驗(yàn)OCR能力的ChartQA)強(qiáng)正相關(guān)。

換句話說:核心知識(shí)越好,高層任務(wù)越穩(wěn)。

而作為人類高級(jí)推理的基礎(chǔ)Perspective和Intuitive Physics能力,在基準(zhǔn)測(cè)試評(píng)估結(jié)果中展現(xiàn)的低相關(guān)性,與我們之前在關(guān)系矩陣中觀察到的結(jié)果一致,正是核心知識(shí)缺陷的體現(xiàn)。

Finding 4:壞消息——參數(shù)多目前并不能「長出」核心知識(shí)


把219個(gè)模型從1B拉到110B,低階能力曲線幾乎一條水平線;perspective taking甚至隨規(guī)模下降。

過往「大力出奇跡」的經(jīng)驗(yàn),在核心知識(shí)面前直接失靈。一個(gè)尚未解決卻又可能幫助構(gòu)建世界模型的關(guān)鍵課題是從「如何scale」變成「如何scale出core-knowledge」。

Finding 5:規(guī)模越大,捷徑越香

Concept Hacking結(jié)果顯示:大模型在孿生題上的表現(xiàn)相對(duì)小模型整體并無提升,甚至有些更加糟糕,說明scaling無法解決在核心知識(shí)問題上的「捷徑依賴」。

直觀感受:模型不是「長大變聰明」,而是長大變滑頭。


通過定量分析發(fā)現(xiàn),模型可以分為四類:

  • 核心知識(shí)型控制題和操作題都答對(duì)(接近人類,但數(shù)量極少)

  • 捷徑依賴型控制題對(duì),操作題錯(cuò)(最常見,包括GPT-4o等明星模型)

  • 核心缺陷型控制題就答錯(cuò),操作題表現(xiàn)無意義

  • 盲猜型兩題都靠運(yùn)氣

研究啟示

認(rèn)知指令可帶來短期提升

推理增強(qiáng)也救不了(10/12 任務(wù)無提升):問題不在「用沒用好」,而在「底子有沒有」,「預(yù)訓(xùn)練缺失」仍是最大嫌疑。

有趣的是,團(tuán)隊(duì)發(fā)現(xiàn)認(rèn)知指令提示——直接告訴模型「這是perspective taking任務(wù)」等概念描述,可瞬間帶來6%的性能提升,表明模型內(nèi)部可能已經(jīng)分布式地存儲(chǔ)了相關(guān)知識(shí),但缺乏有效的檢索和調(diào)用機(jī)制。

然而,這種方法在實(shí)際應(yīng)用中局限性明顯,因?yàn)楝F(xiàn)實(shí)場(chǎng)景中模型不太可能獲得如此明確的概念指導(dǎo)。

更令人擔(dān)憂的是,這種核心知識(shí)缺陷可能在關(guān)鍵應(yīng)用中帶來風(fēng)險(xiǎn):比如自動(dòng)駕駛中對(duì)遮擋物體的理解偏差,或者機(jī)器人在復(fù)雜場(chǎng)景下的物理常識(shí)判斷失誤。

重新思考AI發(fā)展路徑

從「寫詩作畫」到「常識(shí)翻車」,這項(xiàng)研究再次提醒我們:真正的智能,不只是參數(shù)規(guī)模,更是對(duì)世界最樸素、最基礎(chǔ)的理解。

當(dāng)我們驚嘆于大模型在高階任務(wù)上的神奇表現(xiàn)時(shí),是否忽略了連三歲孩子都懂的常識(shí)?忽略了正在悄悄放大的低階核心知識(shí)空洞?

規(guī)模、推理、提示,都只是裱糊匠——地基沒打好,樓越高越危險(xiǎn)。

或許,這正是我們重新思考AI發(fā)展路徑的契機(jī):不是一味追求更大、更強(qiáng),而是回到最初——那些讓人類智能如此穩(wěn)健可靠的核心認(rèn)知能力。

參考資料:

https://arxiv.org/pdf/2410.10855


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
零跑:半價(jià)的理想,不虧的生意

零跑:半價(jià)的理想,不虧的生意

IC實(shí)驗(yàn)室
2025-08-04 18:36:40
西方多國幫倒忙,哈馬斯興奮過度,加速把自己送走了

西方多國幫倒忙,哈馬斯興奮過度,加速把自己送走了

山河路口
2025-08-04 13:25:33
男子景區(qū)墜崖身亡后續(xù)!系本地人,攀爬最險(xiǎn)山峰,墜落原因惹爭議

男子景區(qū)墜崖身亡后續(xù)!系本地人,攀爬最險(xiǎn)山峰,墜落原因惹爭議

娛樂看阿敞
2025-08-04 17:20:49
換賽道!廣東小將剛離隊(duì)就打野球 市場(chǎng)報(bào)價(jià)8000 曾說休息一段時(shí)間

換賽道!廣東小將剛離隊(duì)就打野球 市場(chǎng)報(bào)價(jià)8000 曾說休息一段時(shí)間

胖子噴球
2025-08-04 13:18:19
45歲董璇曬健身照,身材緊致小蠻腰,怪不得能拿下小9歲弟弟!

45歲董璇曬健身照,身材緊致小蠻腰,怪不得能拿下小9歲弟弟!

可樂談情感
2025-08-04 17:05:47
東風(fēng)導(dǎo)彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

冰點(diǎn)歷史
2025-07-15 09:33:13
李澤鉅否認(rèn)出售香港深水灣道79號(hào)物業(yè),呼吁各界勿信謠言

李澤鉅否認(rèn)出售香港深水灣道79號(hào)物業(yè),呼吁各界勿信謠言

時(shí)代財(cái)經(jīng)
2025-08-04 16:24:23
新方丈上任3天翻車?釋印樂被質(zhì)疑開150萬路虎,與美女合影曝光

新方丈上任3天翻車?釋印樂被質(zhì)疑開150萬路虎,與美女合影曝光

陳天宇
2025-07-31 22:16:30
烏稱“摧毀”5架俄軍戰(zhàn)機(jī),俄方暫無回應(yīng)

烏稱“摧毀”5架俄軍戰(zhàn)機(jī),俄方暫無回應(yīng)

界面新聞
2025-08-04 18:48:50
直線漲停!A股,全線爆發(fā)!

直線漲停!A股,全線爆發(fā)!

證券時(shí)報(bào)
2025-08-04 14:49:16
烏克蘭破獲俄軍最新核潛艇的機(jī)密文件!其由普京親自部署

烏克蘭破獲俄軍最新核潛艇的機(jī)密文件!其由普京親自部署

項(xiàng)鵬飛
2025-08-03 22:13:37
家電新路口:格力美的長虹亮劍,海信奧克斯TCL億田蘇寧國美有變

家電新路口:格力美的長虹亮劍,海信奧克斯TCL億田蘇寧國美有變

家電圈
2025-08-03 21:10:46
網(wǎng)民冒充武大肖某某同學(xué),微博:兩名違規(guī)用戶被關(guān)閉賬號(hào)

網(wǎng)民冒充武大肖某某同學(xué),微博:兩名違規(guī)用戶被關(guān)閉賬號(hào)

界面新聞
2025-08-04 16:47:03
一石激起千層浪!何炅戳穿趙露思“騙局”,又有4位頂流被拖下水

一石激起千層浪!何炅戳穿趙露思“騙局”,又有4位頂流被拖下水

火之文
2025-08-04 16:08:42
“立秋4不吃,病就不找來!”8月7號(hào)立秋,哪4不吃?精神飽滿過秋

“立秋4不吃,病就不找來!”8月7號(hào)立秋,哪4不吃?精神飽滿過秋

愛生活的陶哥
2025-08-03 09:35:06
楊某某憑交流生三本到武大,曝三次打架輕松擺平,梅新育再次發(fā)聲

楊某某憑交流生三本到武大,曝三次打架輕松擺平,梅新育再次發(fā)聲

凡知
2025-08-02 23:44:00
紅軍城鏖戰(zhàn)進(jìn)入最關(guān)鍵時(shí)刻,俄軍兵臨塞維爾斯克城下!

紅軍城鏖戰(zhàn)進(jìn)入最關(guān)鍵時(shí)刻,俄軍兵臨塞維爾斯克城下!

勝研集
2025-08-04 13:07:18
8 年制醫(yī)學(xué)博士,找不到工作只能去社培,醫(yī)生就業(yè)寒冬來了?

8 年制醫(yī)學(xué)博士,找不到工作只能去社培,醫(yī)生就業(yè)寒冬來了?

醫(yī)眼觀察
2025-08-04 15:02:45
12小時(shí)烈焰吞噬韓船廠巨頭!電力癱瘓一個(gè)月,萬億訂單要懸了?

12小時(shí)烈焰吞噬韓船廠巨頭!電力癱瘓一個(gè)月,萬億訂單要懸了?

智觀科技
2025-08-04 14:49:11
良心壞透的5個(gè)“生活用品”,??又袊耍〖依镉械膭e再用了

良心壞透的5個(gè)“生活用品”,專坑中國人!家里有的別再用了

阿離家居
2025-08-04 16:51:24
2025-08-04 22:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13193文章數(shù) 66113關(guān)注度
往期回顧 全部

科技要聞

奧特曼首曬GPT-5實(shí)測(cè)!被曝使用老團(tuán)隊(duì)遺產(chǎn)

頭條要聞

職工去上班被洪水沖走未被認(rèn)定工傷 家屬起訴法院判了

頭條要聞

職工去上班被洪水沖走未被認(rèn)定工傷 家屬起訴法院判了

體育要聞

25歲去沙特,一代金童的迷之隕落

娛樂要聞

娜扎疑似與張?jiān)讫埛质?,?jīng)紀(jì)人刪評(píng)論

財(cái)經(jīng)要聞

李稻葵呼吁改變理念多發(fā)國債

汽車要聞

大氣外觀混動(dòng)加持 全新一代現(xiàn)代帕里斯帝亮相

態(tài)度原創(chuàng)

健康
房產(chǎn)
藝術(shù)
本地
公開課

呼吸科專家破解呼吸道九大謠言!

房產(chǎn)要聞

三亞2盤瘋狂輸出!7月海南樓市最新榜單出爐!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個(gè)城市過夏天|躲進(jìn)雅安過幾天大熊貓式慢生活

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品无码片在线观看| 色鬼7777久久| 亚洲妇熟xxxx妇色黄| 人人操人人爽人人摸| 亚洲精品色婷婷久久| 西西4444www无码视频软件| 欧美成人精品一区| 伊人精品一区| 亚洲无码AV熟妇| 狠狠色狠狠色综合日日五| 日韩人妻无码一区二区三区综合部| 人人色人人爱| 巨大黑人XXXXX| 少妇又爽又刺激视频| 99久久精品日本一区二区免费| 亚洲视频高清不卡在线观看| 色哟哟国产免费| 国产淫乱免费视频| 国产精品亚洲无码| 无码午夜人妻一区二区三区不卡视频| 久久久午夜成人影院| 熟妇丰满多毛的大隂户| 亚洲熟女AV和综合熟女AV| 色窝窝手机在线免费视频| 激情欧美成人久久综合| 久久少妇12p| 91一级片| 亚洲一二区AV| 亚洲av精品一区二区三区| 凹凸熟女白浆精品视频2| 奇米在线7777在线精品| 久久97人人超人人超碰超国产| 四虎影视久久久免费观看| 国产福利微视频一区二区| 国内精品卡一卡二卡三| 国产成人亚洲综合| 欧美性爱不卡一二三区| 香蕉久久一区二区不卡无毒影院| 日本美国一区二区| 国产乱啊有帅gv小太正| 7788影院|