網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MLLM集體翻車，缺乏嬰兒級(jí)常識(shí)！業(yè)界首個(gè)核心認(rèn)知基準(zhǔn)發(fā)布，LeCun轉(zhuǎn)贊

2025-08-04 17:12:47　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】當(dāng)前大模型在最基礎(chǔ)的感知、物理常識(shí)等12項(xiàng)核心認(rèn)知上普遍落后人類10-30%，且越大的模型越容易靠「背答案」糊弄，真正掌握核心知識(shí)的極少。團(tuán)隊(duì)公開首個(gè)系統(tǒng)評(píng)測(cè)框架和題庫，呼吁先把「三歲孩子都懂」的常識(shí)打牢，再談更高層的智能。

最近，一篇被Yann LeCun轉(zhuǎn)發(fā)的ICML 2025研究結(jié)果顯示，在CoreCognition基準(zhǔn)1,503題大考中，230個(gè)主流模型紛紛暴露對(duì)于世界模型的「常識(shí)性盲區(qū)」。

再大的多模態(tài)語言模型，也缺少人類嬰兒就有的「核心知識(shí)」地基，即使高層推理再花哨，也架不住地基塌陷。

從下面這張震撼的對(duì)比表中，我們可以看到模型在12項(xiàng)「幼兒園」測(cè)試中，集體翻車。

Object Permanence：人類88.1%，最強(qiáng)模型InternVL3-78B僅74.1%，差距14%；
Perspective Taking：人類91.99%，最強(qiáng)模型QVQ-72B-Preview也僅83.25%，差距9%；
Intuitive Physics：人類91.52%，最強(qiáng)模型GPT-o1僅75.45%，差距超16%，各大模型普遍落后10-30%不等。

來自加州大學(xué)圣地亞哥分校、約翰霍普金斯大學(xué)、埃默里大學(xué)、北卡羅來納大學(xué)教堂山分校、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究人員聯(lián)合認(rèn)知科學(xué)領(lǐng)域科學(xué)家，花費(fèi)一年時(shí)間構(gòu)造并開源了業(yè)界首個(gè)核心認(rèn)知基準(zhǔn)CoreCognition。

其中包含1,503道精選題目從感知運(yùn)動(dòng)到形式運(yùn)算12項(xiàng)核心能力，每個(gè)概念95+樣本，全面覆蓋人類認(rèn)知各個(gè)發(fā)展階段。

論文鏈接：https://arxiv.org/pdf/2410.10855

項(xiàng)目網(wǎng)站：https://williamium3000.github.io/core-knowledge/

開源數(shù)據(jù)集：https://huggingface.co/datasets/williamium/CoreCognition

此外，聯(lián)合團(tuán)隊(duì)還維持了三個(gè)高標(biāo)準(zhǔn)：

判別性（缺乏目標(biāo)核心知識(shí)的模型必然選錯(cuò)答案）
最小混淆（避免依賴物體識(shí)別等無關(guān)能力）
最小文本捷徑（答案不能僅通過文本推導(dǎo)獲得）

12名標(biāo)注員協(xié)作完成數(shù)據(jù)集構(gòu)建，經(jīng)過雙輪交叉驗(yàn)證和20人Amazon Mechanical Turk人工校驗(yàn)。

230個(gè)模型大考，涵蓋GPT、Claude、Qwen等主流商業(yè)模型及開源模型；11種提示策略，全方位測(cè)試模型真實(shí)能力。

據(jù)悉，團(tuán)隊(duì)不僅構(gòu)建了均衡答案位置和混合答案解析的完整評(píng)測(cè)基礎(chǔ)設(shè)施，而且還計(jì)劃開源一個(gè)支持這230個(gè)模型的MLLM統(tǒng)一測(cè)試框架，亮點(diǎn)是極易上手。

只需幾行代碼就能復(fù)現(xiàn)本文章及其他熱門數(shù)據(jù)的全部實(shí)驗(yàn)結(jié)果！

「概念黑客」雙重盲盒

捅破捷徑學(xué)習(xí)的遮羞布

更絕的是團(tuán)隊(duì)獨(dú)創(chuàng)的Concept Hacking方法，專門用來識(shí)破模型是「真懂」還是「假懂」

核心思路：給每道題做一個(gè)保持所有無關(guān)細(xì)節(jié)完全相同，只把核心概念反轉(zhuǎn)的「孿生題」

例如其中的Perspective Taking測(cè)試

原版題：圖像順時(shí)針旋轉(zhuǎn)90°后，看起來像鴨子還是兔子？→ 測(cè)試真正的perspective taking轉(zhuǎn)換理解
孿生版：同樣的旋轉(zhuǎn)操作，但正確答案相反 → 測(cè)試是否只是在套用固定模板
人類表現(xiàn)：兩題都答對(duì)（真正理解空間旋轉(zhuǎn)后的形狀變化）
模型表現(xiàn)：原版答對(duì)，孿生版直接翻車（暴露對(duì)「鴨兔錯(cuò)覺」的刻板印象依賴）

把MLLM的「高級(jí)智能」拆解標(biāo)題

Finding 1：核心知識(shí)缺失——高層推理沒地基

實(shí)驗(yàn)里，模型在低階任務(wù)上集體表現(xiàn)不佳。這說明它們的高級(jí)推理/感知沒有扎根于人類嬰幼兒就具備的核心知識(shí)。面對(duì)不同表述方式和背景變化時(shí)無法表現(xiàn)出robust且穩(wěn)定高水平的能力。

Finding 2：能力之間「各玩各的」

關(guān)聯(lián)性矩陣顯示了模型能力間的「分裂」現(xiàn)象：低階能力如Permanence、Continuity與對(duì)應(yīng)高階能力如Perspective Taking、Conservation幾乎零相關(guān)。人類認(rèn)知發(fā)展是下層搭積木，上層蓋高樓，層層遞進(jìn)；

模型現(xiàn)狀是高樓直接懸空，缺乏發(fā)育鏈條支撐。這種能力間的斷裂意味著任何基礎(chǔ)認(rèn)知的擾動(dòng)，都可能讓整個(gè)「智能大廈」瞬間散架。

Finding 3：核心知識(shí)在更多任務(wù)上管用

統(tǒng)計(jì)發(fā)現(xiàn)，除了Perspective和 Intuitive Physics，10項(xiàng)核心能力得分與26個(gè)公開基準(zhǔn)（除了偏向檢驗(yàn)OCR能力的ChartQA）強(qiáng)正相關(guān)。

換句話說：核心知識(shí)越好，高層任務(wù)越穩(wěn)。

而作為人類高級(jí)推理的基礎(chǔ)Perspective和Intuitive Physics能力，在基準(zhǔn)測(cè)試評(píng)估結(jié)果中展現(xiàn)的低相關(guān)性，與我們之前在關(guān)系矩陣中觀察到的結(jié)果一致，正是核心知識(shí)缺陷的體現(xiàn)。

Finding 4：壞消息——參數(shù)多目前并不能「長出」核心知識(shí)

把219個(gè)模型從1B拉到110B，低階能力曲線幾乎一條水平線；perspective taking甚至隨規(guī)模下降。

過往「大力出奇跡」的經(jīng)驗(yàn)，在核心知識(shí)面前直接失靈。一個(gè)尚未解決卻又可能幫助構(gòu)建世界模型的關(guān)鍵課題是從「如何scale」變成「如何scale出core-knowledge」。

Finding 5：規(guī)模越大，捷徑越香

Concept Hacking結(jié)果顯示：大模型在孿生題上的表現(xiàn)相對(duì)小模型整體并無提升，甚至有些更加糟糕，說明scaling無法解決在核心知識(shí)問題上的「捷徑依賴」。

直觀感受：模型不是「長大變聰明」，而是長大變滑頭。

通過定量分析發(fā)現(xiàn)，模型可以分為四類：

核心知識(shí)型：控制題和操作題都答對(duì)（接近人類，但數(shù)量極少）
捷徑依賴型：控制題對(duì)，操作題錯(cuò)（最常見，包括GPT-4o等明星模型）
核心缺陷型：控制題就答錯(cuò)，操作題表現(xiàn)無意義
盲猜型：兩題都靠運(yùn)氣

研究啟示

認(rèn)知指令可帶來短期提升

推理增強(qiáng)也救不了（10/12 任務(wù)無提升）：問題不在「用沒用好」，而在「底子有沒有」，「預(yù)訓(xùn)練缺失」仍是最大嫌疑。

有趣的是，團(tuán)隊(duì)發(fā)現(xiàn)認(rèn)知指令提示——直接告訴模型「這是perspective taking任務(wù)」等概念描述，可瞬間帶來6%的性能提升，表明模型內(nèi)部可能已經(jīng)分布式地存儲(chǔ)了相關(guān)知識(shí)，但缺乏有效的檢索和調(diào)用機(jī)制。

然而，這種方法在實(shí)際應(yīng)用中局限性明顯，因?yàn)楝F(xiàn)實(shí)場(chǎng)景中模型不太可能獲得如此明確的概念指導(dǎo)。

更令人擔(dān)憂的是，這種核心知識(shí)缺陷可能在關(guān)鍵應(yīng)用中帶來風(fēng)險(xiǎn)：比如自動(dòng)駕駛中對(duì)遮擋物體的理解偏差，或者機(jī)器人在復(fù)雜場(chǎng)景下的物理常識(shí)判斷失誤。

重新思考AI發(fā)展路徑

從「寫詩作畫」到「常識(shí)翻車」，這項(xiàng)研究再次提醒我們：真正的智能，不只是參數(shù)規(guī)模，更是對(duì)世界最樸素、最基礎(chǔ)的理解。

當(dāng)我們驚嘆于大模型在高階任務(wù)上的神奇表現(xiàn)時(shí)，是否忽略了連三歲孩子都懂的常識(shí)？忽略了正在悄悄放大的低階核心知識(shí)空洞？

規(guī)模、推理、提示，都只是裱糊匠——地基沒打好，樓越高越危險(xiǎn)。

或許，這正是我們重新思考AI發(fā)展路徑的契機(jī)：不是一味追求更大、更強(qiáng)，而是回到最初——那些讓人類智能如此穩(wěn)健可靠的核心認(rèn)知能力。

參考資料：

https://arxiv.org/pdf/2410.10855

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.