新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】當(dāng)前大模型在最基礎(chǔ)的感知、物理常識(shí)等12項(xiàng)核心認(rèn)知上普遍落后人類10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知識(shí)的極少。團(tuán)隊(duì)公開首個(gè)系統(tǒng)評(píng)測(cè)框架和題庫,呼吁先把「三歲孩子都懂」的常識(shí)打牢,再談更高層的智能。
最近,一篇被Yann LeCun轉(zhuǎn)發(fā)的ICML 2025研究結(jié)果顯示,在CoreCognition基準(zhǔn)1,503題大考中,230個(gè)主流模型紛紛暴露對(duì)于世界模型的「常識(shí)性盲區(qū)」。
再大的多模態(tài)語言模型,也缺少人類嬰兒就有的「核心知識(shí)」地基,即使高層推理再花哨,也架不住地基塌陷。
從下面這張震撼的對(duì)比表中,我們可以看到模型在12項(xiàng)「幼兒園」測(cè)試中,集體翻車。
Object Permanence:人類88.1%,最強(qiáng)模型InternVL3-78B僅74.1%,差距14%;
Perspective Taking:人類91.99%,最強(qiáng)模型QVQ-72B-Preview也僅83.25%,差距9%;
Intuitive Physics:人類91.52%,最強(qiáng)模型GPT-o1僅75.45%,差距超16%,各大模型普遍落后10-30%不等。
來自加州大學(xué)圣地亞哥分校、約翰霍普金斯大學(xué)、埃默里大學(xué)、北卡羅來納大學(xué)教堂山分校、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的研究人員聯(lián)合認(rèn)知科學(xué)領(lǐng)域科學(xué)家,花費(fèi)一年時(shí)間構(gòu)造并開源了業(yè)界首個(gè)核心認(rèn)知基準(zhǔn)CoreCognition。
其中包含1,503道精選題目從感知運(yùn)動(dòng)到形式運(yùn)算12項(xiàng)核心能力,每個(gè)概念95+樣本,全面覆蓋人類認(rèn)知各個(gè)發(fā)展階段。
論文鏈接:https://arxiv.org/pdf/2410.10855
項(xiàng)目網(wǎng)站:https://williamium3000.github.io/core-knowledge/
開源數(shù)據(jù)集:https://huggingface.co/datasets/williamium/CoreCognition
此外,聯(lián)合團(tuán)隊(duì)還維持了三個(gè)高標(biāo)準(zhǔn):
判別性(缺乏目標(biāo)核心知識(shí)的模型必然選錯(cuò)答案)
最小混淆(避免依賴物體識(shí)別等無關(guān)能力)
最小文本捷徑(答案不能僅通過文本推導(dǎo)獲得)
12名標(biāo)注員協(xié)作完成數(shù)據(jù)集構(gòu)建,經(jīng)過雙輪交叉驗(yàn)證和20人Amazon Mechanical Turk人工校驗(yàn)。
230個(gè)模型大考,涵蓋GPT、Claude、Qwen等主流商業(yè)模型及開源模型;11種提示策略,全方位測(cè)試模型真實(shí)能力。
據(jù)悉,團(tuán)隊(duì)不僅構(gòu)建了均衡答案位置和混合答案解析的完整評(píng)測(cè)基礎(chǔ)設(shè)施,而且還計(jì)劃開源一個(gè)支持這230個(gè)模型的MLLM統(tǒng)一測(cè)試框架,亮點(diǎn)是極易上手。
只需幾行代碼就能復(fù)現(xiàn)本文章及其他熱門數(shù)據(jù)的全部實(shí)驗(yàn)結(jié)果!
「概念黑客」雙重盲盒
捅破捷徑學(xué)習(xí)的遮羞布
更絕的是團(tuán)隊(duì)獨(dú)創(chuàng)的Concept Hacking方法,專門用來識(shí)破模型是「真懂」還是「假懂」
核心思路:給每道題做一個(gè)保持所有無關(guān)細(xì)節(jié)完全相同,只把核心概念反轉(zhuǎn)的「孿生題」
例如其中的Perspective Taking測(cè)試
原版題:圖像順時(shí)針旋轉(zhuǎn)90°后,看起來像鴨子還是兔子?→ 測(cè)試真正的perspective taking轉(zhuǎn)換理解
孿生版:同樣的旋轉(zhuǎn)操作,但正確答案相反 → 測(cè)試是否只是在套用固定模板
人類表現(xiàn):兩題都答對(duì)(真正理解空間旋轉(zhuǎn)后的形狀變化)
模型表現(xiàn):原版答對(duì),孿生版直接翻車(暴露對(duì)「鴨兔錯(cuò)覺」的刻板印象依賴)
把MLLM的「高級(jí)智能」拆解標(biāo)題
Finding 1:核心知識(shí)缺失——高層推理沒地基
實(shí)驗(yàn)里,模型在低階任務(wù)上集體表現(xiàn)不佳。這說明它們的高級(jí)推理/感知沒有扎根于人類嬰幼兒就具備的核心知識(shí)。面對(duì)不同表述方式和背景變化時(shí)無法表現(xiàn)出robust且穩(wěn)定高水平的能力。
Finding 2:能力之間「各玩各的」
關(guān)聯(lián)性矩陣顯示了模型能力間的「分裂」現(xiàn)象:低階能力如Permanence、Continuity與對(duì)應(yīng)高階能力如Perspective Taking、Conservation幾乎零相關(guān)。人類認(rèn)知發(fā)展是下層搭積木,上層蓋高樓,層層遞進(jìn);
模型現(xiàn)狀是高樓直接懸空,缺乏發(fā)育鏈條支撐。這種能力間的斷裂意味著任何基礎(chǔ)認(rèn)知的擾動(dòng),都可能讓整個(gè)「智能大廈」瞬間散架。
Finding 3:核心知識(shí)在更多任務(wù)上管用
統(tǒng)計(jì)發(fā)現(xiàn),除了Perspective和 Intuitive Physics,10項(xiàng)核心能力得分與26個(gè)公開基準(zhǔn)(除了偏向檢驗(yàn)OCR能力的ChartQA)強(qiáng)正相關(guān)。
換句話說:核心知識(shí)越好,高層任務(wù)越穩(wěn)。
而作為人類高級(jí)推理的基礎(chǔ)Perspective和Intuitive Physics能力,在基準(zhǔn)測(cè)試評(píng)估結(jié)果中展現(xiàn)的低相關(guān)性,與我們之前在關(guān)系矩陣中觀察到的結(jié)果一致,正是核心知識(shí)缺陷的體現(xiàn)。
Finding 4:壞消息——參數(shù)多目前并不能「長出」核心知識(shí)
把219個(gè)模型從1B拉到110B,低階能力曲線幾乎一條水平線;perspective taking甚至隨規(guī)模下降。
過往「大力出奇跡」的經(jīng)驗(yàn),在核心知識(shí)面前直接失靈。一個(gè)尚未解決卻又可能幫助構(gòu)建世界模型的關(guān)鍵課題是從「如何scale」變成「如何scale出core-knowledge」。
Finding 5:規(guī)模越大,捷徑越香
Concept Hacking結(jié)果顯示:大模型在孿生題上的表現(xiàn)相對(duì)小模型整體并無提升,甚至有些更加糟糕,說明scaling無法解決在核心知識(shí)問題上的「捷徑依賴」。
直觀感受:模型不是「長大變聰明」,而是長大變滑頭。
通過定量分析發(fā)現(xiàn),模型可以分為四類:
核心知識(shí)型:控制題和操作題都答對(duì)(接近人類,但數(shù)量極少)
捷徑依賴型:控制題對(duì),操作題錯(cuò)(最常見,包括GPT-4o等明星模型)
核心缺陷型:控制題就答錯(cuò),操作題表現(xiàn)無意義
盲猜型:兩題都靠運(yùn)氣
研究啟示
認(rèn)知指令可帶來短期提升
推理增強(qiáng)也救不了(10/12 任務(wù)無提升):問題不在「用沒用好」,而在「底子有沒有」,「預(yù)訓(xùn)練缺失」仍是最大嫌疑。
有趣的是,團(tuán)隊(duì)發(fā)現(xiàn)認(rèn)知指令提示——直接告訴模型「這是perspective taking任務(wù)」等概念描述,可瞬間帶來6%的性能提升,表明模型內(nèi)部可能已經(jīng)分布式地存儲(chǔ)了相關(guān)知識(shí),但缺乏有效的檢索和調(diào)用機(jī)制。
然而,這種方法在實(shí)際應(yīng)用中局限性明顯,因?yàn)楝F(xiàn)實(shí)場(chǎng)景中模型不太可能獲得如此明確的概念指導(dǎo)。
更令人擔(dān)憂的是,這種核心知識(shí)缺陷可能在關(guān)鍵應(yīng)用中帶來風(fēng)險(xiǎn):比如自動(dòng)駕駛中對(duì)遮擋物體的理解偏差,或者機(jī)器人在復(fù)雜場(chǎng)景下的物理常識(shí)判斷失誤。
重新思考AI發(fā)展路徑
從「寫詩作畫」到「常識(shí)翻車」,這項(xiàng)研究再次提醒我們:真正的智能,不只是參數(shù)規(guī)模,更是對(duì)世界最樸素、最基礎(chǔ)的理解。
當(dāng)我們驚嘆于大模型在高階任務(wù)上的神奇表現(xiàn)時(shí),是否忽略了連三歲孩子都懂的常識(shí)?忽略了正在悄悄放大的低階核心知識(shí)空洞?
規(guī)模、推理、提示,都只是裱糊匠——地基沒打好,樓越高越危險(xiǎn)。
或許,這正是我們重新思考AI發(fā)展路徑的契機(jī):不是一味追求更大、更強(qiáng),而是回到最初——那些讓人類智能如此穩(wěn)健可靠的核心認(rèn)知能力。
參考資料:
https://arxiv.org/pdf/2410.10855
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.