機(jī)器之心報(bào)道
編輯:Panda、澤南
給 AGI 畫一條「及格線」,GPT-4 和 GPT-5 竟都是「差等生」?
通用人工智能(Artificial General Intelligence,AGI)是目前 AI 領(lǐng)域內(nèi)各個(gè)頂尖實(shí)驗(yàn)室努力的大方向,但是有關(guān) AGI 的定義可謂眾說紛紜。也就是說,在追逐 AGI 這一圣杯時(shí),我們究竟在追逐什么?
近日,圖靈獎(jiǎng)得主 Yoshua Bengio、前谷歌 CEO 埃里克?施密特、Gary Marcus 等眾多學(xué)者與行業(yè)領(lǐng)袖聯(lián)手,終于為 AGI 這個(gè)炙手可熱卻又模糊不清的概念提出了一個(gè)全面、可測(cè)試的定義。
- 論文標(biāo)題:A Definition of AGI
- 論文鏈接:https://www.agidefinition.ai/paper.pdf
這篇文章提供了一個(gè)全面、可量化的框架來試圖消除這些模糊性。其框架旨在具體明確:AGI 是一種能夠匹敵甚至超越受過良好教育的成年人的認(rèn)知多功能性和熟練程度的人工智能。
這一定義強(qiáng)調(diào),通用智能不僅需要在狹窄領(lǐng)域內(nèi)展現(xiàn)專業(yè)化的表現(xiàn),還需要具備人類認(rèn)知技能的廣度(多功能性)和深度(熟練程度)。
以人類為鏡:量化 AGI 的框架
為了將這一定義付諸實(shí)踐,我們必須關(guān)注通用智能的唯一現(xiàn)存范例:人類。人類的認(rèn)知并非單一能力,而是一個(gè)由進(jìn)化磨練出的眾多獨(dú)特能力構(gòu)成的復(fù)雜體系。這些能力賦予了我們非凡的適應(yīng)能力和對(duì)世界的理解力。
為了系統(tǒng)地研究 AI 系統(tǒng)是否具備這種能力范圍,該研究以卡特爾 - 霍恩 - 卡羅爾 (CHC,Cattell-Horn-Carroll) 認(rèn)知能力理論為基礎(chǔ),該理論是人類智力最經(jīng)實(shí)證驗(yàn)證的模型。CHC 理論主要源于一個(gè)多世紀(jì)以來對(duì)各種認(rèn)知能力測(cè)試集合的迭代因子分析的綜合,其提供了人類認(rèn)知的層次分類圖。它將一般智力分解為不同的廣義能力和眾多狹義能力(例如歸納、聯(lián)想記憶或空間掃描)。
為了確定人工智能是否具備與受過良好教育的成年人一樣的認(rèn)知多樣性和熟練程度,該研究使用了用于測(cè)試人類的認(rèn)知測(cè)試系統(tǒng)來測(cè)試人工智能系統(tǒng)。這種方法用具體的測(cè)量指標(biāo)取代了模糊的智力概念,從而得出了標(biāo)準(zhǔn)化的「通用智力指數(shù)」(AGI)分?jǐn)?shù)(0% 到 100%),其中 100% 表示通用智力指數(shù)。
AGI 的十大核心能力
該框架包含十項(xiàng)核心認(rèn)知分量,它們?cè)醋?CHC 理論中的「廣義能力」,并被等量加權(quán)(每項(xiàng) 10%),以強(qiáng)調(diào)廣度并覆蓋主要的認(rèn)知領(lǐng)域。
下圖展示了這些分量及各自更細(xì)分的一些領(lǐng)域方向:
值得注意的是,該團(tuán)隊(duì)還評(píng)估了每個(gè)分量下,當(dāng)前的 GPT-4 和 GPT-5 模型的表現(xiàn)。
一般知識(shí)(K):對(duì)世界事實(shí)性知識(shí)的廣度理解,包括常識(shí)、文化、科學(xué)、社會(huì)科學(xué)與歷史。
閱讀與寫作能力(RW):在書面語(yǔ)言上的理解與表達(dá)熟練度,從基礎(chǔ)解碼到復(fù)雜的理解、寫作與運(yùn)用。
數(shù)學(xué)能力(M):在算術(shù)、代數(shù)、幾何、概率與微積分等方面的知識(shí)與技能深度。
現(xiàn)場(chǎng)即時(shí)推理能力(R):靈活調(diào)控注意力以解決新問題的能力,不僅依賴既有知識(shí)結(jié)構(gòu),通過演繹與歸納測(cè)試。
工作記憶(WM):在文本、聽覺與視覺模態(tài)下,保持并操作當(dāng)前信息的能力。
長(zhǎng)期記憶存儲(chǔ)(MS):持續(xù)學(xué)習(xí)新信息的能力,包括聯(lián)想記憶、意義記憶與逐字記憶。
長(zhǎng)期記憶檢索(MR):高效而準(zhǔn)確地檢索已存知識(shí)的能力,尤其是避免「虛構(gòu)」(幻覺)的關(guān)鍵能力。
視覺處理(V):感知、分析、推理、生成與掃描視覺信息的能力。
聽覺處理(A):區(qū)分、識(shí)別并創(chuàng)造性地處理聽覺刺激(包括語(yǔ)音、節(jié)奏與音樂)的能力。
速度(S):快速執(zhí)行簡(jiǎn)單認(rèn)知任務(wù)的能力,包括感知速度、反應(yīng)時(shí)間與處理流暢度。
這一操作化框架可提供多模態(tài)(文本、視覺、聽覺)的整體性評(píng)估,從而作為嚴(yán)格的診斷工具,用以揭示當(dāng)前 AI 系統(tǒng)的優(yōu)勢(shì)與顯著弱點(diǎn)。
而 GPT-4 和 GPT-5 在各分量上的表現(xiàn)均未超過 10%,甚至在不少具體指標(biāo)上都是 0 分表現(xiàn)。因此,可以說當(dāng)前的前沿 LLM 模型離 AGI 還相距甚遠(yuǎn)。下表總結(jié)了這兩個(gè)模型的整體得分情況:
在這篇定義性質(zhì)的論文中,研究人員還做了進(jìn)一步的討論,給出了一些更深度的見解和概念界定。
「鋸齒狀」AI 能力與關(guān)鍵瓶頸
首先,該團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)代 AI 系統(tǒng)的認(rèn)知結(jié)構(gòu)呈現(xiàn)出高度不均衡,呈現(xiàn)所謂「鋸齒狀」(jagged)特征。
模型在某些依賴大量訓(xùn)練數(shù)據(jù)的領(lǐng)域表現(xiàn)出極高的熟練度,例如一般知識(shí)(K)、閱讀與寫作(RW)、數(shù)學(xué)能力(M),但同時(shí)在基礎(chǔ)認(rèn)知機(jī)制上存在嚴(yán)重缺陷。
這種不均衡的發(fā)展揭示了通往 AGI 的特定瓶頸。其中最顯著的瓶頸可能是長(zhǎng)期記憶存儲(chǔ)(MS),當(dāng)前模型在這一項(xiàng)的得分幾乎接近 0%。缺乏持續(xù)學(xué)習(xí)的能力使得 AI 系統(tǒng)呈現(xiàn)「失憶癥」式的特征,限制了其實(shí)用性,并迫使模型在每次交互中都重新學(xué)習(xí)上下文。
類似地,在視覺推理(V)方面的缺陷,也阻礙了 AI 智能體與復(fù)雜數(shù)字環(huán)境進(jìn)行有效交互的能力。
能力扭曲與「通用性幻覺」
此外,當(dāng)前 AI 能力的「鋸齒狀」分布,常常導(dǎo)致所謂的「能力扭曲」(capability contortions):模型會(huì)利用某些領(lǐng)域的強(qiáng)項(xiàng)來彌補(bǔ)其他方面的嚴(yán)重弱點(diǎn)。
這些權(quán)宜之計(jì)掩蓋了底層局限,制造出一種脆弱的「通用智能幻覺」。
比如一種典型的扭曲現(xiàn)象,是依賴巨大的上下文窗口(工作記憶,WM)來彌補(bǔ)長(zhǎng)期記憶存儲(chǔ)(MS)的缺失。
實(shí)踐中,研究者讓模型使用超長(zhǎng)上下文來維持狀態(tài)與吸收信息(例如加載整個(gè)代碼庫(kù))。然而,這種做法效率低、計(jì)算成本高,并會(huì)使模型的注意機(jī)制過載。更關(guān)鍵的是,它無法擴(kuò)展到需要連續(xù)數(shù)天甚至數(shù)周上下文積累的任務(wù)。真正的長(zhǎng)期記憶系統(tǒng)可能需要一個(gè)獨(dú)立的模塊(例如 LoRA 適配器),通過不斷調(diào)整模型權(quán)重來吸收經(jīng)驗(yàn)。
另外,在長(zhǎng)期記憶提?。∕R)方面的不精確表現(xiàn)(如幻覺或虛構(gòu))??赏ㄟ^集成外部搜索工具加以緩解,這種方式被稱為檢索增強(qiáng)生成(RAG)。
然而,這種對(duì) RAG 的依賴本質(zhì)上也是一種「能力扭曲」,掩蓋了 AI 記憶中的兩種深層弱點(diǎn):
- 它彌補(bǔ)了模型無法可靠訪問自身龐大但靜態(tài)的參數(shù)化知識(shí)的能力缺陷;
- 更關(guān)鍵的是,它掩蓋了缺乏動(dòng)態(tài)、經(jīng)驗(yàn)式記憶系統(tǒng)的事實(shí),即一種能長(zhǎng)期保存私人交互與持續(xù)變化上下文的持久記憶機(jī)制。
雖然 RAG 可以擴(kuò)展到私密文檔,但它的核心功能仍是「數(shù)據(jù)庫(kù)檢索」。這種依賴可能成為 AGI 的根本性負(fù)擔(dān),因?yàn)樗鼰o法取代真正學(xué)習(xí)、個(gè)性化與長(zhǎng)期上下文理解所需的整體記憶整合能力。
誤將這些「能力扭曲」視為真正的認(rèn)知廣度,會(huì)導(dǎo)致對(duì) AGI 到來時(shí)間的誤判。它們還可能讓人誤以為智能過于「碎片化」而無法被系統(tǒng)性理解。
如果將智能比作引擎
有趣的是,在論文中,研究團(tuán)隊(duì)還做了一番類比:將對(duì)智能的多維度理解類比為一個(gè)高性能引擎。其中,整體智力水平相當(dāng)于「馬力」;人工心智,如同引擎,其性能最終受限于最弱的部件。圖 3 展示了解各能力間的關(guān)系。
目前,AI 「引擎」的幾個(gè)關(guān)鍵部件存在嚴(yán)重缺陷。這極大限制了系統(tǒng)的總體「馬力」,無論其他部件多么優(yōu)化。該框架正是用來識(shí)別這些缺陷,從而評(píng)估我們距離真正 AGI 還有多遠(yuǎn)。
社會(huì)智能(Social Intelligence)
人際交往技能分布在多個(gè)廣義認(rèn)知能力中:例如,認(rèn)知共情體現(xiàn)在一般知識(shí)(K)中的「常識(shí)」能力;面部情緒識(shí)別是視覺加工(V)中「圖像描述」熟練度的前提;而心智理論(Theory of Mind)則在即時(shí)推理(R)的測(cè)試中體現(xiàn)。
認(rèn)知能力的相互依賴性
該團(tuán)隊(duì)指出,雖然該框架將智能拆分為十個(gè)獨(dú)立的測(cè)量維度,但必須認(rèn)識(shí)到這些能力之間高度相互依賴。復(fù)雜的認(rèn)知任務(wù)幾乎從不依靠單一領(lǐng)域完成。
例如,解決高階數(shù)學(xué)問題同時(shí)依賴數(shù)學(xué)能力(M)與即時(shí)推理(R);「心智理論」題目需要即時(shí)推理(R)與一般知識(shí)(K);圖像識(shí)別涉及視覺加工(V)與一般知識(shí)(K);理解一部電影則需整合聽覺加工(A)、視覺加工(V)與工作記憶(WM)。
因此,不同的測(cè)驗(yàn)組合往往共同考察多個(gè)能力,反映出通用智能的整體性特征。
「解決數(shù)據(jù)集」與「解決任務(wù)」的區(qū)別
須知,在一個(gè)數(shù)據(jù)集上的成功并不意味著在該任務(wù)上就是成功的 —— 這些數(shù)據(jù)集只是必要而非充分條件。
因此,這里基于任務(wù)的定義方法可能會(huì)更加合理一些。
該團(tuán)隊(duì)表示:「由于我們基于任務(wù)集合,而非過度依賴特定數(shù)據(jù)集,評(píng)測(cè)者可在任何時(shí)間使用當(dāng)時(shí)最佳的測(cè)試手段來檢驗(yàn) AI 系統(tǒng)?!?/p>
相關(guān)概念的定義
在這篇論文中,研究團(tuán)隊(duì)還簡(jiǎn)單界定了其它一些相關(guān)概念:
- Pandemic AI:能設(shè)計(jì)并制造出新的、具有傳染性與高毒性的病原體,可能引發(fā)大流行。
- Cyberwarfare AI:能自主規(guī)劃并執(zhí)行復(fù)雜、多階段的網(wǎng)絡(luò)攻擊,目標(biāo)包括能源、金融、防御等關(guān)鍵基礎(chǔ)設(shè)施。
- Self-Sustaining AI:能自主長(zhǎng)期運(yùn)行、獲取資源并維持自身存在的 AI。
- AGI(人工通用智能):認(rèn)知廣度與熟練度能與受過良好教育的成年人相匹敵或超越的 AI。
- Recursive AI(遞歸型 AI):能獨(dú)立完成整個(gè) AI 研發(fā)生命周期,從而在無人類介入下創(chuàng)造出更高級(jí)的 AI 系統(tǒng)。
- Superintelligence(超級(jí)智能):在幾乎所有人類關(guān)心的領(lǐng)域都遠(yuǎn)超人類認(rèn)知表現(xiàn)的 AI。
- Replacement AI:能更高效、更低成本地完成幾乎所有任務(wù),使人類勞動(dòng)在經(jīng)濟(jì)上變得多余的 AI。
AGI 的障礙
實(shí)現(xiàn) AGI 需要克服多項(xiàng)重大挑戰(zhàn)。例如:
- 機(jī)器學(xué)習(xí)社區(qū)提出的 ARC-AGI 挑戰(zhàn)(用于衡量抽象推理)對(duì)應(yīng)即時(shí)推理(R)任務(wù);
- Meta 正嘗試構(gòu)建具備直覺物理理解的世界模型,這在視頻異常檢測(cè)任務(wù)(V)中體現(xiàn);
- 空間導(dǎo)航記憶(WM)的挑戰(zhàn)是李飛飛創(chuàng)業(yè)公司 World-Labs 的核心目標(biāo);
- 幻覺問題(MR)與持續(xù)學(xué)習(xí)(MS)的難題也必須得到解決。
這些重大障礙意味著,在短期內(nèi)(例如未來一年內(nèi))獲得 100% AGI 分?jǐn)?shù)的可能性極低。
適用范圍說明
該團(tuán)隊(duì)首先表示:「我們的定義并非一個(gè)自動(dòng)評(píng)測(cè)系統(tǒng)或固定數(shù)據(jù)集,而是一組范圍明確、覆蓋廣泛的任務(wù)集合,其作用是測(cè)試特定的認(rèn)知能力?!?/p>
AI 是否能完成這些任務(wù),可以由任何人通過現(xiàn)有的最佳評(píng)估手段手動(dòng)驗(yàn)證。
因此,這一定義比固定的數(shù)據(jù)集更加開放、穩(wěn)健。
其次,該 AGI 定義聚焦于受過良好教育的個(gè)體通常具備的能力,而非所有此類個(gè)體知識(shí)與技能的疊加體。
換言之,該團(tuán)隊(duì)定義的 AGI 是人類水平的 AI,而非經(jīng)濟(jì)體水平的 AI(economy-level AI),例如,據(jù)報(bào)道 OpenAI 與微軟曾將 AGI 定義為「能創(chuàng)造 1000 億美元利潤(rùn)的 AI」。也就是說,這是用于衡量認(rèn)知能力,而非特定的經(jīng)濟(jì)價(jià)值技能,也不直接預(yù)測(cè)自動(dòng)化或經(jīng)濟(jì)方面的影響。經(jīng)濟(jì)層面的 AI 評(píng)估留待其他研究。
最后,該團(tuán)隊(duì)特別強(qiáng)調(diào),這個(gè)定義特意聚焦于核心認(rèn)知能力,而非諸如運(yùn)動(dòng)技能或觸覺感知等物理能力?!敢?yàn)槲覀冴P(guān)心的是心智(mind)能力,而非執(zhí)行器或傳感器的質(zhì)量。」
結(jié)語(yǔ)
這篇諸多 AI 行業(yè)大佬參與的論文提出了一個(gè)可量化的通用人工智能(AGI)定義框架:其將 AGI 的智能水平定義為認(rèn)知廣度與熟練度需與受過良好教育的成年人相當(dāng)。
該定義基于 Cattell-Horn-Carroll 理論,這是對(duì)人類認(rèn)知最具實(shí)證支持的模型。
更具體而言,該框架將通用智能分解為十個(gè)核心認(rèn)知領(lǐng)域(包括推理、記憶、感知等),并對(duì)已有的人類心理測(cè)驗(yàn)體系進(jìn)行了改編,使其可用于評(píng)估 AI 系統(tǒng)。
通過應(yīng)用此框架,該團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)代模型的認(rèn)知表現(xiàn)呈現(xiàn)出高度「不均衡」的特征。
雖然在知識(shí)密集型領(lǐng)域表現(xiàn)優(yōu)異,但當(dāng)前的 AI 系統(tǒng)在基礎(chǔ)認(rèn)知機(jī)制上仍存在顯著缺陷,尤其是長(zhǎng)期記憶存儲(chǔ)方面。
最終的 AGI 分?jǐn)?shù)(例如 GPT-4 為 27%,GPT-5 為 58%)提供了一個(gè)具體的量化尺度,既展現(xiàn)了 AI 的迅速進(jìn)步,也揭示了當(dāng)前距離真正 AGI 仍存在巨大差距。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.