導(dǎo)語(yǔ)
作為研究人類(lèi)決策、感知、情緒的學(xué)科,心理學(xué)曾給我們帶來(lái)眾多的驚奇,讓我們更加了解自身。隨著大模型的出現(xiàn),心理學(xué)有了一個(gè)新的研究對(duì)象,也就是能夠通過(guò)語(yǔ)言做出交互的大模型。德國(guó)亥姆霍茲慕尼黑研究中心的團(tuán)隊(duì)在《自然》雜志發(fā)文提出了名為“半人馬(Centaur)”的大模型,能夠同時(shí)解釋人們的思維方并預(yù)測(cè)他們的行為模式。這能夠極大豐富傳統(tǒng)心理學(xué)研究的能力邊界,特別是認(rèn)知測(cè)試很慢或很難招募目標(biāo)群體的場(chǎng)景。但是,或許大模型在模擬人類(lèi)在極端狀況下的心理狀態(tài)還有很長(zhǎng)的路要走。
關(guān)鍵詞:認(rèn)知大模型,多臂老虎機(jī),最小后悔原則
來(lái)源:集智俱樂(lè)部
作者:郭瑞東
審校:張江
20世紀(jì)70年代,美國(guó)哲學(xué)家托馬斯·內(nèi)格爾(Thomas Nagel)問(wèn)出了這樣一個(gè)問(wèn)題,即便我們對(duì)蝙蝠的生理結(jié)構(gòu)、回聲定位機(jī)制和行為有多么詳盡的客觀知識(shí),我們永遠(yuǎn)無(wú)法真正理解“作為一只蝙蝠是什么感覺(jué)”。
將這里的蝙蝠換成是一個(gè)人,我們似乎面臨著相同的問(wèn)題,即我們永遠(yuǎn)無(wú)法真正了解作為一個(gè)人是什么感受?作為研究人類(lèi)決策、感知、情緒的學(xué)科,心理學(xué)曾給我們帶來(lái)眾多的驚奇,讓我們更加了解自身。從飽受爭(zhēng)議的斯坦福監(jiān)獄實(shí)驗(yàn);到棉花糖延遲滿足和考試成績(jī)的關(guān)聯(lián),心理學(xué)一直都是一個(gè)基于實(shí)證的學(xué)科。只是如今這一情況有了改變。
隨著大模型的出現(xiàn),心理學(xué)有了一個(gè)新的研究對(duì)象,也就是能夠通過(guò)語(yǔ)言做出交互的大模型。這相當(dāng)于承認(rèn)既然無(wú)法回答作為一個(gè)人是什么感受這樣的天問(wèn),那我們直接掀桌子,構(gòu)建一個(gè)在功能上與人類(lèi)如此相似的系統(tǒng),以至于它的行為和神經(jīng)表征都與人類(lèi)高度一致。這種功能上的等價(jià)性,是否在某種程度上“捕獲”了主觀經(jīng)驗(yàn)的本質(zhì)?”
德國(guó)亥姆霍茲慕尼黑研究中心的團(tuán)隊(duì)做出了這樣的嘗試,其研究成果在2025年7月發(fā)表于《Nature》,他們提出了名為“半人馬(Centaur)”的大模型[1],這種從神話故事中跳出的生物,代表了使用人工智能模型模仿人類(lèi)思維的最強(qiáng)一擊。多年來(lái),心理學(xué)領(lǐng)域一直試圖充分捕捉人類(lèi)思想的復(fù)雜性。然而,過(guò)去類(lèi)似的模型通常僅限于解釋人們的思維方式或預(yù)測(cè)他們的行為方式,很少能同時(shí)實(shí)現(xiàn)這兩點(diǎn)?!鞍肴笋R”大模型就能同時(shí)實(shí)現(xiàn)兩者,讓我們具體看看它是怎么做到的。
海量數(shù)據(jù)能否代表人類(lèi)的行為全光譜
首先是訓(xùn)練數(shù)據(jù),研究者構(gòu)建的 Psych-101 的大規(guī)模數(shù)據(jù)集(圖1a),涵蓋了來(lái)自 160 個(gè)心理學(xué)實(shí)驗(yàn)的試驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集來(lái)自 60092 名參與者,他們共進(jìn)行了 1068 萬(wàn)個(gè)選擇,這些決策涵蓋從簡(jiǎn)單的記憶任務(wù)到復(fù)雜的道德困境。
研究者親自梳理每項(xiàng)研究的背景,并使用大模型,將每項(xiàng)實(shí)驗(yàn)中單個(gè)參與者的對(duì)話整理成標(biāo)準(zhǔn)的訓(xùn)練數(shù)據(jù)。由于大模型的上下文限制,每個(gè)記錄對(duì)話的總文本長(zhǎng)度是 3.2 萬(wàn)個(gè)單詞,包含了參與者做出的選擇及對(duì)應(yīng)實(shí)驗(yàn)背景信息。
圖1:Psych-101 的收集與Centaur的訓(xùn)練過(guò)程
有了數(shù)據(jù)集,便可以對(duì)開(kāi)源大模型 Llama3-70B 進(jìn)行微調(diào),所謂微調(diào),相當(dāng)于讓大模型進(jìn)行專(zhuān)科教育,使得模型能夠更熟悉 Psych-101 中這些數(shù)據(jù),成為預(yù)測(cè)人類(lèi)如何做選擇的專(zhuān)家,而這個(gè)微調(diào)后的開(kāi)源模型,被稱為“半人馬”(圖1b)。
之后要做的,便是對(duì)比“半人馬”和其它大模型在預(yù)測(cè)人類(lèi)選擇上的表現(xiàn)了。在此之前,已有不少研究考察不同大模型的心理狀態(tài)。例如有研究[2]對(duì)比 GPT-4,Claude3 和 Gemni2 在給定情景和面部表情圖像上識(shí)別人類(lèi)情緒的能力,發(fā)現(xiàn)部分情況下,大模型比普通人能更好地對(duì)情緒進(jìn)行判斷,可以說(shuō)大模型比人類(lèi)情商更高了。然而這樣的研究,只是關(guān)注人類(lèi)認(rèn)知過(guò)程的特定部分,“半人馬”大模型則是號(hào)稱能預(yù)測(cè)人類(lèi)的全部行為。
“半人馬”對(duì)人類(lèi)做出的選擇能提前預(yù)判
要驗(yàn)證“半人馬”模型是否能準(zhǔn)確預(yù)測(cè)人類(lèi)通用行為,首先需對(duì)人類(lèi)行為進(jìn)行分類(lèi),然后在每一類(lèi)任務(wù)上評(píng)估其預(yù)測(cè)準(zhǔn)確性。圖2展示了“半人馬”相對(duì)于未微調(diào)Llama3的預(yù)測(cè)準(zhǔn)確性提升,其中基線方法采用啟發(fā)式策略。
圖2:“半人馬”在心理學(xué)實(shí)驗(yàn)中的預(yù)測(cè)表現(xiàn)
在圖2列出的各類(lèi)任務(wù)中,“半人馬”的預(yù)測(cè)準(zhǔn)確性均有顯著提升。以賭場(chǎng)常見(jiàn)的多臂老虎機(jī)問(wèn)題(如圖3所示)為例,啟發(fā)式方法簡(jiǎn)單規(guī)定:如果上次拉桿獲得獎(jiǎng)勵(lì),則繼續(xù)選擇;否則換一個(gè)。這種方法并非最優(yōu),也不符合人類(lèi)實(shí)際行為。而“半人馬”模型在此任務(wù)上的預(yù)測(cè)準(zhǔn)確率提升幅度最大。其次,在多線索判斷任務(wù)上,“半人馬”的準(zhǔn)確率提升次之。而在時(shí)序反應(yīng)、天氣預(yù)測(cè)、氣球模擬風(fēng)險(xiǎn)任務(wù)以及描述性決策等任務(wù)中(如圖2所示),“半人馬”的準(zhǔn)確性雖有提升,但幅度較?。▓D3a中最上方的柱狀圖顯示總準(zhǔn)確性提升,“半人馬”的對(duì)數(shù)似然(可靠性指標(biāo))優(yōu)于領(lǐng)域特定模型0.13)。
圖3:多臂老虎機(jī)(Multi-Armed Bandit, MAB),賭場(chǎng)最常見(jiàn)吞金獸,玩家面前有三個(gè)拉桿,每次花一個(gè)金幣就能選一個(gè)拉,之后有一定概率獲得多個(gè)金幣,也有概率啥都得不到。通過(guò)多臂老虎機(jī)上的實(shí)驗(yàn),認(rèn)知心理學(xué)家可了解人是如何在高風(fēng)險(xiǎn)高收益與穩(wěn)定收益,以及在不斷變化的收益間動(dòng)態(tài)權(quán)衡的。
在上述實(shí)驗(yàn)中,預(yù)測(cè)準(zhǔn)確性是不是足夠高,并不該成為讀者的關(guān)注點(diǎn)。畢竟“半人馬”是在對(duì)應(yīng)這些實(shí)驗(yàn)描述上進(jìn)行過(guò)微調(diào)的。相當(dāng)于大模型在進(jìn)行開(kāi)卷考試,只要你能讓大模型將訓(xùn)練數(shù)據(jù)一字不錯(cuò)的背下來(lái),模型的準(zhǔn)確性可以達(dá)到一個(gè)高的嚇人的值,這在機(jī)器學(xué)習(xí)中被稱為過(guò)擬合問(wèn)題。
為了說(shuō)明“半人馬”并沒(méi)有過(guò)擬合,研究者接下來(lái)對(duì)心理學(xué)實(shí)驗(yàn)生成了諸多變種。例如將背景故事中的駕駛宇宙飛船前往外星尋找資源(Psych-101 中的數(shù)據(jù))變?yōu)樵谝粋€(gè)魔法世界里乘坐魔毯去尋寶,結(jié)果顯示,在變種的故事中,“半人馬”的表現(xiàn)依舊不差(圖4a)。
圖4:“半人馬”在新場(chǎng)景上的預(yù)測(cè)準(zhǔn)確性
在訓(xùn)練數(shù)據(jù)集中,多臂老虎機(jī)中每次被試只需要面對(duì)兩個(gè)候選項(xiàng),而在測(cè)試時(shí)玩家面前有了三個(gè)候選項(xiàng),可視為一個(gè)新問(wèn)題。而在回答新問(wèn)題時(shí),模型的預(yù)測(cè)準(zhǔn)確性仍然超過(guò)了未經(jīng)過(guò)微調(diào)的 Llama 做出的預(yù)測(cè)(圖4b)。而對(duì)于全新的需要概念邏輯推理的問(wèn)題,雖然 Psych-101 數(shù)據(jù)集有涉及概念和因果推斷,但并沒(méi)有該類(lèi)問(wèn)題,而經(jīng)過(guò)微調(diào)后的“半人馬”依然比 Llama 更好(圖4c)。這些都說(shuō)明微調(diào)帶來(lái)的增益不是由于過(guò)擬合,而是能泛化到未曾見(jiàn)到的數(shù)據(jù)集上。
除了上述實(shí)驗(yàn),“半人馬”還在未曾出現(xiàn)在訓(xùn)練數(shù)據(jù)集中的其他多種類(lèi)型的任務(wù),諸如在自然環(huán)境中進(jìn)行選擇,涉及道德判斷的決策,經(jīng)濟(jì)相關(guān)的博弈等表現(xiàn)的也比 未經(jīng)微調(diào)的Llama 更好。除了人類(lèi)的選擇,“半人馬”還能預(yù)測(cè)人類(lèi)的反應(yīng)時(shí)長(zhǎng)。從這個(gè)視角來(lái)看,“半人馬”的確算得上一個(gè)能廣泛的預(yù)測(cè)人類(lèi)諸多行為的基座模型,對(duì)得上論文標(biāo)題的宣稱。
“半人馬”
對(duì)人類(lèi)決策時(shí)腦活動(dòng)和決策理由的預(yù)測(cè)
如果只是知道會(huì)做出怎樣的選擇,而不知為何做選擇,那距離一個(gè)能幫助心理學(xué)家了解人類(lèi)的模型還相差甚遠(yuǎn)。因此,下一步是要說(shuō)明“半人馬”能夠讓心理學(xué)家知其然也知其所以然。為此,研究者選取 94 人,當(dāng)其做決策的時(shí)候,通過(guò) fMRI 功能核磁記錄其活躍的腦區(qū),并將其與“半人馬”與未經(jīng)微調(diào)的大模型 llama 的預(yù)測(cè)結(jié)果做對(duì)比,結(jié)果“半人馬”的預(yù)測(cè)表現(xiàn)比 Llama 更優(yōu)(圖5)。
圖5:相比 Llama,“半人馬”預(yù)測(cè)決策時(shí)人類(lèi)的腦區(qū)活躍程度的能力
除了解釋機(jī)制,“半人馬” 還可以模擬人類(lèi)被試者開(kāi)展心理學(xué)實(shí)驗(yàn),進(jìn)而得到對(duì)人類(lèi)心理新的洞見(jiàn)。以前心理學(xué)家以前是招募一堆大學(xué)生去做問(wèn)卷,費(fèi)錢(qián)還費(fèi)時(shí)間, 有了“半人馬”,便可以將實(shí)驗(yàn)中的被試者由碳基替換成硅基。由大模型來(lái)充當(dāng)被試者,實(shí)驗(yàn)人員只需要付電費(fèi)就好。那這樣做能不能得到有意義的洞見(jiàn)了?下面來(lái)看論文中給出的初級(jí)案例。
研究人員首先使用“半人馬”模擬人類(lèi)在多屬性決策(multi-attribute decision-making)任務(wù)做出的選擇,該任務(wù)中,被試者根據(jù)幾個(gè)專(zhuān)家的估計(jì)進(jìn)行決策,不同的專(zhuān)家有不同的置信度?!鞍肴笋R“模型模擬人類(lèi),在各種場(chǎng)景下做出決策,之后將這些選擇的案例集交給 Deepseek-R1,由Deepseek去總結(jié)人類(lèi)決策依據(jù)的規(guī)則。
Deepseek-R1 通過(guò)分析“半人馬”的決策行為發(fā)現(xiàn),其選擇時(shí)考慮的是如何讓選擇后的后悔值最小。這相當(dāng)于使用半人馬模型,指導(dǎo)Deepseek做出科學(xué)發(fā)現(xiàn)。之后研究者還發(fā)現(xiàn),通過(guò)最小后悔原則這一啟發(fā)式規(guī)則,對(duì)人類(lèi)行為的預(yù)測(cè)準(zhǔn)確性接近了“半人馬”模型給出的預(yù)測(cè),如圖6所示。Deepseek總結(jié)的啟發(fā)式規(guī)則的預(yù)測(cè)準(zhǔn)確性與半人馬模型的預(yù)測(cè)準(zhǔn)確性兩者準(zhǔn)確性相當(dāng),說(shuō)明總結(jié)出的規(guī)律是有意義的,能視為對(duì)人類(lèi)行為模式的洞察。這就論證了未來(lái)或可以使用大模型來(lái)替代心理學(xué)實(shí)驗(yàn)中的人類(lèi)被試者。
不過(guò)值得懷疑的是,Deepseek-R1 的訓(xùn)練數(shù)據(jù)集中有很大概率包含對(duì)多屬性決策這一心理學(xué)研究的描述,也會(huì)提及最小后悔原則。因此,對(duì)上述實(shí)驗(yàn)的另一種解釋是 Deepseek-R1 從對(duì)實(shí)驗(yàn)的描述中關(guān)聯(lián)到最小后悔原則這一啟發(fā)式方法,并非真正如人類(lèi)心理學(xué)家那樣在產(chǎn)生洞見(jiàn)。
圖6:模型引導(dǎo)的科學(xué)發(fā)現(xiàn),a)使用 Psych-101 和 “半人馬”來(lái)指導(dǎo)多屬性決策研究的認(rèn)知模型的開(kāi)發(fā)。b)要求 DeepSeek-R1 生成對(duì)人類(lèi)反應(yīng)的解釋?zhuān)⑸傻恼Z(yǔ)言策略形式化為正式的計(jì)算模型。c)以“半人馬”為參考模型,通過(guò)科學(xué)的后悔最小化來(lái)完善該模型。
為何不能高估大模型在心理學(xué)中的應(yīng)用潛力
隨著大模型能力變得越來(lái)越強(qiáng),人們對(duì)大模型也開(kāi)始了進(jìn)行擬人化的描述,例如出現(xiàn) AI 精神病學(xué),應(yīng)用心理學(xué)來(lái)考察大模型的心理狀態(tài),甚至Anthropic 還在給大模型招募“心理咨詢師”(圖7)。學(xué)術(shù)界對(duì)大模型的心理狀態(tài)也有研究,例如[3]考察了 ChatGPT3.5,ChatGPT4o 和 ChatGPT4o mini后,發(fā)現(xiàn) AI 在情緒波動(dòng)、價(jià)值觀形成等方面仍與人類(lèi)存在較大差異。
圖7:X截圖,對(duì)應(yīng)Anthropic 準(zhǔn)備招募大模型精神病學(xué)研究,以促進(jìn)模型可解釋性
“半人馬”的出現(xiàn),也在反方向地將大模型與人類(lèi)心理學(xué)聯(lián)系起來(lái)。哈利波特中有一句話:“決定我們是誰(shuí)的不是我們的能力,而是我們的選擇?!蓖ㄟ^(guò)讓大模型表現(xiàn)的更像人類(lèi),“半人馬”的開(kāi)發(fā)者認(rèn)為它有潛力顯著增加未來(lái)的心理學(xué)研究的可能性,特別是對(duì)于那些認(rèn)知測(cè)試可能很慢的場(chǎng)景,或很難招募的目標(biāo)群體(例如兒童或有精神問(wèn)題的對(duì)象)。
如果未來(lái)類(lèi)似的模型能夠包含更多樣化的數(shù)據(jù),不僅是來(lái)自受教育的西方被試者(常見(jiàn)于當(dāng)前心理學(xué)實(shí)驗(yàn)),那未來(lái)的心理學(xué)實(shí)驗(yàn),或可真如“半人馬”作者指出的那樣,在計(jì)算機(jī)而非人類(lèi)被試者中完成??赡艿膽?yīng)用還包括分析經(jīng)典的心理學(xué)實(shí)驗(yàn),研究臨床環(huán)境中的個(gè)人決策過(guò)程,例如抑郁或焦慮。
但我們也不應(yīng)該高估“半人馬”的影響,2024年的一篇名為“在心理學(xué)研究中使用大模型的機(jī)遇和危險(xiǎn)”的綜述[4]中,指出用大模型代替心理研究中的人類(lèi)被試者,存在著三個(gè)問(wèn)題,首先是大模型的訓(xùn)練數(shù)據(jù)多來(lái)自受教育的西方人(心理學(xué)實(shí)驗(yàn)中常見(jiàn)的被試)。這一點(diǎn)“半人馬”團(tuán)隊(duì)也提及,研究團(tuán)隊(duì)計(jì)劃之后使用更多樣的(來(lái)自不同文化,教育程度)行為數(shù)據(jù)對(duì)模型進(jìn)行改進(jìn)。其次是對(duì)大模型能否形成人類(lèi)的道德體系存疑,這不同于預(yù)測(cè)人類(lèi)在面對(duì)道德困境時(shí)的選擇,而是要構(gòu)建一個(gè)解釋自己為何做出對(duì)應(yīng)選擇的認(rèn)知架構(gòu),這一點(diǎn)“半人馬”同樣沒(méi)有解決。
至于大模型替代人類(lèi)心理學(xué)被試者的第三個(gè)困難,則是最為本質(zhì)性的。作為一種被調(diào)整的要去符合人類(lèi)偏好的概率模型。大模型無(wú)論怎么微調(diào),回答心理學(xué)調(diào)查的問(wèn)題時(shí)變化幅度較小,缺乏人類(lèi)行為的多樣性。更難以如斯坦福監(jiān)獄實(shí)驗(yàn),米爾格拉姆的服從實(shí)驗(yàn)?zāi)菢?,揭示人?lèi)在極端狀況下的心理狀態(tài)。而心理學(xué)能帶給我們的,遠(yuǎn)遠(yuǎn)不止是我們?cè)诶匣C(jī)前會(huì)如何做選擇。而是如積極心理學(xué)那樣,研究那些主觀幸福感最高的那些人是怎樣思考的,而這些遠(yuǎn)離均值的特殊群體(例如犯罪心理學(xué)的研究對(duì)象),大模型或許永遠(yuǎn)難以準(zhǔn)確地加以描述。
參考文獻(xiàn)
[1] Binz, M., Akata, E., Bethge, M., Br?ndle, F., Callaway, F., Coda-Forno, J., Dayan, P., Demircan, C., Eckstein, M. K., éltet?, N., Griffiths, T. L., Haridi, S., Jagadish, A. K., Ji-An, L., Kipnis, A., Kumar, S., Ludwig, T., Mathony, M., Mattar, M., & Modirshanechi, A. (2025). A foundation model to predict and capture human cognition. Nature. https://doi.org/10.1038/s41586-025-09215-4
[2] Gandhi, K., Lynch, Z., Fr?nken, J.-P., Patterson, K., Wambu, S., Gerstenberg, T., Ong, D. C., & Goodman, N. D. (2024). Human-like Affective Cognition in Foundation Models. ArXiv.org. https://arxiv.org/abs/2409.11733
[3] Zhang, Y., Li, S., Yuan, X., Yuan, H., Che, Z., & Luo, S. (2025). The high-dimensional psychological profile of ChatGPT. Science China Technological Sciences, 68(8). https://doi.org/10.1007/s11431-025-2934-8
[4] Abdurahman, S., Atari, M., Farzan Karimi-Malekabadi, Xue, M. J., Trager, J., Park, P. S., Preni Golazizian, Omrani, A., & Dehghani, M. (2024). Perils and opportunities in using large language models in psychological research. PNAS Nexus, 3(7). https://doi.org/10.1093/pnasnexus/pgae245
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.