網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大語(yǔ)言模型在心理學(xué)應(yīng)用中的前沿探索：一項(xiàng)綜合性綜述（上）

2025-08-19 21:30:05　來(lái)源: 彭凱平

北京舉報(bào)

分享至

Ke, L., Tong, S., Cheng, P., & Peng, K. (2025). Exploring the frontiers of llms in psychological applications: A comprehensive review. Artificial Intelligence Review, 58(10), 305.https://doi.org/10.1007/s10462-025-11297-5

摘要

本綜述旨在探討大語(yǔ)言模型（LLMs）在心理學(xué)應(yīng)用領(lǐng)域的前沿進(jìn)展。心理學(xué)的發(fā)展經(jīng)歷了多次理論變革，而當(dāng)前人工智能（AI）與機(jī)器學(xué)習(xí)，尤其是大語(yǔ)言模型的應(yīng)用，有望開(kāi)啟新的研究方向。本文旨在深入分析 LLMs 如何正在改變心理學(xué)研究。我們討論了 LLMs 在心理學(xué)各主要分支領(lǐng)域——包括認(rèn)知與行為、臨床與咨詢(xún)、教育與發(fā)展，以及社會(huì)與文化心理學(xué)——的影響，重點(diǎn)強(qiáng)調(diào)其在模擬與人類(lèi)相似的模式、認(rèn)知與行為方面的能力。此外，我們還探討了此類(lèi)模型生成連貫且具備語(yǔ)境相關(guān)性的文本的能力，為心理學(xué)中的文獻(xiàn)綜述、假設(shè)生成、實(shí)驗(yàn)設(shè)計(jì)、實(shí)驗(yàn)被試以及數(shù)據(jù)分析等提供了創(chuàng)新工具。我們特別強(qiáng)調(diào)，研究人員需要關(guān)注技術(shù)與倫理挑戰(zhàn)，包括數(shù)據(jù)隱私、在心理學(xué)研究中使用 LLMs 的倫理問(wèn)題，以及深入理解這些模型局限性的必要性。研究人員在心理學(xué)研究中應(yīng)負(fù)責(zé)任地使用 LLMs，遵守倫理規(guī)范，并審慎考慮將這些技術(shù)部署于敏感領(lǐng)域可能帶來(lái)的影響?？傮w而言，本綜述全面呈現(xiàn)了 LLMs 在心理學(xué)領(lǐng)域的現(xiàn)狀，探討了其潛在優(yōu)勢(shì)與挑戰(zhàn)。我們希望本文能為研究者發(fā)出行動(dòng)呼吁，在積極利用 LLMs 優(yōu)勢(shì)的同時(shí)，切實(shí)應(yīng)對(duì)相關(guān)風(fēng)險(xiǎn)。

關(guān)鍵詞：大語(yǔ)言模型（LLMs）；機(jī)器學(xué)習(xí)；人工智能（AI）；心理學(xué)；研究方法

引言

人工智能（AI）已有近七十年的發(fā)展歷史，其起點(diǎn)可追溯至 1956 年的達(dá)特茅斯會(huì)議。近年來(lái)，隨著大語(yǔ)言模型（LLMs）的出現(xiàn)，如 ChatGPT、Google 的 Bard 和 Meta 的 LLaMA，該領(lǐng)域迎來(lái)了革命性進(jìn)展。其中，GPT-4 尤其可能代表著一次范式轉(zhuǎn)變，憑借其在數(shù)學(xué)、編程、視覺(jué)、醫(yī)學(xué)、法律和心理學(xué)等領(lǐng)域解決復(fù)雜任務(wù)的卓越能力（Bubeck 等，2023），生動(dòng)詮釋了“AI賦能科學(xué)”（AI for science）的理念（Wang 等，2023）。LLMs 在機(jī)器學(xué)習(xí)與人工智能的發(fā)展中標(biāo)志著一個(gè)關(guān)鍵節(jié)點(diǎn)，這得益于其龐大的規(guī)模和采用注意力機(jī)制的復(fù)雜神經(jīng)網(wǎng)絡(luò)架構(gòu)（Vaswani 等，2017）。這些模型融入了認(rèn)知原理（Binz & Schulz, 2023a），并展現(xiàn)出可與復(fù)雜物理系統(tǒng)相媲美的涌現(xiàn)特性（Wei 等，2022）。這種特性不僅提升了它們處理與表征概念及高層語(yǔ)義的能力（J. Li 等，2022），也加深了我們對(duì)人類(lèi)認(rèn)知過(guò)程的理解（Sejnowski, 2022）。在心理學(xué)應(yīng)用中，這些進(jìn)展正重塑數(shù)據(jù)、語(yǔ)言與環(huán)境之間的交互關(guān)系（De Bot 等，2007；Demszky 等，2023），并在包括臨床心理學(xué)（Thirunavukarasu 等，2023）、發(fā)展心理學(xué)（Frank, 2023；Hagendorff, 2023）以及社會(huì)心理學(xué)（Hardy 等，2023；J. Zhang 等，2023）等多個(gè)領(lǐng)域發(fā)揮著重要作用。此外，LLMs 還對(duì)心理學(xué)研究方法產(chǎn)生了深遠(yuǎn)影響，提供了全新的探索與分析途徑與工具。

1.1 大語(yǔ)言模型概念：從機(jī)器學(xué)習(xí)到能力涌現(xiàn)

生成式人工智能（Generative AI）源于模式識(shí)別能力的進(jìn)步。卷積神經(jīng)網(wǎng)絡(luò)（CNNs）在識(shí)別物體和概念方面表現(xiàn)優(yōu)異，但隨之而來(lái)的下一個(gè)挑戰(zhàn)是如何將這種識(shí)別能力用于生成任務(wù)。例如，如果 CNN 能夠識(shí)別肖像中的“年齡”特征，那么我們就可以利用這種理解去修改任何肖像中的“年齡”。這種生成式方法首先在計(jì)算機(jī)視覺(jué)領(lǐng)域取得成功，通過(guò)生成對(duì)抗網(wǎng)絡(luò)（GANs）（Goodfellow 等，2020）和反卷積技術(shù)（Zeiler，2014）等模型，能夠基于已學(xué)習(xí)的模式生成逼真的圖像。隨后，這些生成原理被應(yīng)用于語(yǔ)言領(lǐng)域，催生了能夠生成語(yǔ)境相關(guān)文本的大語(yǔ)言模型（LLMs）。LLMs 在生成式人工智能的能力上實(shí)現(xiàn)了重大飛躍，這類(lèi)模型專(zhuān)為處理自然語(yǔ)言文本并生成上下文相關(guān)的文本而設(shè)計(jì)。GPT-4、LLaMA、Claude 和 Gemini 等 LLMs 都基于 Transformer 架構(gòu)（Vaswani 等，2017），利用復(fù)雜的神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制，革新了自然語(yǔ)言處理。每個(gè)模型都在性能優(yōu)化方向上各有側(cè)重，例如 LLaMA 注重高效的訓(xùn)練過(guò)程（Touvron 等，2023），Claude 強(qiáng)調(diào)安全與對(duì)齊（Li 等，2024），而 Gemini 則融合了更強(qiáng)的推理能力（Rane 等，2024）。

盡管這些模型展現(xiàn)了 LLMs 的多樣化能力，但我們必須區(qū)分為特定交互設(shè)計(jì)的具體產(chǎn)品（如面向?qū)υ拺?yīng)用的 ChatGPT）與 LLMs 的更廣泛能力——后者不僅包括聊天，還涵蓋文本生成、摘要、翻譯和嵌入提取等任務(wù)。這些廣泛應(yīng)用表明，LLMs 的能力具有“涌現(xiàn)性”，隨著模型規(guī)模的增大會(huì)出現(xiàn)新的能力。在對(duì)數(shù)—對(duì)數(shù)性能曲線上，有時(shí)會(huì)出現(xiàn)“跳躍”，即模型內(nèi)部復(fù)雜交互催生出意想不到的能力（Wei 等，2022）。

LLMs 的核心是 Transformer 架構(gòu)，這是一種帶有注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)，能夠并行高效地處理序列數(shù)據(jù)（Vaswani 等，2017），其工作方式在某種程度上類(lèi)似于人腦功能。該架構(gòu)徹底改變了自然語(yǔ)言處理領(lǐng)域。Transformer 的自注意力機(jī)制可以捕捉文本數(shù)據(jù)中的上下文關(guān)系，從而實(shí)現(xiàn)更為精細(xì)的語(yǔ)言理解。值得注意的是，LLMs 中的“Large”指的是巨量的參數(shù)和海量的訓(xùn)練數(shù)據(jù)——通常包含數(shù)十億個(gè)參數(shù)和以 TB 計(jì)的文本數(shù)據(jù)（Binz & Schulz，2023b），以實(shí)現(xiàn)“掌握世界”的知識(shí)儲(chǔ)備（Yildirim & Paul，2023）。

大語(yǔ)言建模的過(guò)程，從機(jī)器學(xué)習(xí)到能力涌現(xiàn)，可以分為幾個(gè)關(guān)鍵階段。（1）預(yù)訓(xùn)練：LLMs 在海量文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，以學(xué)習(xí)復(fù)雜的語(yǔ)言、句法和文本結(jié)構(gòu)，模型通過(guò)無(wú)監(jiān)督學(xué)習(xí)預(yù)測(cè)下一個(gè) token，從而獲得能夠捕捉語(yǔ)言統(tǒng)計(jì)模式的基礎(chǔ)模型（P. Liu 等，2023）。（2）對(duì)齊：通過(guò)有監(jiān)督學(xué)習(xí)，使基礎(chǔ)模型更好地按預(yù)期方式與用戶(hù)交互，這通常包括指令微調(diào)（instruction tuning）和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)。在此基礎(chǔ)上，還可進(jìn)行領(lǐng)域特定的微調(diào)，使模型適配特定應(yīng)用（Liu 等，2022）。這一過(guò)程確保模型能夠生成上下文相關(guān)的響應(yīng)，并參與有意義的對(duì)話或任務(wù)。通過(guò)這些階段的發(fā)展，LLMs 展現(xiàn)出越來(lái)越精細(xì)的文本生成能力，包括響應(yīng)生成、內(nèi)容摘要、翻譯以及組合性文本生成（Bubeck 等，2023）。有效處理與表征上下文的能力，是這些模型高級(jí)能力涌現(xiàn)的重要基礎(chǔ)。最終，LLMs 在被集成到各種應(yīng)用與系統(tǒng)中時(shí)，會(huì)表現(xiàn)出“可觀測(cè)的能力涌現(xiàn)”，能夠完成需要深度語(yǔ)言與上下文理解的任務(wù)，并在特定實(shí)驗(yàn)任務(wù)中達(dá)到類(lèi)人甚至超越人類(lèi)的表現(xiàn)，如類(lèi)比推理（Webb 等，2023）、創(chuàng)造力（Stevenson 等，2022）以及情緒識(shí)別（Patel & Fan，2023）。

因此，LLMs 能夠?yàn)槲覀兝斫膺@類(lèi)技術(shù)如何模擬或增強(qiáng)傳統(tǒng)上與人類(lèi)認(rèn)知相關(guān)的過(guò)程提供有價(jià)值的洞見(jiàn)。具體而言，LLMs 在邏輯處理與認(rèn)知捷徑（啟發(fā)式）之間保持平衡，并能夠調(diào)整推理策略，在準(zhǔn)確性與認(rèn)知投入之間進(jìn)行優(yōu)化。這與雙過(guò)程理論（dual-process theory）所討論的資源理性（resource-rational）人類(lèi)認(rèn)知原則相契合（Mukherjee & Chang，2024）。例如，LLMs 在生成與處理自然語(yǔ)言時(shí)，在結(jié)構(gòu)與功能上與人類(lèi)語(yǔ)言和認(rèn)知機(jī)制的某些方面存在相似之處（Goertzel，2023）。這種相似性使得探索其在認(rèn)知心理學(xué)（Sartori & Orrù，2023）、語(yǔ)言習(xí)得（Jungherr，2023）甚至心理健康（Lamichhane，2023）等領(lǐng)域的應(yīng)用成為可能。此外，對(duì) LLMs 的研究也有助于深化我們對(duì)人類(lèi)心智的理解，從計(jì)算視角探討語(yǔ)言處理、決策（Sha 等，2023）與學(xué)習(xí)機(jī)制（Hendel 等，2023）。這種跨學(xué)科的融合可能推動(dòng)人工智能的發(fā)展，并為研究與人類(lèi)認(rèn)知相關(guān)的過(guò)程提供計(jì)算框架。

1.2 心理學(xué)與人工智能

心理學(xué)作為一門(mén)探索人類(lèi)心智與行為的科學(xué)，自 19 世紀(jì)末以來(lái)經(jīng)歷了重大的理論變革，從精神分析學(xué)與行為主義發(fā)展到認(rèn)知心理學(xué)（Hothersall & Lovett, 2022）。這一歷史進(jìn)程標(biāo)志著心理學(xué)研究重心的轉(zhuǎn)變，即從關(guān)注行為表現(xiàn)轉(zhuǎn)向深入探討心理內(nèi)涵，反映了學(xué)術(shù)界從外顯行為觀察到內(nèi)隱心理機(jī)制探索的趨勢(shì)。每一階段都推動(dòng)了人類(lèi)對(duì)心理—認(rèn)知過(guò)程理解的不斷深化。

理解人類(lèi)的心理—認(rèn)知過(guò)程因此成為心理學(xué)的核心任務(wù)。在臨床與咨詢(xún)心理學(xué)中，認(rèn)知心理學(xué)的研究為心理障礙的診斷與治療提供了理論支持，深化了我們對(duì)情緒、壓力及人類(lèi)行為背后心理機(jī)制的理解。認(rèn)知行為療法（Hofmann 等，2012）和心理動(dòng)力學(xué)療法等心理治療方法已成為促進(jìn)心理健康與情緒調(diào)節(jié)的重要工具。在教育與發(fā)展心理學(xué)中，認(rèn)知心理學(xué)的發(fā)展加深了人們對(duì)知覺(jué)與情感因素在學(xué)習(xí)過(guò)程中的作用的理解（Glaser, 1984），推動(dòng)了教學(xué)方法和學(xué)習(xí)策略的創(chuàng)新。在社會(huì)與文化心理學(xué)中，認(rèn)知心理學(xué)研究有助于解釋個(gè)體在不同社會(huì)與文化背景下的行為與心理過(guò)程，探索文化差異如何影響認(rèn)知模式、價(jià)值觀與行為規(guī)范，尤其是在全球化背景下的互動(dòng)與融合過(guò)程中。在社會(huì)心理學(xué)領(lǐng)域，認(rèn)知心理學(xué)對(duì)群體行為、社會(huì)影響、偏見(jiàn)與歧視的研究，為促進(jìn)社會(huì)和諧與相互理解具有重要價(jià)值（Park & Judd, 2005）。

人工智能正日益成為心理—認(rèn)知研究中具有影響力的工具。Simon（1979）是最早意識(shí)到計(jì)算模型在模擬人類(lèi)認(rèn)知過(guò)程方面潛力的學(xué)者之一。目前，大語(yǔ)言模型（LLMs）已經(jīng)能夠處理與生成類(lèi)人文本，并在某些任務(wù)中以類(lèi)似人類(lèi)認(rèn)知的方式完成工作（Bubeck 等，2023）。LLMs 還為人類(lèi)認(rèn)知研究提供了獨(dú)特的計(jì)算視角。例如，GPT-3 能夠解決情境任務(wù)（vignette-based tasks），表現(xiàn)與人類(lèi)相當(dāng)甚至更優(yōu)，并能基于描述進(jìn)行理性決策，在多臂老虎機(jī)任務(wù)中超越人類(lèi)（Binz & Schulz, 2023b）。此外，大規(guī)模測(cè)試表明，GPT-3 在解決復(fù)雜類(lèi)比問(wèn)題時(shí)可達(dá)到與人類(lèi)相當(dāng)?shù)乃剑?lèi)比推理是人類(lèi)智慧的重要標(biāo)志（Webb 等，2023）。更重要的是，通過(guò)多任務(wù)微調(diào)，LLMs 能夠預(yù)測(cè)此前從未見(jiàn)過(guò)任務(wù)中的人類(lèi)行為——換言之，LLMs 可以被適配為通用認(rèn)知模型（Binz & Schulz, 2023a），有潛力開(kāi)辟新的研究方向，從而改變認(rèn)知心理學(xué)與行為科學(xué)的整體格局。

Newell（1990）提出了一個(gè)分析人類(lèi)行為的結(jié)構(gòu)化框架，將認(rèn)知與行為過(guò)程按照時(shí)間尺度劃分為四個(gè)層次（圖 1a）。在生物學(xué)層面，研究關(guān)注的是以毫秒到一秒的極短時(shí)間尺度發(fā)生的生理與神經(jīng)過(guò)程，例如神經(jīng)反應(yīng)與感官加工，這些過(guò)程構(gòu)成了人類(lèi)認(rèn)知的基礎(chǔ)。認(rèn)知層面涉及注意、知覺(jué)與短時(shí)記憶等機(jī)制，其運(yùn)行時(shí)間通常為一秒到一分鐘，是基本認(rèn)知功能的支撐。理性層面涵蓋了問(wèn)題解決、計(jì)劃與決策等更復(fù)雜的認(rèn)知活動(dòng)，這些過(guò)程通常在幾分鐘到數(shù)小時(shí)的時(shí)間尺度上發(fā)生，需要持續(xù)的認(rèn)知投入。最后，社會(huì)層面關(guān)注由社會(huì)互動(dòng)與文化影響所塑造的行為，其時(shí)間尺度最長(zhǎng)，從數(shù)小時(shí)到數(shù)天甚至更久，涉及社會(huì)交流、群體行為與文化對(duì)認(rèn)知的影響。該框架凸顯了人類(lèi)行為的多維特性，強(qiáng)調(diào)了快速的生理過(guò)程與更持久的社會(huì)影響在認(rèn)知中的相互關(guān)系。

因此，通過(guò)在這四個(gè)層面（圖 1a）分析 LLMs 的應(yīng)用，可以進(jìn)一步探索它們?cè)诮Ｅc研究人類(lèi)認(rèn)知和行為方面的潛力（圖 1b），以及它們?cè)谛睦怼J(rèn)知過(guò)程中的獨(dú)特作用。最新研究揭示了 LLMs 在執(zhí)行復(fù)雜的類(lèi)人認(rèn)知與社會(huì)任務(wù)方面的顯著進(jìn)展（Grossmann 等，2023；Marjieh 等，2023；Orru 等，2023；Pal 等，2023；Stevenson 等，2022；Webb 等，2023）。例如，Grossmann 等（2023）與 Marjieh 等（2023）分別展示了 LLMs 在模擬人類(lèi)社會(huì)互動(dòng)與知覺(jué)加工方面的能力；Orru 等（2023）與 Webb 等（2023）強(qiáng)調(diào)了它們?cè)趶?fù)雜問(wèn)題解決與推理方面的表現(xiàn)；Hagendorff 等（2023）關(guān)注其決策過(guò)程；Stevenson 等（2022）記錄了其在創(chuàng)造力方面的潛力；而 Patel 與 Fan（2023）則展示了它們的情緒識(shí)別能力?？傮w而言，這些研究結(jié)果凸顯了 LLMs 在表征與增強(qiáng)人類(lèi)認(rèn)知和社會(huì)功能方面不斷擴(kuò)展的角色，標(biāo)志著人工智能研究的重要進(jìn)展。

作為通用認(rèn)知模型（Binz & Schulz, 2023a），LLMs 在認(rèn)知與行為心理學(xué)、臨床與咨詢(xún)心理學(xué)、教育與發(fā)展心理學(xué)以及社會(huì)與文化心理學(xué)等領(lǐng)域，不同時(shí)間尺度的人類(lèi)行為研究中提供了新的視角與方法（圖 1a）。

LLMs 還可作為研究輔助工具（圖 1c），幫助心理學(xué)家完成從文獻(xiàn)綜述（Ayd?n & Karaarslan, 2022；Qureshi 等，2023）、實(shí)驗(yàn)被試（Dillion 等，2023；Hutson, 2023）、數(shù)據(jù)分析（Patel & Fan, 2023；Peters & Matz, 2023；Rathje 等，2023），到促進(jìn)學(xué)術(shù)交流（如學(xué)術(shù)寫(xiě)作 [Dergaa 等，2023；Stokel-Walker, 2022] 或同行評(píng)審 [Chiang & Lee, 2023；Van Dis 等，2023]）等多種任務(wù)。因此，LLMs 有望成為心理學(xué)家的科研助手，幫助他們提升研究效率。

圖1.大語(yǔ)言模型在跨時(shí)間尺度心理學(xué)研究中的應(yīng)用

(a) 將研究領(lǐng)域（如認(rèn)知與行為、社會(huì)與文化）映射到相應(yīng)的行為時(shí)間尺度；(b) 涌現(xiàn)特性（如認(rèn)知仿真）可支持特定領(lǐng)域的建模；(c) 大語(yǔ)言模型作為研究工具（如刺激材料生成）。雙向箭頭表示這些新興特性在領(lǐng)域與工具之間形成橋梁，既支持具體應(yīng)用（如記憶提取），又在使用過(guò)程中不斷完善其特性。

1.3 本綜述的目的與意義

本綜述旨在對(duì)大語(yǔ)言模型（LLMs）在心理學(xué)研究中的應(yīng)用與影響進(jìn)行全面分析。為確保綜述的系統(tǒng)性與嚴(yán)謹(jǐn)性，我們制定了明確的納入與排除標(biāo)準(zhǔn)。本文聚焦于 2020 年至 2024 年間發(fā)表的相關(guān)文獻(xiàn)，數(shù)據(jù)來(lái)源包括 Google Scholar、arXiv 和 Web of Science 等學(xué)術(shù)數(shù)據(jù)庫(kù)。我們使用 “GPT-3”“ChatGPT”“GPT-4”“l(fā)arge language models” 和 “psychology” 等關(guān)鍵詞檢索相關(guān)研究。為提高數(shù)據(jù)提取過(guò)程的可靠性，兩位分別具有信息科學(xué)與心理學(xué)背景的跨學(xué)科研究人員（男性，33 歲與 41 歲）共同進(jìn)行了編碼與篩選。

納入標(biāo)準(zhǔn)要求所選研究必須：（1）探討 LLMs 在心理學(xué)情境中的應(yīng)用或分析；（2）為同行評(píng)審期刊文章或高影響力會(huì)議論文；（3）呈現(xiàn)實(shí)證數(shù)據(jù)、理論探討或方法學(xué)進(jìn)展。對(duì)于能夠反映新興趨勢(shì)或填補(bǔ)重要文獻(xiàn)空白的預(yù)印本論文，我們也予以有選擇地納入。不具備心理學(xué)研究焦點(diǎn)或僅涉及非 LLM 類(lèi) AI 系統(tǒng)的文章則被排除。最終，我們?cè)诔醪胶Y選的 191 篇研究中，深入分析了 100 篇全文，并最終納入了 46 篇研究，這些研究按心理學(xué)不同子領(lǐng)域進(jìn)行分類(lèi)。所有入選研究均符合嚴(yán)格的納入標(biāo)準(zhǔn)，確保其對(duì)我們理解 LLMs 在心理學(xué)研究中的作用具有實(shí)質(zhì)性貢獻(xiàn)。

在本綜述中，我們通過(guò)不同行為時(shí)間尺度的視角系統(tǒng)分析 LLMs 在各個(gè)心理學(xué)領(lǐng)域的應(yīng)用。文章結(jié)構(gòu)安排如下：第 2 節(jié)探討 LLMs 在認(rèn)知與行為心理學(xué)中的應(yīng)用；第 3 節(jié)討論 LLMs 在臨床與咨詢(xún)心理學(xué)中的作用；第 4 節(jié)分析其在教育與發(fā)展心理學(xué)中的應(yīng)用；第 5 節(jié)聚焦社會(huì)與文化心理學(xué)，概述 LLMs 在各領(lǐng)域的貢獻(xiàn)。盡管心理學(xué)技術(shù)有時(shí)被用于評(píng)估 LLMs 的能力，但這一方法主要用于加深對(duì)其作為心理學(xué)研究工具的適用性與潛力的理解。本綜述的核心重點(diǎn)是探討 LLMs 如何在上述領(lǐng)域促進(jìn)并推動(dòng)心理學(xué)研究的發(fā)展。

為更深入理解 LLMs 對(duì)心理學(xué)研究的影響，第 6 節(jié)將概述 LLMs 作為科學(xué)研究工具的潛力；第 7 節(jié)則提出 LLMs 應(yīng)用于心理學(xué)情境中所面臨的挑戰(zhàn)與未來(lái)研究方向；最后，第 8 節(jié)給出結(jié)論，總結(jié) LLMs 在心理學(xué)中的應(yīng)用并提出未來(lái)研究建議。值得注意的是，我們還提出了將 LLMs 融入心理學(xué)研究的策略，并提供了從心理學(xué)視角解讀此類(lèi)模型的見(jiàn)解，以提升其安全性與可解釋性。

大語(yǔ)言模型在認(rèn)知與行為心理學(xué)

在人類(lèi)行為的多層次時(shí)間尺度中（Newell, 1990），認(rèn)知與行為心理學(xué)主要聚焦于亞小時(shí)（sub-hourly）時(shí)間尺度上的認(rèn)知過(guò)程研究，這些過(guò)程包括人類(lèi)在知覺(jué)、記憶、思維、決策、問(wèn)題解決以及有意識(shí)計(jì)劃中的參與。認(rèn)知與行為心理學(xué)通常采用實(shí)驗(yàn)方法研究這些認(rèn)知過(guò)程，通過(guò)在特定條件下控制并觀察行為與反應(yīng)來(lái)揭示規(guī)律。近年來(lái)，大語(yǔ)言模型（LLMs）的出現(xiàn)重新激發(fā)了關(guān)于此類(lèi)模型是否可能表現(xiàn)出類(lèi)似人類(lèi)認(rèn)知過(guò)程模式的討論；如果這種相似性成立，那么研究 LLMs 的“認(rèn)知過(guò)程”或許可以為人類(lèi)認(rèn)知現(xiàn)象提供新的洞見(jiàn)，并成為現(xiàn)有認(rèn)知心理學(xué)研究方法的有益補(bǔ)充。

支撐大語(yǔ)言模型（LLMs）的核心技術(shù)是生成式預(yù)訓(xùn)練 Transformer（GPT）架構(gòu)，它利用深度神經(jīng)網(wǎng)絡(luò)來(lái)處理并生成類(lèi)人文本。GPT 模型通過(guò)注意力機(jī)制（attention mechanisms）與 token 預(yù)測(cè)等機(jī)制運(yùn)行，從而能夠捕捉復(fù)雜的語(yǔ)言模式并生成上下文連貫的輸出。這一基礎(chǔ)技術(shù)極大地推動(dòng)了自然語(yǔ)言處理（NLP）的發(fā)展，顯著提升了文本理解與生成的能力，并拓展至廣泛應(yīng)用領(lǐng)域，從對(duì)話代理到內(nèi)容創(chuàng)作（Brown 等，2020；Vaswani 等，2017）。這類(lèi)架構(gòu)被引入心理學(xué)研究后，引發(fā)了關(guān)于其模擬認(rèn)知現(xiàn)象潛力的討論。

Binz 與 Schulz（2023a）發(fā)現(xiàn)，通過(guò)多任務(wù)微調(diào)，可以讓 LLM 在此前從未見(jiàn)過(guò)的任務(wù)中預(yù)測(cè)人類(lèi)行為，這表明 LLMs 可以被改造為通用認(rèn)知模型。在另一項(xiàng)研究中，同一作者使用認(rèn)知心理學(xué)的工具測(cè)試 GPT-3，結(jié)果顯示其在決策質(zhì)量上優(yōu)于人類(lèi)，并在多臂老虎機(jī)任務(wù)中表現(xiàn)更佳（Binz & Schulz, 2023b）。其他研究則表明，LLMs 可能具備感知判斷（Marjieh 等，2023）、推理（Webb 等，2023）、決策能力（Hagendorff 等，2023）、創(chuàng)造力（Stevenson 等，2022）以及問(wèn)題解決能力（Orru 等，2023）。一項(xiàng)研究甚至發(fā)現(xiàn)，基于錯(cuò)誤信念任務(wù)（false-belief task——在人類(lèi)中被視為心智理論測(cè)試的金標(biāo)準(zhǔn)），某 LLM 的心理能力相當(dāng)于七歲兒童（Kosinski, 2024）。

在探索 LLMs 的推理能力與決策過(guò)程時(shí)，Hagendorff 等（2023）設(shè)計(jì)了一系列語(yǔ)義錯(cuò)覺(jué)（semantic illusion）與認(rèn)知反思（cognitive reflection）測(cè)試，這些測(cè)試旨在引發(fā)直覺(jué)但錯(cuò)誤的反應(yīng)（傳統(tǒng)上用于研究人類(lèi)推理與決策），并將其應(yīng)用于 LLMs。他們分析了模型在認(rèn)知反思測(cè)試（CRT）任務(wù)和語(yǔ)義錯(cuò)覺(jué)任務(wù)上的表現(xiàn)，以揭示其認(rèn)知過(guò)程，并借鑒了 Daniel Kahneman 在其經(jīng)典著作《思考，快與慢》（Thinking, Fast, and Slow）（Kahneman, 2011）中提出的系統(tǒng) 1 與系統(tǒng) 2 思維框架，該框架是理解人類(lèi)認(rèn)知過(guò)程的基礎(chǔ)理論。系統(tǒng) 1 指直覺(jué)且自動(dòng)化的思維，而系統(tǒng) 2 則涉及理性且深思熟慮的決策過(guò)程。該理論框架為解釋 LLMs 在這些任務(wù)中模擬類(lèi)人認(rèn)知行為提供了理論依據(jù)。研究人員觀察了模型在這些任務(wù)中如何給出正確反應(yīng)并避免錯(cuò)誤。在 CRT 任務(wù)中，他們進(jìn)一步通過(guò)限制模型進(jìn)行鏈?zhǔn)酵评恚╟hain-thinking）來(lái)評(píng)估其表現(xiàn)。結(jié)果表明，隨著模型規(guī)模和語(yǔ)言能力的提升，LLMs 越來(lái)越多地展現(xiàn)出類(lèi)人的直覺(jué)思維（系統(tǒng) 1）以及伴隨的認(rèn)知偏誤。表 1 總結(jié)了 LLMs 在認(rèn)知與行為心理學(xué)中的應(yīng)用情況。

表 1 大語(yǔ)言模型（LLMs）在認(rèn)知與行為心理學(xué)研究中的應(yīng)用

Note:AUT是一項(xiàng)衡量創(chuàng)造力的心理測(cè)試，要求參與者盡可能多地想出一個(gè)常見(jiàn)物體的用途；DALL-E 2是由OpenAI開(kāi)發(fā)的，可以從文本描述中生成詳細(xì)逼真的圖像，以探索AI在創(chuàng)意領(lǐng)域的潛力。

除了理論層面的評(píng)估之外，大語(yǔ)言模型（LLMs）在實(shí)驗(yàn)心理學(xué)中也展現(xiàn)了實(shí)際價(jià)值，尤其是在刺激生成與實(shí)驗(yàn)設(shè)計(jì)方面（Zhuang 等，2023）。例如，Dubey 等（2024）使用 DALL-E 2 創(chuàng)建了逼真的無(wú)車(chē)城市環(huán)境視覺(jué)刺激，這些刺激影響了參與者對(duì)可持續(xù)政策的態(tài)度。此類(lèi)工具通過(guò)提供可控性、多樣性和可擴(kuò)展性，簡(jiǎn)化了刺激設(shè)計(jì)過(guò)程。類(lèi)似地，LLMs 也被應(yīng)用于硬件測(cè)試中，用于生成定制化的刺激，并在特定情境下優(yōu)于傳統(tǒng)方法（Z. Zhang 等，2023）。Charness 等（2023）進(jìn)一步展示了 LLMs 在優(yōu)化實(shí)驗(yàn)流程中的應(yīng)用，包括改進(jìn)任務(wù)指令、確保一致性以及監(jiān)測(cè)參與者參與度。憑借其靈活性與可擴(kuò)展性，LLMs 能夠?yàn)橥苿?dòng)實(shí)驗(yàn)心理學(xué)提供新的方法。這些應(yīng)用不僅有助于探索復(fù)雜的認(rèn)知現(xiàn)象和開(kāi)發(fā)創(chuàng)新的研究設(shè)計(jì)，同時(shí)也能補(bǔ)充傳統(tǒng)的心理學(xué)研究框架（Srinivasan 等，2023）。然而，對(duì) LLM 輸出結(jié)果的解讀需要謹(jǐn)慎情境化處理，以避免高估其能力或?qū)⑵渑c人類(lèi)認(rèn)知過(guò)程直接等同。

（未完待續(xù)）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.