1943 年,當(dāng)世界上最頂尖的物理學(xué)家們?cè)跒椤奥D計(jì)劃”(Manhattan Project)分裂原子時(shí),美國(guó)心理學(xué)家 B.F. 斯金納(B.F. Skinner)也領(lǐng)導(dǎo)著他自己的秘密政府項(xiàng)目,旨在贏得第二次世界大戰(zhàn)。
斯金納的目標(biāo)并非要制造一種更大、更具毀滅性的新型武器。相反,他希望讓常規(guī)炸彈變得更加精準(zhǔn)。這個(gè)想法是在他乘坐火車去參加一次學(xué)術(shù)會(huì)議的途中,凝視窗外時(shí)迸發(fā)的?!拔铱吹揭蝗壶B(niǎo)兒在火車旁飛翔,時(shí)而盤(pán)旋,時(shí)而成群結(jié)隊(duì),”他寫(xiě)道,“我突然意識(shí)到,它們是擁有卓越視覺(jué)和機(jī)動(dòng)性的‘裝置’。難道它們不能引導(dǎo)一枚導(dǎo)彈嗎?”
斯金納最初用烏鴉進(jìn)行導(dǎo)彈研究,但這些聰明的黑色鳥(niǎo)類難以馴服。于是,他去了一家向中餐館出售鴿子的本地商店,自此,“白鴿計(jì)劃”(Project Pigeon)誕生了。盡管普通家鴿(學(xué)名 Columba livia)在人們印象中并不聰明,但它們?cè)趯?shí)驗(yàn)室里卻表現(xiàn)出驚人的合作性。
斯金納通過(guò)獎(jiǎng)勵(lì)食物的方式,訓(xùn)練鴿子啄食航空照片上的正確目標(biāo)。他最終計(jì)劃將這些鳥(niǎo)兒綁在彈頭的鼻錐部的一個(gè)裝置里,通過(guò)啄食一個(gè)由透鏡投射到屏幕上的實(shí)時(shí)圖像目標(biāo),來(lái)引導(dǎo)彈頭的方向。
(來(lái)源:B.F.斯金納基金會(huì))
軍方最終沒(méi)有部署斯金納的“神風(fēng)特攻隊(duì)”鴿子,但這些實(shí)驗(yàn)使他相信,鴿子是研究學(xué)習(xí)過(guò)程基本原理的“一種極其可靠的工具”?!拔覀兪褂螟澴樱皇且?yàn)樗且环N聰明的鳥(niǎo),而是因?yàn)樗且环N實(shí)用的鳥(niǎo),可以被改造成一部機(jī)器,”他在 1944 年說(shuō)道。
在尋找人工智能的先驅(qū)時(shí),人們常常會(huì)提到像艾薩克·阿西莫夫(Isaac Asimov)這樣的科幻作家,或是如圖靈測(cè)試(Turing test)這樣的思想實(shí)驗(yàn)。但一個(gè)同樣重要,卻出人意料且鮮為人知的前身,是斯金納在 20 世紀(jì)中葉對(duì)鴿子的研究。斯金納認(rèn)為,聯(lián)想——通過(guò)試錯(cuò)學(xué)習(xí),將行動(dòng)與懲罰或獎(jiǎng)勵(lì)聯(lián)系起來(lái)——是所有行為的基礎(chǔ),不僅限于鴿子,而是包括人類在內(nèi)的所有生物。他的“行為主義”(behaviorist)理論在 1960 年代被心理學(xué)家和動(dòng)物研究者所冷落,但卻被計(jì)算機(jī)科學(xué)家們所采納,并最終為許多來(lái)自谷歌(Google)和 OpenAI 等頂尖公司的人工智能工具奠定了基礎(chǔ)。
這些公司的程序正越來(lái)越多地采用一種機(jī)器學(xué)習(xí),其核心概念——強(qiáng)化——直接源自斯金納的心理學(xué)派。這一學(xué)派的主要構(gòu)建者,計(jì)算機(jī)科學(xué)家理查德·薩頓(Richard Sutton)和 安德魯·巴托(Andrew Barto),贏得了 2024 年的圖靈獎(jiǎng),這一獎(jiǎng)項(xiàng)被廣泛認(rèn)為是計(jì)算機(jī)科學(xué)界的諾貝爾獎(jiǎng)。強(qiáng)化學(xué)習(xí)(Reinforcement learning)使得計(jì)算機(jī)能夠駕駛汽車、解決復(fù)雜的數(shù)學(xué)問(wèn)題,并在國(guó)際象棋和圍棋等游戲中擊敗頂尖大師——但它并非通過(guò)模仿人類心智的復(fù)雜運(yùn)作來(lái)實(shí)現(xiàn)這一切,而是通過(guò)極大地強(qiáng)化鴿子大腦中簡(jiǎn)單的聯(lián)想過(guò)程。
薩頓曾寫(xiě)道,這是 70 年人工智能研究得出的一個(gè)“慘痛教訓(xùn)”:人類智能并非機(jī)器學(xué)習(xí)的有效模型——相反,正是這種基礎(chǔ)的聯(lián)想學(xué)習(xí)原則,驅(qū)動(dòng)著那些現(xiàn)在能夠在各種任務(wù)上模擬甚至超越人類的算法。如果人工智能真的像許多人擔(dān)心的那樣,即將擺脫其創(chuàng)造者的束縛,那么我們的計(jì)算機(jī)霸主可能不會(huì)像我們自己,而更像是“長(zhǎng)著翅膀的老鼠”——擁有行星般大小的大腦。即便事實(shí)并非如此,鴿子的大腦至少也能幫助我們揭開(kāi)這項(xiàng)令許多人擔(dān)憂(或欣喜)其正“變得人性化”的技術(shù)的神秘面紗。
反過(guò)來(lái),人工智能近期的成就也正促使一些動(dòng)物研究者重新思考自然智能的演化。斯德哥爾摩大學(xué)(Stockholm University)的生物學(xué)家約翰·林德(Johan Lind )曾撰文描述“聯(lián)想學(xué)習(xí)悖論”(associative learning paradox):生物學(xué)家們普遍認(rèn)為這個(gè)過(guò)程過(guò)于簡(jiǎn)單,無(wú)法在動(dòng)物身上產(chǎn)生復(fù)雜的行為,但當(dāng)它在計(jì)算機(jī)上產(chǎn)生類人行為時(shí),卻備受贊譽(yù)。這項(xiàng)研究不僅表明,聯(lián)想學(xué)習(xí)在黑猩猩和烏鴉等聰明動(dòng)物的生活中扮演著更重要的角色,而且也揭示了像普通原鴿這類長(zhǎng)期被我們視為頭腦簡(jiǎn)單的動(dòng)物,其生活遠(yuǎn)比我們想象的要復(fù)雜得多。
當(dāng)薩頓開(kāi)始從事人工智能研究時(shí),他感覺(jué)自己有個(gè)“秘密武器”。他告訴我,他本科時(shí)學(xué)過(guò)心理學(xué)?!拔耶?dāng)時(shí)正在挖掘關(guān)于動(dòng)物的心理學(xué)文獻(xiàn),”他說(shuō)。
(來(lái)源:B.F.斯金納基金會(huì))
19 世紀(jì)末,伊凡·巴甫洛夫(Ivan Pavlov)在他著名的“經(jīng)典條件反射”(classical conditioning)實(shí)驗(yàn)中,開(kāi)始揭示聯(lián)想學(xué)習(xí)的機(jī)制。他證明了,如果一個(gè)中性刺激——比如鈴聲或閃光燈——與食物的出現(xiàn)可預(yù)測(cè)地配對(duì),狗就會(huì)對(duì)這個(gè)中性刺激產(chǎn)生流涎反應(yīng)。20 世紀(jì)中葉,斯金納繼承并擴(kuò)展了巴甫洛夫的條件反射原理,將其從動(dòng)物的非自愿反射行為延伸至其整體行為。
斯金納寫(xiě)道,“行為是由其后果塑造和維持的”——一個(gè)隨機(jī)的行動(dòng)如果帶來(lái)了理想的結(jié)果,比如按下一個(gè)杠桿會(huì)釋放一個(gè)食物丸,那么這個(gè)行為就會(huì)被“強(qiáng)化”,從而使動(dòng)物更有可能重復(fù)它。斯金納通過(guò)一步步強(qiáng)化他實(shí)驗(yàn)動(dòng)物的行為,教會(huì)老鼠操縱彈珠,讓鴿子在四鍵鋼琴上彈奏簡(jiǎn)單的曲調(diào)。這些動(dòng)物通過(guò)試錯(cuò)學(xué)會(huì)了一系列行為鏈,以最大化長(zhǎng)期獎(jiǎng)勵(lì)。斯金納認(rèn)為,這種他稱之為“操作性條件反射”(operant conditioning)(其他心理學(xué)家稱之為“工具性學(xué)習(xí)”)的聯(lián)想學(xué)習(xí),是所有行為的基石。他相信心理學(xué)應(yīng)該只研究那些可以被觀察和測(cè)量的行為,而無(wú)需涉及任何內(nèi)在的“心智主體”。
斯金納認(rèn)為,甚至人類語(yǔ)言也是通過(guò)操作性條件反射發(fā)展的,兒童通過(guò)強(qiáng)化來(lái)學(xué)習(xí)詞語(yǔ)的意義。但他 1957 年關(guān)于該主題的著作《言語(yǔ)行為》(Verbal Behavior)遭到了諾姆·喬姆斯基(Noam Chomsky)的猛烈批評(píng),此后心理學(xué)的焦點(diǎn)開(kāi)始從可觀察的行為轉(zhuǎn)向人類心智固有的“認(rèn)知”能力,如邏輯和符號(hào)思維。生物學(xué)家們也很快反抗行為主義,他們攻擊心理學(xué)家試圖用一種基本且普適的機(jī)制來(lái)解釋動(dòng)物行為多樣性的做法。他們認(rèn)為,每個(gè)物種都演化出了適應(yīng)其棲息地和生活方式的特定行為,并且大多數(shù)行為是遺傳的,而非后天習(xí)得的。
到了 70 年代,當(dāng)薩頓開(kāi)始閱讀關(guān)于斯金納及類似實(shí)驗(yàn)的文獻(xiàn)時(shí),許多對(duì)智能感興趣的心理學(xué)家和研究者已經(jīng)從主要通過(guò)聯(lián)想學(xué)習(xí)的“小腦袋”鴿子,轉(zhuǎn)向了那些行為更復(fù)雜、暗示具有潛在認(rèn)知能力的大腦動(dòng)物?!斑@顯然是陳舊的東西,不再讓人們感到興奮了,”他告訴我。盡管如此,薩頓發(fā)現(xiàn)這些舊實(shí)驗(yàn)對(duì)機(jī)器學(xué)習(xí)具有啟發(fā)意義:“我?guī)е环N動(dòng)物學(xué)習(xí)理論者的思維方式進(jìn)入人工智能領(lǐng)域,卻發(fā)現(xiàn)工程學(xué)中幾乎沒(méi)有任何類似工具性學(xué)習(xí)的東西。”
在 20 世紀(jì)下半葉,許多工程師試圖以人類智能為模型來(lái)構(gòu)建人工智能,他們編寫(xiě)復(fù)雜的程序,試圖模仿人類思維并實(shí)現(xiàn)支配人類反應(yīng)和行為的規(guī)則。這種通常被稱為“符號(hào) AI”(symbolic AI)的方法受到了嚴(yán)重限制;這些程序在處理對(duì)人類來(lái)說(shuō)輕而易舉的任務(wù)時(shí),比如識(shí)別物體和文字,卻舉步維艱。要將人類用來(lái)區(qū)分蘋(píng)果和橙子或貓和狗的無(wú)數(shù)分類規(guī)則寫(xiě)入代碼,根本是不可能的——而沒(méi)有模式識(shí)別,像問(wèn)題解決、游戲和語(yǔ)言翻譯這樣更復(fù)雜任務(wù)的突破也似乎遙遙無(wú)期。正如 AI 懷疑論者休伯特·德雷福斯(Hubert Dreyfus)在 1972 年所寫(xiě)的,這些計(jì)算機(jī)科學(xué)家們所取得的成就不過(guò)是“一次小小的工程勝利,一個(gè)針對(duì)特定問(wèn)題的臨時(shí)解決方案,缺乏普遍適用性?!?/p>
然而,關(guān)于鴿子的研究暗示了另一條路徑。1964 年的一項(xiàng)研究表明,鴿子可以學(xué)會(huì)區(qū)分包含人物的照片和不包含人物的照片。研究人員只是向鳥(niǎo)兒展示一系列圖像,當(dāng)它們啄食一張有人出現(xiàn)的圖像時(shí),就用一顆食物丸作為獎(jiǎng)勵(lì)。它們起初是隨機(jī)啄食,但很快就學(xué)會(huì)了識(shí)別正確的圖像,包括那些人物被部分遮擋的照片。這個(gè)結(jié)果表明,你不需要規(guī)則來(lái)分類物體;僅通過(guò)聯(lián)想學(xué)習(xí),就有可能學(xué)習(xí)概念和使用類別。
(來(lái)源:GETTY IMAGES)
當(dāng)薩頓在 70 年代末開(kāi)始與巴托合作研究 AI 時(shí),他們想要?jiǎng)?chuàng)造一個(gè)“完整的、交互式的、尋求目標(biāo)的智能體”,能夠像鴿子或老鼠一樣探索并影響其環(huán)境?!拔覀円恢庇X(jué)得,我們研究的問(wèn)題更接近動(dòng)物在進(jìn)化中為生存所必須面對(duì)的問(wèn)題,”巴托告訴我。這個(gè)智能體需要兩個(gè)主要功能:搜索,即在特定情境下嘗試并從眾多行動(dòng)中進(jìn)行選擇;以及記憶,即將一個(gè)行動(dòng)與它帶來(lái)獎(jiǎng)勵(lì)的情境聯(lián)系起來(lái)。薩頓和巴托將他們的方法稱為“強(qiáng)化學(xué)習(xí)”;正如薩頓所說(shuō),“它基本上就是工具性學(xué)習(xí)?!?998 年,他們?cè)谝槐緯?shū)《強(qiáng)化學(xué)習(xí)導(dǎo)論》(Reinforcement Learning: An Introduction)中,對(duì)這一概念進(jìn)行了系統(tǒng)闡述。
在接下來(lái)的二十年里,隨著計(jì)算能力的指數(shù)級(jí)增長(zhǎng),對(duì) AI 進(jìn)行日益復(fù)雜的任務(wù)訓(xùn)練成為可能——這本質(zhì)上就是讓 AI“鴿子”經(jīng)歷數(shù)百萬(wàn)次更多的試驗(yàn)。
結(jié)合了人類輸入和強(qiáng)化學(xué)習(xí)的程序在國(guó)際象棋和雅達(dá)利(Atari)游戲中擊敗了人類專家。隨后,在 2017 年,谷歌 DeepMind 的工程師們完全通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建了 AI 程序 AlphaGo Zero。他們?yōu)樗A的每一盤(pán)圍棋比賽設(shè)定 +1 的數(shù)值獎(jiǎng)勵(lì),輸?shù)拿恳槐P(pán)則為 -1。這個(gè)程序被設(shè)定為尋求最大化獎(jiǎng)勵(lì),它在沒(méi)有任何圍棋知識(shí)的情況下開(kāi)始,但在 40 天內(nèi)不斷改進(jìn),最終達(dá)到了其創(chuàng)造者所稱的“超人”表現(xiàn)。它不僅能擊敗世界上最優(yōu)秀的圍棋人類選手——這場(chǎng)比賽被認(rèn)為比國(guó)際象棋更為復(fù)雜——而且實(shí)際上開(kāi)創(chuàng)了職業(yè)棋手現(xiàn)在使用的新策略。
“人類在數(shù)千年的時(shí)間里,通過(guò)數(shù)百萬(wàn)盤(pán)棋局積累了圍棋知識(shí),”該程序的構(gòu)建者在 2017 年的《自然》(Nature)雜志上寫(xiě)道?!霸趲滋熘畠?nèi),從一張白紙(tabula rasa)開(kāi)始,AlphaGo Zero 不僅能夠重新發(fā)現(xiàn)大部分這些圍棋知識(shí),還開(kāi)創(chuàng)了為這場(chǎng)最古老的游戲提供新見(jiàn)解的新穎策略。”該團(tuán)隊(duì)的首席研究員是戴維·西爾弗(David Silver),他曾在阿爾伯塔大學(xué)(University of Alberta)師從薩頓學(xué)習(xí)強(qiáng)化學(xué)習(xí)。
如今,越來(lái)越多的科技公司已將強(qiáng)化學(xué)習(xí)應(yīng)用于面向消費(fèi)者的聊天機(jī)器人和智能體等產(chǎn)品中。第一代生成式 AI,包括像 OpenAI 的 GPT-2 和 GPT-3 這樣的大語(yǔ)言模型(LLM, Large Language Models),利用了一種更簡(jiǎn)單的聯(lián)想學(xué)習(xí)形式,稱為“監(jiān)督學(xué)習(xí)”(supervised learning),即在由人類標(biāo)記的數(shù)據(jù)集上訓(xùn)練模型。程序員們通常使用強(qiáng)化學(xué)習(xí)來(lái)微調(diào)結(jié)果,他們會(huì)請(qǐng)人們對(duì)程序的表現(xiàn)進(jìn)行評(píng)分,然后將這些評(píng)分作為目標(biāo)反饋給程序以供其追求。(研究人員稱之為“基于反饋的強(qiáng)化學(xué)習(xí)”。)
去年秋天,OpenAI 公布了其 o 系列大語(yǔ)言模型,并將其歸類為“推理”模型。這家開(kāi)創(chuàng)性的 AI 公司宣稱,這些模型“通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練以執(zhí)行推理”,并聲稱它們能夠進(jìn)行“長(zhǎng)時(shí)程的內(nèi)部思維鏈”。中國(guó)初創(chuàng)公司 DeepSeek 也使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練其引人注目的“推理”LLM,R1?!拔覀儾皇敲鞔_地教模型如何解決問(wèn)題,而只是為它提供正確的激勵(lì),它就能自主地發(fā)展出先進(jìn)的問(wèn)題解決策略,”他們解釋道。
這些描述可能會(huì)給用戶留下深刻印象,但至少在心理學(xué)上,它們是含糊不清的。一個(gè)基于強(qiáng)化學(xué)習(xí)訓(xùn)練的計(jì)算機(jī),只需要搜索和記憶,而不需要推理或任何其他認(rèn)知機(jī)制,就能形成聯(lián)想并最大化獎(jiǎng)勵(lì)。一些計(jì)算機(jī)科學(xué)家批評(píng)了將這些模型“思考”擬人化的傾向,一個(gè)蘋(píng)果公司的工程師團(tuán)隊(duì)最近發(fā)表了一篇論文,指出了它們?cè)谀承?fù)雜任務(wù)上的失敗,并“對(duì)其真實(shí)的推理能力提出了關(guān)鍵問(wèn)題”。
薩頓在一封電子郵件中也把關(guān)于推理的說(shuō)法斥為“市場(chǎng)營(yíng)銷”,并補(bǔ)充說(shuō),“沒(méi)有一個(gè)嚴(yán)肅的心智學(xué)者會(huì)用‘推理’來(lái)描述 LLM 中發(fā)生的事情。”盡管如此,他與西爾弗及其他合著者一同指出,鴿子的方法——通過(guò)試錯(cuò)學(xué)習(xí)哪些行為會(huì)產(chǎn)生獎(jiǎng)勵(lì)——足以“驅(qū)動(dòng)展現(xiàn)出自然和人工智能領(lǐng)域中研究的大多數(shù)甚至所有能力的行為”,包括人類語(yǔ)言“以其全部的豐富性”。
在四月份發(fā)表的一篇論文中,薩頓和西爾弗指出,“當(dāng)今的技術(shù),只要有恰當(dāng)選擇的算法,已經(jīng)為 AI 迅速邁向真正超人智能體提供了足夠強(qiáng)大的基礎(chǔ)?!彼麄冋J(rèn)為,關(guān)鍵在于構(gòu)建的 AI 智能體要比 LLM 更少地依賴人類對(duì)話和偏見(jiàn)來(lái)指導(dǎo)其行為。
“強(qiáng)大的智能體應(yīng)該擁有自己的經(jīng)驗(yàn)流,像人類一樣,在漫長(zhǎng)的時(shí)間尺度上不斷發(fā)展,”他們寫(xiě)道?!白罱K,經(jīng)驗(yàn)數(shù)據(jù)將在規(guī)模和質(zhì)量上超越人類生成的數(shù)據(jù)。這種范式轉(zhuǎn)變,伴隨著強(qiáng)化學(xué)習(xí)算法的進(jìn)步,將在許多領(lǐng)域解鎖超越任何人類所擁有的新能力?!?/p>
如果計(jì)算機(jī)僅憑一個(gè)類似鴿子的大腦就能做到這一切,一些動(dòng)物研究者現(xiàn)在開(kāi)始思考,真正的鴿子是否也應(yīng)得到比通常更多的贊譽(yù)。
“當(dāng)考慮到 AI 的成就時(shí),將聯(lián)想學(xué)習(xí)擴(kuò)展到據(jù)稱更復(fù)雜的認(rèn)知表現(xiàn)形式,為理解生物系統(tǒng)如何演化提供了新的前景,”愛(ài)荷華大學(xué)(University of Iowa)的心理學(xué)家埃德·沃瑟曼(Ed Wasserman) 在最近發(fā)表于《當(dāng)代生物學(xué)》(Current Biology)雜志的一項(xiàng)研究中寫(xiě)道。
在一項(xiàng)實(shí)驗(yàn)中,沃瑟曼訓(xùn)練鴿子成功完成了一項(xiàng)復(fù)雜的分類任務(wù),而幾名本科生卻失敗了。學(xué)生們徒勞地試圖找到一個(gè)規(guī)則來(lái)幫助他們分類那些帶有不同寬度和傾斜度平行黑線的圓盤(pán);而鴿子們只是通過(guò)練習(xí)和聯(lián)想,形成了一種感覺(jué),判斷任何給定的圓盤(pán)屬于哪個(gè)組。
和薩頓一樣,沃瑟曼也是在斯金納的理論失寵時(shí)對(duì)行為主義心理學(xué)產(chǎn)生了興趣。但他沒(méi)有轉(zhuǎn)向計(jì)算機(jī)科學(xué),而是堅(jiān)持研究鴿子。“鴿子生死都依賴于這些非?;A(chǔ)的學(xué)習(xí)規(guī)則,”沃瑟曼最近告訴我,“但這些規(guī)則已經(jīng)足夠強(qiáng)大,讓它們?cè)谖矬w識(shí)別方面取得了巨大的成功。”在他最著名的實(shí)驗(yàn)中,沃瑟曼訓(xùn)練鴿子在醫(yī)學(xué)掃描中檢測(cè)癌變組織和心臟病癥狀,其準(zhǔn)確度堪比辦公桌后掛著鑲框文憑的資深醫(yī)生。鑒于他的研究結(jié)果,沃瑟曼覺(jué)得奇怪的是,如此多的心理學(xué)家和行為生態(tài)學(xué)家將聯(lián)想學(xué)習(xí)視為一種粗糙、機(jī)械的機(jī)制,無(wú)法產(chǎn)生像猿、大象、海豚、鸚鵡和烏鴉等聰明動(dòng)物的智能。
在 AI 開(kāi)始在復(fù)雜游戲中戰(zhàn)勝人類專家之后,其他研究人員也開(kāi)始重新思考聯(lián)想學(xué)習(xí)在動(dòng)物行為中的作用?!半S著本質(zhì)上建立在聯(lián)想過(guò)程之上的人工智能取得進(jìn)展,聯(lián)想學(xué)習(xí)被認(rèn)為過(guò)于簡(jiǎn)單且不足以產(chǎn)生生物智能,這變得越來(lái)越諷刺,”斯德哥爾摩大學(xué)的生物學(xué)家林德在 2023 年寫(xiě)道。他經(jīng)常在他的生物學(xué)研究中引用薩頓和巴托的計(jì)算機(jī)科學(xué),并且他相信,真正將人類置于其自身認(rèn)知類別的是人類的符號(hào)語(yǔ)言和累積文化。
行為生態(tài)學(xué)家通常提出認(rèn)知機(jī)制,如心理理論(theory of mind,即把精神狀態(tài)歸因于他人的能力),來(lái)解釋像社會(huì)學(xué)習(xí)和工具使用這樣非凡的動(dòng)物行為。但林德建立了模型,表明這些靈活的行為可能是通過(guò)聯(lián)想學(xué)習(xí)發(fā)展而來(lái)的,這表明可能根本無(wú)需援引認(rèn)知機(jī)制。如果動(dòng)物學(xué)會(huì)將一種行為與獎(jiǎng)勵(lì)聯(lián)系起來(lái),那么該行為本身就會(huì)逐漸趨近于獎(jiǎng)勵(lì)的價(jià)值。然后,一個(gè)新的行為可以與第一個(gè)行為相關(guān)聯(lián),從而讓動(dòng)物學(xué)習(xí)最終導(dǎo)致獎(jiǎng)勵(lì)的一系列行為鏈。在林德看來(lái),展示黑猩猩和渡鴉自我控制和規(guī)劃能力的研究,很可能描述的是通過(guò)經(jīng)驗(yàn)獲得的行為,而非心靈的內(nèi)在機(jī)制。
林德對(duì)他所稱的“動(dòng)物認(rèn)知研究中被接受的低標(biāo)準(zhǔn)”感到沮喪。正如他在一封電子郵件中寫(xiě)的,“這個(gè)領(lǐng)域的許多研究人員似乎不擔(dān)心排除其他假設(shè),他們樂(lè)于忽視大量當(dāng)前和歷史的知識(shí)?!辈贿^(guò),有跡象表明他的論點(diǎn)正在獲得關(guān)注。一群與林德無(wú)關(guān)聯(lián)的心理學(xué)家去年在批評(píng)一項(xiàng)《當(dāng)代生物學(xué)》的研究時(shí),引用了他的“聯(lián)想學(xué)習(xí)悖論”。該研究聲稱烏鴉在一次實(shí)驗(yàn)中使用了“真正的統(tǒng)計(jì)推斷”,而非“低級(jí)聯(lián)想學(xué)習(xí)策略”。這些心理學(xué)家發(fā)現(xiàn),他們可以用一個(gè)簡(jiǎn)單的強(qiáng)化學(xué)習(xí)模型來(lái)解釋烏鴉的表現(xiàn)——“正是[原作者]排除了的那種低級(jí)聯(lián)想學(xué)習(xí)過(guò)程?!?/p>
斯金納或許會(huì)為這些論點(diǎn)感到欣慰。直到 1990 年去世前,他一直對(duì)心理學(xué)的認(rèn)知轉(zhuǎn)向感到惋惜,堅(jiān)稱探索生物思想是科學(xué)上不負(fù)責(zé)任的。在“白鴿計(jì)劃”之后,他越來(lái)越癡迷于用“行為主義”的方案解決社會(huì)問(wèn)題。他從為戰(zhàn)爭(zhēng)訓(xùn)練鴿子轉(zhuǎn)向了像“育兒箱”(Air Crib)這樣的發(fā)明,旨在通過(guò)將嬰兒置于一個(gè)氣候可控的玻璃室中,消除對(duì)衣物和被褥的需求,從而“簡(jiǎn)化”育兒。斯金納否定自由意志,認(rèn)為人類行為是由環(huán)境變量決定的,并寫(xiě)了一部名為《瓦爾登湖二號(hào)》(Walden II)的小說(shuō),講述了一個(gè)建立在他理念上的烏托邦社區(qū)。
關(guān)心動(dòng)物權(quán)益的人可能會(huì)對(duì)行為主義理論的復(fù)興感到不安?!罢J(rèn)知革命”打破了幾個(gè)世紀(jì)以來(lái)強(qiáng)調(diào)人類至上、將其他生物視為刺激-反應(yīng)機(jī)器的西方思維傳統(tǒng)。但主張動(dòng)物通過(guò)聯(lián)想學(xué)習(xí),與主張它們頭腦簡(jiǎn)單并非一回事。像林德和沃瑟曼這樣的科學(xué)家并不否認(rèn)本能和情感等內(nèi)在力量也會(huì)影響動(dòng)物行為。薩頓也相信,動(dòng)物通過(guò)經(jīng)驗(yàn)建立世界模型,并用它們來(lái)規(guī)劃行動(dòng)。他們的觀點(diǎn)不是說(shuō)智能動(dòng)物是空洞的,而是說(shuō)聯(lián)想學(xué)習(xí)是一種比許多同行所認(rèn)為的更強(qiáng)大——實(shí)際上是“認(rèn)知性”的——機(jī)制。最近批評(píng)關(guān)于烏鴉和統(tǒng)計(jì)推斷研究的心理學(xué)家們并沒(méi)有得出鳥(niǎo)類愚蠢的結(jié)論。相反,他們認(rèn)為“一個(gè)強(qiáng)化學(xué)習(xí)模型可以產(chǎn)生復(fù)雜、靈活的行為?!?/p>
這很大程度上與另一位心理學(xué)家羅伯特·雷斯科拉(Robert Rescorla)的研究相符,他在 70 和 80 年代的工作影響了沃瑟曼和薩頓。雷斯科拉鼓勵(lì)人們不要把聯(lián)想看作一個(gè)“低級(jí)的機(jī)械過(guò)程”,而應(yīng)看作是“因暴露于環(huán)境中事件之間的關(guān)系而產(chǎn)生的學(xué)習(xí)”,以及“生物體表征其世界結(jié)構(gòu)的主要方式”。
這甚至適用于一只在小型實(shí)驗(yàn)箱中啄食屏幕和按鈕的實(shí)驗(yàn)室鴿子,科學(xué)家在那里仔細(xì)控制和測(cè)量刺激與獎(jiǎng)勵(lì)。但鴿子的學(xué)習(xí)延伸到了實(shí)驗(yàn)箱之外。沃瑟曼的學(xué)生用桶在鳥(niǎo)舍和實(shí)驗(yàn)室之間運(yùn)送鴿子——經(jīng)驗(yàn)豐富的鴿子只要學(xué)生一打開(kāi)門(mén)就會(huì)立刻跳進(jìn)桶里。正如雷斯科拉所暗示的,它們正在學(xué)習(xí)它們世界內(nèi)部的結(jié)構(gòu)及其各部分之間的關(guān)系,比如桶和實(shí)驗(yàn)箱,盡管它們并不總是知道進(jìn)去后會(huì)面臨什么具體任務(wù)。
通過(guò)同樣的聯(lián)想機(jī)制,鴿子學(xué)習(xí)其世界的結(jié)構(gòu),這也能為了解斯金納和許多早期心理學(xué)家所否認(rèn)的那種內(nèi)心生活打開(kāi)一扇窗。藥物研究人員長(zhǎng)期以來(lái)在藥物辨別任務(wù)中使用鴿子,例如,給它們服用安非他明或鎮(zhèn)靜劑,并因其正確識(shí)別所服藥物而獎(jiǎng)勵(lì)食物丸。鳥(niǎo)類的成功表明它們既能體驗(yàn)也能辨別內(nèi)部狀態(tài)。“這難道不等于內(nèi)省嗎?”沃瑟曼問(wèn)道。
很難想象 AI 能在這項(xiàng)特定任務(wù)上與鴿子匹敵——這提醒我們,盡管 AI 和動(dòng)物共享聯(lián)想機(jī)制,但生命遠(yuǎn)不止于行為與學(xué)習(xí)。
一只鴿子理應(yīng)被視為一個(gè)生命體而受到倫理關(guān)懷,不是因?yàn)樗绾螌W(xué)習(xí),而是因?yàn)樗泻胃惺堋?/strong>鴿子能夠體驗(yàn)痛苦和苦難,而 AI 聊天機(jī)器人則不能——即使一些大型語(yǔ)言模型,因其訓(xùn)練語(yǔ)料庫(kù)包含了對(duì)人類苦難的描述和關(guān)于有感知能力的計(jì)算機(jī)的科幻故事,能夠欺騙人們相信它們可以。
“近年來(lái)對(duì) AI 研究的密集公共和私人投資,催生了迫使我們直面 AI 感知問(wèn)題的技術(shù),”兩位科學(xué)哲學(xué)家在 2023 年于《永世》(Aeon)雜志上寫(xiě)道。
“要回答這些當(dāng)前的問(wèn)題,我們需要在動(dòng)物認(rèn)知和行為研究上投入同等程度的資源?!笔聦?shí)上,由于 AI 的出現(xiàn),比較心理學(xué)家和動(dòng)物研究人員長(zhǎng)期以來(lái)努力解決的問(wèn)題突然變得緊迫起來(lái):我們?nèi)绾螌⒏兄芰x予其他生物?我們?nèi)绾螀^(qū)分真實(shí)的感知和一場(chǎng)令人信服的感知表演?
這樣的努力不僅會(huì)帶來(lái)關(guān)于技術(shù)和動(dòng)物的知識(shí),也會(huì)帶來(lái)關(guān)于我們自身的知識(shí)。大多數(shù)心理學(xué)家可能不會(huì)像薩頓那樣,認(rèn)為獎(jiǎng)勵(lì)足以解釋絕大多數(shù)甚至所有的人類行為,但沒(méi)有人會(huì)否認(rèn)人們也常常通過(guò)聯(lián)想來(lái)學(xué)習(xí)。事實(shí)上,沃瑟曼最近開(kāi)展的那個(gè)帶條紋圓盤(pán)的實(shí)驗(yàn)中,大多數(shù)本科生最終也成功了,但前提是他們放棄了尋找規(guī)則。他們像鴿子一樣,求助于聯(lián)想,事后也無(wú)法輕易解釋他們學(xué)到了什么。只是通過(guò)足夠的練習(xí),他們開(kāi)始對(duì)類別有了感覺(jué)。
這是關(guān)于聯(lián)想學(xué)習(xí)的另一個(gè)諷刺之處:長(zhǎng)期以來(lái)被認(rèn)為是最復(fù)雜智能形式的——一種像基于規(guī)則學(xué)習(xí)的認(rèn)知能力——或許造就了我們的人性,但我們也用它來(lái)完成最簡(jiǎn)單的任務(wù),比如按顏色或大小對(duì)物體進(jìn)行分類。與此同時(shí),一些最精妙的人類學(xué)習(xí)展示——比如侍酒師學(xué)會(huì)品嘗不同葡萄之間的差異——不是通過(guò)規(guī)則,而是只能通過(guò)經(jīng)驗(yàn)習(xí)得。
通過(guò)經(jīng)驗(yàn)學(xué)習(xí)依賴于我們與鴿子以及從蜜蜂到魚(yú)類的無(wú)數(shù)其他生物所共有的古老聯(lián)想機(jī)制。實(shí)驗(yàn)室里的鴿子不僅存在于我們的計(jì)算機(jī)中,也存在于我們的大腦中——它正是人類某些最驚人成就背后的驅(qū)動(dòng)力。
https://www.technologyreview.com/2025/08/18/1121370/ai-pigeons-reinforcement-learning/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.