第七章:從概率到行動(dòng) 《貝葉斯認(rèn)知模型 逆向工程思維》
https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html
小結(jié)
本書的核心問題是歸納:如何從局部且含噪聲的數(shù)據(jù)中獲知世界的結(jié)構(gòu)?然而,從生物體生存與繁衍的角度來看,任何此類學(xué)習(xí)若不能轉(zhuǎn)化為行動(dòng)(即無法將知識(shí)與我們的價(jià)值觀結(jié)合以決定如何行動(dòng)),都是無用的。貝葉斯決策理論為此問題提供了解決方案,指明了理性智能體應(yīng)如何基于其信念采取行動(dòng)。即便是簡單的決策,也可能涉及復(fù)雜的證據(jù)累積過程;當(dāng)我們考慮相互依賴的序列決策時(shí),這種復(fù)雜性會(huì)進(jìn)一步加劇。盡管如此,認(rèn)知科學(xué)家已在揭示人類決策背后數(shù)學(xué)原理方面取得了實(shí)質(zhì)性進(jìn)展,這些進(jìn)展建立并補(bǔ)充了前幾章所述的概率建模的一般思想。隨著本書進(jìn)入第二部分,我們將探討更復(fù)雜的模型以及在人類認(rèn)知中的更詳細(xì)應(yīng)用,而貝葉斯決策理論的原則將為連接信念與行動(dòng)提供基礎(chǔ)。
到目前為止,本書主要關(guān)注歸納推理問題:即如何結(jié)合背景知識(shí),從數(shù)據(jù)樣本中推斷環(huán)境、句子或類別的結(jié)構(gòu)。然而,獲取新知識(shí)對(duì)一個(gè)智能體而言,其最終的實(shí)際價(jià)值僅在于它能否幫助指導(dǎo)有關(guān)行動(dòng)的決策。例如,動(dòng)物可能會(huì)對(duì)可能的食物進(jìn)行分類,以決定是否應(yīng)該食用;或者解讀一個(gè)逼近的陰影,以觸發(fā)戰(zhàn)斗或逃跑反應(yīng)。關(guān)于環(huán)境狀態(tài)或自身身體狀況的感知推斷,可用于指導(dǎo)伸手動(dòng)作、維持平衡或避免碰撞。關(guān)于物理裝置或計(jì)算機(jī)界面運(yùn)作方式的因果推斷,將決定用戶如何實(shí)現(xiàn)其目標(biāo)。在社會(huì)和經(jīng)濟(jì)領(lǐng)域,對(duì)他人的動(dòng)機(jī)進(jìn)行推斷,可能決定對(duì)方是朋友還是敵人、知道或不知道某些信息以及其他因素,從而決定我們應(yīng)如何與之互動(dòng)。
從方法論角度看,理解決策過程同樣重要,因?yàn)榻^大多數(shù)實(shí)驗(yàn)數(shù)據(jù)記錄的都是決策所產(chǎn)生的行為。因此,當(dāng)我們使用心理物理學(xué)方法研究知覺時(shí),通常依賴被試的反應(yīng)來表明他們看到了什么,或者某個(gè)刺激是否可見;而這些反應(yīng)本身正是決策過程的結(jié)果。此外,通過觀察人們的決策,我們可以反過來推斷支撐這些決策的主觀概率。事實(shí)上,在實(shí)驗(yàn)經(jīng)濟(jì)學(xué)中,從觀察到的決策進(jìn)行推斷是推斷個(gè)體主觀概率的主要方法——這種方法根植于關(guān)于理想理性智能體的理論成果,我們將在后文看到。因此,決策過程既可被視為大多數(shù)認(rèn)知過程的最終目標(biāo),也可被視為窺探這些認(rèn)知過程的媒介。
在本章中,我們將概述將世界概率表征轉(zhuǎn)化為理性行動(dòng)所需的關(guān)鍵思想。這一主題本身足以占據(jù)整本書的篇幅,事實(shí)上也確實(shí)已有若干優(yōu)秀著作(例如 Robert, 2007;Sutton & Barto, 2018;Russell & Norvig, 2021),我們?cè)诖送扑]。我們的目標(biāo)是提供對(duì)這些思想的入門介紹,其詳細(xì)程度足以使讀者理解本書后半部分所呈現(xiàn)的主題。我們首先介紹統(tǒng)計(jì)決策理論,該理論告訴我們理性智能體應(yīng)如何在概率與獎(jiǎng)勵(lì)之間取得平衡。接著,我們將探討這些獎(jiǎng)勵(lì)應(yīng)如何表征,引入效用函數(shù)的概念,并通過證據(jù)累積將這一方法與貝葉斯推斷聯(lián)系起來。許多現(xiàn)實(shí)場景并非孤立地做出單一決策,而是涉及一系列連續(xù)決策,這引導(dǎo)我們進(jìn)入強(qiáng)化學(xué)習(xí)的主題。為了說明有關(guān)學(xué)習(xí)過程本身的決策,還需要對(duì)貝葉斯決策理論做進(jìn)一步擴(kuò)展。大腦并非被動(dòng)處理接收到的任何數(shù)據(jù),而是積極參與主動(dòng)學(xué)習(xí),將其有限的信息處理能力導(dǎo)向那些可能最具價(jià)值或最有趣的信息進(jìn)行采樣和處理。本章最后,我們將探討貝葉斯決策理論(尤其是關(guān)于基本認(rèn)知過程的理論,如檢測感覺信號(hào)、回憶記憶或規(guī)劃與執(zhí)行運(yùn)動(dòng))與心理學(xué)和行為經(jīng)濟(jì)學(xué)中大量實(shí)證文獻(xiàn)之間看似存在的矛盾——后者似乎表明,人們的決策常常嚴(yán)重偏離理性行動(dòng)。
7.1 最小化損失:統(tǒng)計(jì)決策理論
首先,我們考慮這樣一個(gè)問題:如果一個(gè)智能體擁有明確定義的主觀概率(當(dāng)然,這些概率符合貝葉斯規(guī)則及其他概率定律),并且擁有一個(gè)可以用數(shù)值量化的明確目標(biāo),那么它應(yīng)當(dāng)如何行動(dòng)?例如,假設(shè)一個(gè)人試圖在存在干擾物(以及感知系統(tǒng)自身噪聲)的環(huán)境中檢測微弱目標(biāo)——比如短暫的閃光。假設(shè)我們?cè)趯?shí)驗(yàn)室中研究這一檢測問題,進(jìn)行一系列離散試驗(yàn),在每次試驗(yàn)中,被試要么按下按鈕(表示目標(biāo)出現(xiàn)),要么不按(表示目標(biāo)未出現(xiàn))。評(píng)估表現(xiàn)最簡單的方式或許是統(tǒng)計(jì)被試給出的正確與錯(cuò)誤回答的數(shù)量及類型。正確回答有兩種:“擊中”(hit),即目標(biāo)閃光出現(xiàn)且被試按下按鈕;“正確拒絕”(correct rejection),即目標(biāo)未出現(xiàn)且被試未按按鈕。錯(cuò)誤回答也有兩種:“漏報(bào)”(miss),即目標(biāo)出現(xiàn)但被試未按按鈕;“虛報(bào)”(false positive),即目標(biāo)未出現(xiàn)但被試按下了按鈕。
這類設(shè)置可通過統(tǒng)計(jì)決策理論(Berger, 1993)建模。出于歷史原因,在統(tǒng)計(jì)決策理論中,我們通常討論的是最小化損失,而非最大化目標(biāo)。因此,應(yīng)用最簡單的損失函數(shù)——0-1損失函數(shù),我們可以為每個(gè)錯(cuò)誤分配?1分,為每個(gè)正確回答分配0分。于是,我們假設(shè)的這個(gè)人的目標(biāo)就可以建模為最小化總損失。當(dāng)然,在選擇行動(dòng)時(shí),智能體尚不知道實(shí)際損失會(huì)是多少。因此,自然的策略是選擇使期望損失最小化的行動(dòng),其中期望基于當(dāng)前的主觀概率計(jì)算得出。例如,在0-1損失函數(shù)下,在每次試驗(yàn)中,只要給定感覺證據(jù)和先驗(yàn)信息后目標(biāo)出現(xiàn)的主觀概率大于1/2,智能體就應(yīng)按下按鈕;如果概率小于1/2,則不應(yīng)按按鈕;如果概率恰好等于1/2,則按或不按按鈕的期望損失相同,兩種選擇同樣好,可以任意決定。
7.1.1 不對(duì)稱損失函數(shù)
這類信號(hào)檢測任務(wù)長期以來一直被心理學(xué)家所研究(Green & Swets, 1966),其應(yīng)用場景多種多樣,例如檢測短暫的閃光、指示敵機(jī)接近的雷達(dá)圖像,或可能提示癌癥的醫(yī)學(xué)掃描。一般來說,0-1損失函數(shù)會(huì)過于簡單:某些錯(cuò)誤比其他錯(cuò)誤重要得多。例如,“假陽性”——即一個(gè)人被錯(cuò)誤地懷疑患有癌癥,進(jìn)而接受進(jìn)一步檢查——雖然令人煩惱;但“漏檢”——即一個(gè)實(shí)際患癌的人被忽略,因而未能獲得可能挽救生命的治療——?jiǎng)t是一場災(zāi)難。為應(yīng)對(duì)這一情況,我們需要一種稱為“不對(duì)稱損失函數(shù)”的工具——它可以為兩種損失施加不同的懲罰(而“擊中”和“正確拒絕”仍保持零損失)。例如,在我們的癌癥檢測案例中,我們判斷“漏檢”所造成的損失應(yīng)是“誤報(bào)”的1,000倍。為具體化,我們?cè)O(shè)這兩種損失分別為?1和?1,000。假設(shè)我們的先驗(yàn)概率和掃描所得感官信息引導(dǎo)我們得出后驗(yàn)概率p,即該人患有癌癥的概率,其中p是一個(gè)很小的數(shù)值,比如0.01。
我們有兩個(gè)行動(dòng)選擇:宣布“陽性”或“陰性”的測試結(jié)果。如果我們堅(jiān)持使用原始的0-1損失函數(shù),宣布陽性結(jié)果的期望損失為 p·(0) + (1?p)·(?1) = p ? 1 = ?0.99。宣布陰性結(jié)果的期望損失為 p·(?1) + (1?p)·(0) = ?p = ?0.01。我們希望最小化期望損失,因此應(yīng)當(dāng)宣布測試結(jié)果為陰性(并可能將患者打發(fā)回家,不再安排進(jìn)一步檢查)。但假設(shè)我們切換至不對(duì)稱損失函數(shù),考慮到漏診癌癥遠(yuǎn)比假陽性嚴(yán)重得多。此時(shí),宣布陽性結(jié)果的期望損失仍是 p·(0) + (1?p)·(?1) = p ? 1 = ?0.99;但現(xiàn)在宣布陰性結(jié)果的期望損失變?yōu)?p·(?1000) + (1?p)·(0) = ?p = ?10?,F(xiàn)在,即使給定陽性測試結(jié)果下實(shí)際患癌的概率相當(dāng)?shù)停ㄟ^宣布陽性結(jié)果,期望損失反而達(dá)到最小化。不對(duì)稱損失函數(shù)促使智能體偏向謹(jǐn)慎的一方,并更有可能進(jìn)行進(jìn)一步檢查,而不是直接讓患者帶著“健康報(bào)告”回家。
此類方法可在許多方面推廣。例如,目標(biāo)未必僅僅是檢測某個(gè)目標(biāo),而是將其分類并做出適當(dāng)反應(yīng)(例如,吃成熟的水果、儲(chǔ)存未熟的水果、丟棄過熟或發(fā)霉的水果)。此時(shí),類別與行動(dòng)之間將形成一個(gè)收益矩陣,損失函數(shù)自然也不會(huì)是對(duì)稱的。吃發(fā)霉的水果比偶爾丟棄可能可食用的水果要嚴(yán)重得多。但同樣的方法——在給定智能體主觀概率的前提下,選擇使期望損失最小化的行動(dòng)——仍然可以應(yīng)用。
7.1.2 連續(xù)行動(dòng)
在許多情境中,衡量表現(xiàn)的自然標(biāo)準(zhǔn)不僅取決于是否選擇了正確的行動(dòng)類別,還取決于連續(xù)值行動(dòng)的實(shí)數(shù)值精度。例如,在伸手抓取物體時(shí),我們離目標(biāo)有多近可能很重要。在其他情況下,我們的輸出可能不是物理動(dòng)作,而可能是數(shù)值判斷:例如古董的市場價(jià)值、河流的長度或城市的人口數(shù)量。在統(tǒng)計(jì)學(xué)中,針對(duì)實(shí)數(shù)值輸出的兩個(gè)特別流行的損失函數(shù)是平方(或二次)損失函數(shù),其損失為估計(jì)值y與目標(biāo)值t之間的平方距離之和,(y?t)2;以及絕對(duì)值損失函數(shù),其損失為估計(jì)值與目標(biāo)值之間絕對(duì)距離之和,|y?t|。平方損失函數(shù)當(dāng)然在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的回歸問題中被廣泛用作默認(rèn)函數(shù)(參見,例如,Hastie, Tibshirani, & Friedman, 2009)。如果誤差為零,則這兩個(gè)損失函數(shù)均達(dá)到最小值:若行動(dòng)或預(yù)測精確命中目標(biāo)值,二次損失函數(shù)對(duì)大誤差更為敏感(因?yàn)檫@些誤差會(huì)被平方)。
從選擇行動(dòng)的角度來看,這些損失函數(shù)是非常簡單的特例。現(xiàn)實(shí)世界行為中涉及的損失函數(shù)通常需要根據(jù)所考慮的具體行為量身定制。例如,在猜測一個(gè)小孩年齡時(shí),從孩子被惹惱的角度看,“損失”在低估時(shí)可能很大,但在高估時(shí)較小。因此,最小化期望損失會(huì)鼓勵(lì)人們給出向上偏倚的估計(jì)。再假設(shè)我們的行動(dòng)是在二手車交易中出價(jià)。如果智能體有一個(gè)基于汽車特征、賣家特性等因素的概率模型,用于預(yù)測賣家可能接受的最低價(jià)格,那么智能體應(yīng)如何決定出價(jià)金額?在此情況下,損失函數(shù)也必須根據(jù)情境定制。如果我們出價(jià)太低,就無法買到車,不得不繼續(xù)尋找(產(chǎn)生時(shí)間和不便的成本);如果我們出價(jià)太高,就會(huì)在財(cái)務(wù)上受損。貝葉斯決策方法要求我們將這些不同類型的損失置于同一尺度上,并選擇(此處指我們的出價(jià))能使總體期望損失最小化的行動(dòng)。而在現(xiàn)實(shí)中,故事因初始出價(jià)后可能伴隨后續(xù)議價(jià)等復(fù)雜因素而更加復(fù)雜。因此,盡管運(yùn)用貝葉斯決策理論選擇行動(dòng)在概念上很簡單——我們只需最小化期望損失——在實(shí)踐中卻通常非常復(fù)雜。因此,一個(gè)現(xiàn)實(shí)的認(rèn)知模型通常會(huì)假設(shè)此類計(jì)算必須被近似處理,甚至大幅簡化。
在簡單的實(shí)驗(yàn)情境中,這種決策方法能提供良好的行為模型。例如,Trommersh?user, Maloney, and Landy (2003) 要求參與者快速觸碰觸摸屏上的綠色目標(biāo)(得分),同時(shí)避開附近甚至重疊的紅色目標(biāo)(扣分)。實(shí)驗(yàn)者可以測量
感知噪聲和(更重要的)運(yùn)動(dòng)噪聲在這項(xiàng)任務(wù)中的影響,大致對(duì)應(yīng)于圍繞真實(shí)目標(biāo)的一個(gè)高斯分布。在此情況下,參與者必須根據(jù)可用的得失權(quán)衡來選擇瞄準(zhǔn)位置(如前所述,該任務(wù)完全可以重新表述為以損失為中心的形式,且形式上完全相同)。這項(xiàng)任務(wù)的精妙之處在于,通過對(duì)多次試驗(yàn)的數(shù)據(jù)進(jìn)行匯總,實(shí)驗(yàn)者可以直接觀察參與者反應(yīng)中的噪聲程度,并推斷他們實(shí)際瞄準(zhǔn)的位置。結(jié)果表明,人們的行為可以通過假設(shè)他們?cè)谠噲D最小化本任務(wù)中的期望損失得到良好預(yù)測——也就是說,他們會(huì)根據(jù)紅色目標(biāo)關(guān)聯(lián)的損失程度,適當(dāng)?shù)亍捌x”綠色目標(biāo)中心進(jìn)行瞄準(zhǔn)。
7.1.3 偏離最優(yōu)性
像這樣的結(jié)果對(duì)于一個(gè)貝葉斯行動(dòng)模型而言似乎很有前景,事實(shí)上,確實(shí)存在大量關(guān)于在這一通用框架內(nèi)運(yùn)作的貝葉斯運(yùn)動(dòng)控制模型的文獻(xiàn)(例如,K?rding & Wolpert, 2006; McNamee & Wolpert, 2019)。然而,另一方面,在一些極其簡單的任務(wù)中,人們的行為似乎與最優(yōu)貝葉斯反應(yīng)顯著偏離。一個(gè)特別引人注目的例子是“概率匹配”現(xiàn)象(綜述參見 Vulkan, 2000)。在一個(gè)典型任務(wù)中,每次試驗(yàn)燈光要么為綠色,要么為紅色,參與者必須猜測下一次試驗(yàn)的顏色——獎(jiǎng)勵(lì)通常是正確答案總數(shù)的總和。假設(shè)在現(xiàn)實(shí)中,綠色和紅色是由一枚有偏硬幣獨(dú)立投擲選出的,綠色的概率為 p,紅色的概率為 1?p。如果參與者能夠推斷出這一分布(或在某些變體中,還被明確告知其底層機(jī)制),那么貝葉斯選擇是直接明了的。假設(shè)參與者對(duì)下一次硬幣出現(xiàn)綠色的概率估計(jì)為 q(通常不完全等于真實(shí)的 p)。采用損失框架,我們?yōu)殄e(cuò)誤猜測分配 ?1 的損失,為正確猜測分配通常的 0 損失。那么,選擇綠色的期望損失恰好是紅色的主觀概率,即 1?q;而選擇紅色的期望損失則是綠色的主觀概率 q。鑒于目標(biāo)是最小化損失,當(dāng) 1?q < q 時(shí)(即當(dāng)綠色的主觀概率 q 大于 1/2 時(shí)),我們應(yīng)該始終選擇綠色;當(dāng) q 小于 1/2 時(shí),應(yīng)選擇紅色;若綠色與紅色的概率相等,則可任意選擇。這僅僅是以迂回方式陳述了一件看似完全顯而易見的事:如果我們認(rèn)為綠色最可能是下一個(gè)項(xiàng)目,就應(yīng)該總是選擇綠色;如果我們認(rèn)為紅色最可能,就應(yīng)該總是選擇紅色。
盡管這可能是顯而易見的策略,但在實(shí)驗(yàn)中卻令人驚訝地很少被觀察到。例如,Shanks、Tunney 和 McCarthy(2002)發(fā)現(xiàn),即使經(jīng)過數(shù)百次試驗(yàn),并且在每50次試驗(yàn)組成的區(qū)塊之后,人們都明確被告知他們表現(xiàn)如何,以及如果使用最優(yōu)策略他們會(huì)做得有多好,也只有相當(dāng)少的一部分人最終會(huì)持續(xù)選擇更有可能的選項(xiàng)。在許多實(shí)驗(yàn)中,人們的選擇反而更好地由一個(gè)簡單模型捕捉——即他們以概率 q 選擇綠色,以概率 1?q 選擇紅色:也就是說,他們的反應(yīng)“匹配”了每個(gè)結(jié)果的概率。關(guān)于概率匹配發(fā)生的確切條件及其解釋,已廣泛爭論?;仡櫸覀?cè)诘?章描述的貝葉斯推斷抽樣近似方法,有趣的是注意到一種簡單的解釋是:人們通過從底層分布中抽取樣本來選擇紅色或綠色,而不是最小化期望損失(參見,例如,Vul、Alvarez、Tenenbaum & Black, 2009)。但目前關(guān)鍵的一點(diǎn)是,盡管該貝葉斯決策問題極其簡單,人們似乎系統(tǒng)性地未能解決它。
7.2 效用與信念
到目前為止,我們一直將損失函數(shù)視為給定。但人類行為試圖在特定情境中(甚至更廣泛意義上)優(yōu)化什么(如果有的話)的問題,通常頗具挑戰(zhàn)性。只有在非常受限的情況下——例如在電子游戲中最大化得分——才存在明確且外在賦予的目標(biāo)。但我們的日常生活要求我們?cè)跊]有任何外在給定、定義清晰的目標(biāo)的情況下,選擇復(fù)雜的行動(dòng)路徑,并且許多目標(biāo)需要彼此權(quán)衡取舍。
讓我們后退一步。一般來說,決定做什么,如我們所指出的,部分取決于一個(gè)人的信念(關(guān)于外部世界,有時(shí)也包括其所包含的其他智能體的思想和可能行動(dòng));而信念的形成以及構(gòu)建這些信念所依賴的概念,一直是本書迄今為止的關(guān)注焦點(diǎn)。但決策不僅取決于一個(gè)智能體所相信的內(nèi)容,還取決于它的欲望、目標(biāo)或意圖,我們將使用籠統(tǒng)術(shù)語“效用”來指代這些內(nèi)容。大多數(shù)規(guī)范性決策理論提出了一種相當(dāng)嚴(yán)格的效用概念:即世界的每一個(gè)相關(guān)狀態(tài) Si(可能作為某人行動(dòng)的結(jié)果而產(chǎn)生),都與一個(gè)數(shù)值相關(guān)聯(lián),代表該結(jié)果對(duì)該智能體的效用 U(Si)。
這里涉及一個(gè)相當(dāng)簡化的效用概念。例如,一個(gè)智能體的效用可能并不純粹取決于其自身的福祉或?qū)崿F(xiàn)自身目標(biāo)的能力,也可能取決于他人的福祉,或達(dá)成某種純粹外在目標(biāo)。沒有假設(shè)效用必須歸約為感官愉悅或擺脫身體疼痛(盡管這種觀點(diǎn)在早期功利主義經(jīng)濟(jì)學(xué)家和政治哲學(xué)家如杰里米·邊沁、弗朗西斯·埃奇沃思和亨利·西季威克中很流行;參見,例如,Cooter & Rappoport, 1984),也可能由抽象目標(biāo)決定;也沒有假設(shè)智能體必須意識(shí)到自己的欲望,或確實(shí)具有任何形式的意識(shí)。
在實(shí)驗(yàn)室環(huán)境中,實(shí)驗(yàn)參與者的客觀目標(biāo)有時(shí)可以被外部指定:例如在游戲中的最大化得分,比如我們之前討論過的擊中綠色(并避開紅色)目標(biāo)的實(shí)驗(yàn)游戲。同樣,我們的表現(xiàn)可能基于我們能否在算術(shù)計(jì)算中給出正確答案、能否準(zhǔn)確回憶實(shí)驗(yàn)早期階段曾見過的列表中的哪些項(xiàng)目,或能否在嘈雜背景下正確判斷信號(hào)何時(shí)出現(xiàn)來評(píng)分。
在這種情況下,計(jì)算模型可以直接與效用相關(guān)聯(lián),這些效用直接捕捉任務(wù)的結(jié)構(gòu)——我們處于前一節(jié)所述的熟悉領(lǐng)域。但我們也可以在沒有外部給定目標(biāo)的情況下,在建模思維和行為方面取得進(jìn)展。
首先,讓我們注意,通常情況下,當(dāng)我們選擇一個(gè)行動(dòng)時(shí),我們并不確定該行動(dòng)會(huì)產(chǎn)生何種后果。事實(shí)上,如果每個(gè)行動(dòng)只有一個(gè)可能的結(jié)果,那么選擇哪個(gè)行動(dòng)將相當(dāng)直接:只需選擇導(dǎo)致效用最大的結(jié)果的行動(dòng)即可。標(biāo)準(zhǔn)的(雖然絕非唯一)選擇行動(dòng)的方法是力求最大化期望效用——然而,至關(guān)重要的是,這種效用并非外在給定的標(biāo)準(zhǔn),而是被假定反映智能體的目標(biāo)。因此,考慮一個(gè)正在思考某個(gè)行動(dòng) a 的智能體。如果該智能體采取行動(dòng) a,它相信每個(gè)可能的世界狀態(tài) s(該行動(dòng)可能導(dǎo)致的結(jié)果)發(fā)生的概率為 P(s|a)。那么,行動(dòng) a 的期望效用 EU(a),就是每個(gè)可能結(jié)果的效用之和,每個(gè)結(jié)果按其概率加權(quán):
最大化期望效用原則提供了一個(gè)通用的決策標(biāo)準(zhǔn),原則上適用于各種各樣的決策,并已被應(yīng)用于覓食、投資、伴侶選擇、網(wǎng)球中的擊球選擇,以及其他許多決策情境。對(duì)于你可能采取的每一個(gè)行動(dòng),只需考慮該行動(dòng)各種可能后果的概率和效用,從而計(jì)算出該行動(dòng)的期望效用,然后選擇期望效用最大的那個(gè)行動(dòng)即可。
然而,盡管這一決策公式在理論上極其通用且直接,但在實(shí)踐中卻未必容易遵循。我們將在接下來的章節(jié)中探討在構(gòu)建決策認(rèn)知模型時(shí)所出現(xiàn)的一些復(fù)雜性。第一個(gè)復(fù)雜之處在于:智能體所追求的、可被視為最大化目標(biāo)的那個(gè)有意義的效用度量,其存在本身并不能被視為理所當(dāng)然。我們接下來將轉(zhuǎn)向探討這一問題。
7.3 何時(shí)可以定義一個(gè)效用尺度?
貝葉斯決策方法認(rèn)為,行為可以被理解為(哪怕是近似地)最大化期望效用。當(dāng)然,這種方法只有在“效用”這一概念被明確定義的情況下才能展開。如前所述,在心理學(xué)實(shí)驗(yàn)中,被試的目標(biāo)通常被直接指定——例如,最大化得分?jǐn)?shù)量,或盡可能減少錯(cuò)誤次數(shù)。同樣,在生物學(xué)中的演化論證中(例如關(guān)于性別比例、擇偶或育兒策略的討論),某種形式的達(dá)爾文“適應(yīng)度”(fitness)——或許是在基因?qū)用娑钦麄€(gè)生物體層面定義的——可作為一個(gè)有用的、外部給定的目標(biāo)(Dawkins, 1978)。
但一般來說,人類行為所追求的目標(biāo)并非預(yù)先指定的。事實(shí)上,人們通常擁有大量多樣的目標(biāo),這些目標(biāo)似乎在爭奪其注意力。
因此,一名司機(jī)可能希望快速到達(dá)、安全駕駛、避免交通違規(guī)、安排會(huì)議,并向同事發(fā)送緊急消息。同時(shí)滿足這些目標(biāo)可能很困難:諸如速度與安全等目標(biāo)可能發(fā)生沖突,需要以某種方式相互權(quán)衡。
為了應(yīng)用期望效用視角,我們需要能夠?qū)⒏鞣N約束和目標(biāo)整合為一個(gè)單一的總體度量(一個(gè)效用尺度),反映每個(gè)目標(biāo)的相對(duì)重要性。如果可以構(gòu)建這樣一個(gè)總體效用尺度,那么從原則上講,司機(jī)的問題就變得清晰了:最佳行動(dòng)序列是能帶來最大期望效用的那個(gè)序列。但這樣的效用尺度何時(shí)才能被定義?也就是說,需要對(duì)一個(gè)人的選擇施加哪些理性約束,才有可能用期望效用術(shù)語來解釋其行為(參見第2章,關(guān)于理性一致性約束的更廣泛討論)?
解決這一問題的一種天真方法是直接構(gòu)造一個(gè)效用函數(shù):例如,我們或許試圖在連續(xù)尺度上衡量每個(gè)目標(biāo),然后取它們的加權(quán)和作為我們的總體效用函數(shù)。但當(dāng)然,這種方法不太可能成功捕捉智能體的偏好。例如,尚不清楚如何在可比較的尺度上衡量像速度、安全性和交通違規(guī)概率這樣性質(zhì)迥異的目標(biāo),也不清楚它們應(yīng)如何組合,以及每個(gè)目標(biāo)應(yīng)賦予多大權(quán)重。然而幸運(yùn)的是,存在一些通用結(jié)果,僅通過觀察智能體偏好的結(jié)構(gòu),即可確立效用尺度得以定義的條件。
7.3.1 從偏好到效用
假設(shè)暫時(shí)忽略風(fēng)險(xiǎn)與不確定性問題,只考慮智能體在確定性結(jié)果之間的選擇,比如在已知食物、活動(dòng)或消費(fèi)品之間進(jìn)行選擇。一個(gè)理想的理性決策者可能被認(rèn)為遵循若干自然規(guī)則。例如,假設(shè)決策者可以在任意兩個(gè)結(jié)果 A 和 B 之間進(jìn)行比較,要么偏好 B 勝于 A(我們記作 A ≤ B),要么偏好 A 勝于 B(B ≤ A),或者對(duì)二者無差異。
進(jìn)一步假設(shè)決策者的偏好具有傳遞性:如果 A ≤ B 且 B ≤ C,則似乎合理地推斷 A ≤ C。這些“完備性”和“傳遞性”假設(shè)足以保證存在一個(gè)效用函數(shù) U,該函數(shù)為結(jié)果 A、B 分配數(shù)值,使得當(dāng)且僅當(dāng) U(A) < U(B) 時(shí),A ≤ B 成立;而智能體在 X 和 Y 之間無差異,當(dāng)且僅當(dāng) U(X) = U(Y)。
這個(gè)效用函數(shù)編碼了結(jié)果間的排序,從最偏好到最不偏好,但它并未捕捉這些結(jié)果間偏好的“強(qiáng)度”。只要順序保持不變,任何對(duì)這些數(shù)值的拉伸或壓縮,在選擇上都同樣有效——例如,當(dāng)我們決定是選蘋果還是橙子時(shí)。唯一重要的是哪些項(xiàng)目具有更高(或更低)的效用值。這種僅依賴于順序的依賴關(guān)系體現(xiàn)在術(shù)語“序數(shù)效用”中——事實(shí)證明,最小化的序數(shù)效用概念為構(gòu)建微觀經(jīng)濟(jì)學(xué)的許多部分提供了充分基礎(chǔ),例如市場定價(jià)中的供需理論(例如,Kreps, 1990)。
然而,從認(rèn)知科學(xué)的角度來看,需要一種更豐富的效用概念。本書的主題是認(rèn)知涉及處理一個(gè)不確定的世界,而概率理論提供了一個(gè)理解如何實(shí)現(xiàn)這一點(diǎn)的框架。相應(yīng)地,我們需要一種能夠反映“我們的行動(dòng)往往導(dǎo)致多種可能結(jié)果”這一事實(shí)的決策理論。例如,考慮一個(gè)簡單的動(dòng)作,如拿起一杯咖啡:一方面,我們不想在這種簡單動(dòng)作上花費(fèi)過多的時(shí)間和精力;另一方面,當(dāng)我們動(dòng)作越匆忙,灑出咖啡的概率就會(huì)增加;在這種情況下,如同許多其他行動(dòng)一樣,我們必須在努力程度與成功概率之間找到某種平衡。而要使這種權(quán)衡合理化,我們需要更多地了解我們對(duì)不同結(jié)果的偏好“程度”。
為簡化起見,考慮行動(dòng)僅對(duì)應(yīng)于在貨幣賭博之間進(jìn)行選擇的情況(例如,設(shè)想我們的決策者正在賭場)。例如,一個(gè)人可以選擇確定獲得50美元,或有0.5的概率獲得0美元或100美元。若僅有一個(gè)序數(shù)效用尺度,我們只能說 U($100) > U($50) > U($0),前提是接受“錢越多越好”的最小假設(shè)。但要判斷我們的決策者是否應(yīng)該冒險(xiǎn)賭博還是保守行事,我們需要知道 $100 的效用比 $50 高多少,相對(duì)于 $50 的效用比 $0 高多少。希望購買一張昂貴音樂會(huì)的最后時(shí)刻門票的決策者可能非常傾向于選擇100美元而非50美元或0美元,因?yàn)橹挥羞@個(gè)金額足夠買票;這樣的決策者可能會(huì)選擇冒險(xiǎn)。而另一些決策者,只需5美元就能買披薩,可能恰恰相反,尤其不喜歡0美元的結(jié)果(可能導(dǎo)致他們挨餓)。簡言之,所需的是一個(gè)“基數(shù)效用”尺度:一個(gè)為每個(gè)狀態(tài)分配有意義數(shù)值的尺度,特別是,各狀態(tài)之間的效用差異可以被量化。
7.3.2 推導(dǎo)實(shí)數(shù)值效用
事實(shí)證明,我們將之前的完備性和傳遞性假設(shè)應(yīng)用于賭博(而非確定性結(jié)果)時(shí),再結(jié)合相當(dāng)溫和的技術(shù)性假設(shè),意味著這些賭博的結(jié)果可以與實(shí)數(shù)值效用相關(guān)聯(lián),從而使得人們對(duì)這些結(jié)果所構(gòu)成彩票的偏好可以通過這些彩票的期望效用來捕捉。
這樣的尺度,至少在原則上,可以從偏好中構(gòu)建出來——前提是我們?cè)试S偏好范圍涵蓋賭博,而不僅僅是固定的確定結(jié)果。考慮以下程序:首先,選出當(dāng)前考慮范圍內(nèi)最差的可能結(jié)果 w 和最好的結(jié)果 b,并任意為這兩個(gè)結(jié)果賦予數(shù)值效用 U(w) 和 U(b),當(dāng)然,U(w) < U(b)。為具體起見且不失一般性,我們?cè)O(shè) U(w) = 0,U(b) = 1,這樣所有被考慮狀態(tài)的效用值都將落在 [0, 1] 區(qū)間內(nèi)。然后,選取任一其他結(jié)果 si,該結(jié)果優(yōu)于 w 但劣于 b。根據(jù)任何相關(guān)選項(xiàng)均可進(jìn)行有意義比較的假設(shè)(正如序數(shù)效用情形一樣),我們可以詢問:si 是否比一個(gè)以概率 pi 獲得最好結(jié)果 b、以概率 1?pi 獲得最差結(jié)果 w 的賭博更受偏好?如果 pi 足夠高,該賭博將被偏好;如果 pi 足夠低,則會(huì)被拒絕。對(duì)于每個(gè) si,必然存在某個(gè)值 pi,使得天平達(dá)到平衡——即決策者對(duì)確定獲得結(jié)果 si 與面對(duì)一個(gè)以概率 pi 得到 b、以概率 1?pi 得到 w 的賭博無差異(我們將略去使這一推理嚴(yán)謹(jǐn)化所需的假設(shè)討論,以及這些假設(shè)是否合理的問題(Neumann & Morgenstern, 1944; Edwards, 1954; Kreps, 1988))。
如果我們對(duì)每個(gè)結(jié)果 si 都遵循此程序,那么相應(yīng)的概率 pi 就提供了衡量這些結(jié)果優(yōu)劣程度的實(shí)數(shù)值度量。最佳狀態(tài) b 根據(jù)假設(shè)其值為 1(b 當(dāng)然等價(jià)于一個(gè)以概率 1 獲得 b 的賭博);最差狀態(tài) w 的值為 0(因?yàn)樵摖顟B(tài)等價(jià)于一個(gè)以概率 0 獲得 b、以概率 1 獲得 w 的賭博)。于是,與結(jié)果 si 相關(guān)聯(lián)的概率 pi 值越高,其效用就越高。實(shí)際上,這個(gè)值可以充當(dāng) si 的基數(shù)效用;它將使我們能夠確定決策者對(duì)結(jié)果及結(jié)果賭博的偏好。
從這個(gè)角度出發(fā),我們?cè)撊绾螢橐粋€(gè)任意賭博 g 分配效用呢?該賭博以概率 pg 產(chǎn)生結(jié)果 s1,以概率 1?pg 產(chǎn)生結(jié)果 s2?首先,我們將每個(gè)結(jié)果 s1 和 s2 與涉及最好和最差狀態(tài) b 和 w 的等價(jià)子賭博相關(guān)聯(lián),分別對(duì)應(yīng)概率 p1 和 p2。我們稱這些賭博為“最優(yōu)/最差混合”。那么,決策者應(yīng)在我們的原始賭博 g 與一個(gè)以概率 pg 面對(duì)參數(shù)為 p1 的最優(yōu)/最差混合、以概率 1?pg 面對(duì)參數(shù)為 p2 的最優(yōu)/最差混合之間保持無差異(參見圖 7.1)。然而,假設(shè)賭博的好壞僅取決于其結(jié)果及其概率,那么我們可以將這個(gè)兩階段賭博壓縮成一個(gè)單階段賭博。具體而言,在兩階段賭博中,有兩種獨(dú)立方式可以獲得最佳可能結(jié)果 b:以概率 pg,我們面對(duì)參數(shù)為 p1 的子賭博并獲勝——這是一個(gè)概率為 pgp1 的序列;以概率 1?pg,我們面對(duì)參數(shù)為 p2 的子賭博并獲勝——這是一個(gè)概率為 (1?pg)p2 的序列。因此,獲得最佳狀態(tài) b 的總概率是 pgp1 + (1?pg)p2;否則,決策者將面臨最差結(jié)果 w。于是,我們得到一個(gè)新的最優(yōu)/最差混合,由最佳選項(xiàng)的概率 pgp1 + (1?pg)p2 參數(shù)化(否則,結(jié)果當(dāng)然是最差選項(xiàng))。這個(gè)概率可被視為衡量復(fù)合賭博優(yōu)劣程度的一個(gè)指標(biāo)——獲得最佳而非最差結(jié)果的概率越大越好。
將此推廣至具有多個(gè)結(jié)果的賭博,遵循相同的模式。一個(gè)有 n 個(gè)可能結(jié)果 s1, ..., sn 的賭博,其中第 i 個(gè)結(jié)果的概率為 P(si),應(yīng)等價(jià)于一個(gè)最優(yōu)/最差混合,其概率為 Σi P(si)pi,其中 pi 是最優(yōu)/最差混合的參數(shù)化,決策者視之等同于結(jié)果 si。
為了說明最優(yōu)/最差混合中“獲勝”概率可用作效用的度量,讓我們粗略地將這些概率重寫為效用。也就是說,讓我們用 ui 替代 pi,于是賭博價(jià)值的公式不再為 Σi P(si)pi,而是 Σi P(si)ui。而這當(dāng)然就是熟悉的期望效用公式:每個(gè)可能結(jié)果的效用,按其概率加權(quán)。
到目前為止,我們將基數(shù)效用等同于一個(gè)特定概率——在最優(yōu)/最差混合中獲勝的概率——因此這些效用必然僅定義在 [0, 1] 區(qū)間上。但這種限制并非必要。若所有效用乘以任意正數(shù),或向所有效用加上或減去任意常數(shù),所有偏好都不會(huì)改變。也就是說,基數(shù)效用僅在正線性變換的意義下被定義——效用可以用實(shí)數(shù)軸上的任何部分來表示。用于表示效用的數(shù)字的絕對(duì)大小,以及這些數(shù)字是正還是負(fù),都不重要;重要的是不同狀態(tài)效用之間的相對(duì)差異。
事實(shí)上,可以提供更普遍、更復(fù)雜的此類論證。給定關(guān)于我們假想決策者的偏好所提出的令人驚訝地最小化的相容性標(biāo)準(zhǔn)(盡管這些標(biāo)準(zhǔn)在現(xiàn)實(shí)中可能被人類和動(dòng)物決策者違反),可以證明存在一組效用和主觀概率,使得決策者在簡單狀態(tài)或賭博之間的偏好完全遵循最大期望效用原則(例如,Savage, 1972)。具體的效用和主觀概率會(huì)因人而異——即使完全理性的智能體仍可能擁有不同的信念和偏好,從而做出截然不同的選擇。理性僅僅確保這些選擇在個(gè)體內(nèi)部是一致的。
7.3.3 顯露偏好與認(rèn)知科學(xué)
前一節(jié)所呈現(xiàn)的結(jié)果從方法論角度來看尤為有趣。它表明,只要掌握了足夠多關(guān)于理性智能體偏好的信息,我們就應(yīng)該能夠推斷出該智能體分配給不同結(jié)果的效用和概率。在經(jīng)濟(jì)學(xué)中,這一觀察構(gòu)成了“顯露偏好”方法的基礎(chǔ)(進(jìn)而擴(kuò)展至概率;Samuelson, 1938; Savage, 1972)——即認(rèn)為概率和效用是通過智能體的選擇行為揭示出來的,而非直接可測量的心理或神經(jīng)屬性。從這一角度看,選擇行為被視為首要因素,而概率和效用僅僅是預(yù)測此類行為的便利理論變量。顯露偏好觀點(diǎn)被認(rèn)為在經(jīng)濟(jì)學(xué)(要求滿足最小一致性假設(shè),以便推斷出便利的效用和概率尺度)與認(rèn)知科學(xué)之間提供了關(guān)鍵區(qū)分。粗略地說,從這一觀點(diǎn)來看,經(jīng)濟(jì)學(xué)只需關(guān)注人們“選擇”什么,而非他們“思考”什么。
這種顯露偏好式的論證被理解為暗示:在相當(dāng)溫和的一致性及其他條件(我們?cè)诒居懻撝幸崖赃^)下,必須存在一種效用概念,使得理性決策者總是偏好具有最高期望效用的行動(dòng)。正如我們?cè)诖颂幹赋龅模⑦@一結(jié)果所需的條件未必總是適用于真實(shí)的人類或動(dòng)物決策者。然而,無論怎樣,“選擇應(yīng)由最大化期望效用決定”的原則,當(dāng)一個(gè)合適的效用概念被明確定義時(shí),已成為跨學(xué)科理性決策模型中的黃金標(biāo)準(zhǔn),涵蓋經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)、行為生態(tài)學(xué)、人工智能(AI)以及認(rèn)知科學(xué)。
我們應(yīng)如何看待此類解釋?尤其在認(rèn)知科學(xué)中,我們應(yīng)如何看待理性解釋?采用傳統(tǒng)經(jīng)濟(jì)學(xué)的立場,一種可能性是:我們將本書概述的貝葉斯分析類型視為僅聲稱心智(或大腦)的行為表現(xiàn)得如同它在進(jìn)行概率計(jì)算:概率被認(rèn)為是理論家的建構(gòu),而非對(duì)內(nèi)部心理或神經(jīng)狀態(tài)的描述。
雖然這確實(shí)可能是某些貝葉斯模型的恰當(dāng)解釋,但也有可能概率(或許還有效用)是在心理層面被表征的,而行為不僅僅是“仿佛”大腦在執(zhí)行貝葉斯計(jì)算并計(jì)算最大期望效用,而是這種計(jì)算的真實(shí)產(chǎn)物。從這一視角看,大腦之所以能表現(xiàn)得像一個(gè)概率推斷和期望效用最大化引擎,恰恰是因?yàn)樵谀承╊I(lǐng)域至少它本身就是一個(gè)概率推斷和期望效用最大化引擎。而且,正如我們?cè)诘?章所看到的,概率推斷無需通過概率理論數(shù)學(xué)公式的符號(hào)操作精確執(zhí)行,而是可以通過近似方法(如抽樣)實(shí)現(xiàn)。在下一節(jié)中,我們將探討如何通過簡單的心理和神經(jīng)機(jī)制來實(shí)現(xiàn)積累證據(jù)以做出簡單決策的問題。
7.4 證據(jù)的累積
讓我們考慮一個(gè)具體的例子,說明我們?nèi)绾慰赡艹健胺路稹保╝s if)的觀點(diǎn)。如前所述,也許最簡單的決策類型之一——也是心理學(xué)家廣泛研究的一種——是信號(hào)檢測。一個(gè)人被指示,在每次試驗(yàn)中,如果出現(xiàn)短暫閃光,則回答“是”,否則回答“否”(Green & Swets, 1966)。最優(yōu)策略是在后驗(yàn)概率超過某個(gè)由不同結(jié)果所造成的損失決定的閾值時(shí),才說“是”。我們也可以在第7.3節(jié)引入的期望效用框架內(nèi)推導(dǎo)出這一最優(yōu)策略。
例如,假設(shè)參與者每次正確檢測到信號(hào)可獲得5美分獎(jiǎng)勵(lì),在出現(xiàn)虛報(bào)時(shí)損失50美分,其他情況則無所得(即0美分)。在此機(jī)制下,參與者很可能表現(xiàn)得極為猶豫。假設(shè)在某次特定試驗(yàn)中,參與者估計(jì)信號(hào)存在的概率為 q。那么,他們選擇說“是”的期望效用為 qU(5¢) + (1?q)U(?50¢)。相比之下,選擇說“否”的期望效用為 U(0¢);為方便起見,我們可以設(shè) U(0¢) = 0(這在不失一般性的情況下是可行的,因?yàn)樾в贸叨葍H在正線性變換的意義下被定義)。因此,當(dāng) qU(5¢) + (1?q)U(?50¢) > 0 時(shí),選擇“是”選項(xiàng)會(huì)帶來嚴(yán)格更高的期望效用,前提是 U(?50¢) 的絕對(duì)值遠(yuǎn)大于 U(5¢) 的絕對(duì)值(大致來說,損失50美分比獲得5美分要糟糕得多),此時(shí)該不等式僅在 q 較高時(shí)才成立。在效用是金錢的線性函數(shù)這一特殊情況下,損失50美分恰好比獲得5美分糟糕10倍,簡單代數(shù)運(yùn)算表明,“是”反應(yīng)只有在 q > 10/11 時(shí)才具有嚴(yán)格更高的期望效用。請(qǐng)注意,我們之前在最小化損失函數(shù)時(shí)已見過這種類型的解釋——但在這里,當(dāng)然,我們將問題視為最大化效用。然而,正如我們已經(jīng)看到的,實(shí)際上并無區(qū)別:最大化效用與最小化等于該效用負(fù)值的損失函數(shù)完全相同。
信號(hào)檢測理論已被證明是一種高度有效的描述模型,適用于廣泛的心理物理任務(wù)。傳統(tǒng)上,它從經(jīng)濟(jì)學(xué)中盛行的“顯露偏好”立場出發(fā)進(jìn)行解讀(即,僅假設(shè)實(shí)驗(yàn)參與者的實(shí)際行為在描述上符合該理論)。但事實(shí)證明,信號(hào)檢測模型也可自然映射到一種簡單的計(jì)算機(jī)制——擴(kuò)散模型——該模型能夠捕捉隨著時(shí)間推移,支持某一決策而非另一決策的傾向如何逐漸積累(Ratcliff, 1978; Usher & McClelland, 2001; Bogacz, Brown, Moehlis, Holmes, & Cohen, 2006; Brown & Heathcote, 2008; Ratcliff, Smith, Brown, & McKoon, 2016; Forstmann, Ratcliff, & Wagenmakers, 2016)。
從貝葉斯的角度來看,這些模型可以被視為在累積支持某一決策相對(duì)于另一決策的相對(duì)證據(jù)強(qiáng)度(例如,支持“信號(hào)存在”或“信號(hào)不存在”的證據(jù))?;蛘?,以一個(gè)已成為重要實(shí)驗(yàn)任務(wù)的例子為例(Newsome & Pare, 1988; Britten, Shadlen, Newsome, & Movshon, 1992; Mulder, Wagenmakers, Ratcliff, Boekel, & Forstmann, 2012),假設(shè)我們必須判斷電腦屏幕上短暫呈現(xiàn)的一個(gè)嘈雜隨機(jī)點(diǎn)陣圖案是整體向左還是向右流動(dòng)。
隨著處理的數(shù)據(jù)越來越多,總和將逐漸向證據(jù)最支持的假設(shè)方向漂移。11
當(dāng)隨機(jī)游走觸及一個(gè)預(yù)定義的邊界——該邊界表示觸發(fā)決策所需的證據(jù)強(qiáng)度——時(shí),便做出選擇。這些邊界的定位將反映決策中涉及的效用。在標(biāo)準(zhǔn)的信號(hào)檢測實(shí)驗(yàn)中,這些效用將由擊中、漏報(bào)和虛報(bào)所對(duì)應(yīng)的分?jǐn)?shù)或金錢回報(bào)的不同數(shù)量塑造。當(dāng)然,對(duì)于現(xiàn)實(shí)世界的決策,也會(huì)出現(xiàn)同樣的考慮。例如,如果一個(gè)人或動(dòng)物在覓食時(shí)必須決定一種真菌是蘑菇還是毒蕈,那么需要相當(dāng)多的證據(jù)才能將其視為可食用的蘑菇;而哪怕只有一點(diǎn)點(diǎn)懷疑它可能是毒蕈(即有毒),就足以讓這種真菌被棄置一旁。決策邊界位置的這種不對(duì)稱性,捕捉了這樣一個(gè)事實(shí):吃蘑菇所帶來的效用增益與中毒所導(dǎo)致的效用損失相比是微不足道的(當(dāng)然,在極端情況下,比如瀕臨饑餓時(shí),危險(xiǎn)食物的期望效用甚至可能大于完全不吃任何食物)。
無論是否從貝葉斯角度解釋,擴(kuò)散模型在心理學(xué)的許多領(lǐng)域都被廣泛使用,并且在定量上取得了成功,用于建模感知、分類、運(yùn)動(dòng)啟動(dòng)和識(shí)別記憶等多個(gè)方面(例如,Hanes & Schall, 1996; Lamberts, 2000; Ratcliff, 1978; Smith & Ratcliff, 2004)。這些模型的一個(gè)吸引力在于,它們能對(duì)反應(yīng)時(shí)間分布、速度-準(zhǔn)確性權(quán)衡、報(bào)酬變化敏感度以及信心判斷提供細(xì)致入微的預(yù)測(Pleskac & Busemeyer, 2010; Berg et al., 2016)(參見圖7.2右側(cè)面板,了解反應(yīng)時(shí)間分布是如何生成的)。請(qǐng)注意,如前所述,此類模型僅限于在成對(duì)選項(xiàng)之間做決策;已有多種推廣被提出(例如,Usher & McClelland, 2001)。
大腦是否通過實(shí)現(xiàn)此類擴(kuò)散模型來累積感覺證據(jù)并做出簡單決策,從而為貝葉斯計(jì)算的神經(jīng)實(shí)現(xiàn)提供證據(jù)?一項(xiàng)涉及猴子神經(jīng)記錄的重要研究線表明這可能是真的(Gold & Shadlen, 2007)。在一個(gè)典型實(shí)驗(yàn)中,猴子被呈現(xiàn)如上所述的隨機(jī)點(diǎn)運(yùn)動(dòng)檢測任務(wù);并且如果它在每次試驗(yàn)中朝流動(dòng)方向移動(dòng)眼睛,則會(huì)獲得獎(jiǎng)勵(lì)。結(jié)果發(fā)現(xiàn),猴子大腦中某些神經(jīng)元群體(位于外側(cè)頂內(nèi)皮層)的放電率似乎緊密追蹤著證據(jù)的權(quán)重(例如,Gold & Shadlen, 2002),而不是,例如,是否即將做出決策或做出哪一個(gè)決策(盡管這類累積機(jī)制與選擇之間的因果關(guān)系已被質(zhì)疑;Katz, Yates, Pillow, & Huk, 2016)。更廣泛地說,一個(gè)將神經(jīng)活動(dòng)映射到感知和運(yùn)動(dòng)任務(wù)中證據(jù)累積與決策機(jī)制的研究子領(lǐng)域,作為“大腦正在執(zhí)行近似貝葉斯計(jì)算”這一總體觀點(diǎn)的一部分,已取得了富有前景的成果(例如,De Lafuente, Jazayeri, & Shadlen, 2015; Knill & Pouget, 2004; Pouget, Beck, Ma, & Latham, 2013)。
7.5 序貫決策
簡單的決策,例如判斷信號(hào)是否存在,或判斷隨機(jī)點(diǎn)圖案是向左還是向右流動(dòng),是實(shí)驗(yàn)和建模的有吸引力的起點(diǎn)。但當(dāng)然,大腦面臨的決策在各種維度上具有大得多的復(fù)雜性。我們通常必須在本身高度復(fù)雜的選項(xiàng)之間進(jìn)行選擇(例如,選擇一棟房子、一件藝術(shù)品、一首音樂或一位可能的朋友),評(píng)估感官和語言證據(jù)的過程也可能任意復(fù)雜(例如,在識(shí)別、理解及評(píng)價(jià)一個(gè)物體、場景、藝術(shù)品或人時(shí))。然而,在這里,我們關(guān)注的是決策復(fù)雜性的一個(gè)特定且研究充分的方面:如何選擇一系列行動(dòng),或制定如何行動(dòng)的策略。這一點(diǎn)至關(guān)重要,因?yàn)閱蝹€(gè)行動(dòng)通常除了在后續(xù)行動(dòng)的背景下之外,并沒有明確定義的價(jià)值?,F(xiàn)在儲(chǔ)蓄而非花錢可能有利——但如果決策者隨后將積蓄揮霍在賭博上則不然。同樣,松鼠為冬天儲(chǔ)存食物只有在它日后能夠取回時(shí)才有益;為考試學(xué)習(xí)只有在你打算參加考試時(shí)才有意義;伸手去拿一杯水只有在你打算抓住它時(shí)才有意義,等等。一般來說,我們的行動(dòng)——無論是人生規(guī)劃還是個(gè)體的運(yùn)動(dòng)行為——只有當(dāng)各個(gè)組成部分行動(dòng)屬于一個(gè)更大、連貫的框架時(shí)才有意義。這在學(xué)習(xí)過程中造成了特殊問題,即哪些行動(dòng)應(yīng)被采取,因?yàn)橹悄荏w所接收的獎(jiǎng)勵(lì)或懲罰流取決于許多行動(dòng)的組合,而且通常很難確定應(yīng)修改哪個(gè)單獨(dú)的行動(dòng)以改進(jìn)未來的決策。接下來,我們將探討一些有趣且特殊的案例,這些案例在機(jī)器學(xué)習(xí)以及認(rèn)知和腦科學(xué)領(lǐng)域都受到了相當(dāng)大的關(guān)注。我們首先在摘要中概述關(guān)鍵的數(shù)學(xué)思想——之后,我們將討論它們?cè)谡J(rèn)知和行為模型中的多種應(yīng)用方式。
7.5.1 序貫決策問題
與采取行動(dòng)序列相關(guān)的問題在規(guī)劃和強(qiáng)化學(xué)習(xí)領(lǐng)域的文獻(xiàn)中得到了最廣泛的研究。序貫決策的基本模型是離散馬爾可夫決策過程(MDP)(Puterman, 1994),它假設(shè)存在一個(gè)環(huán)境的離散狀態(tài)集合 S,一個(gè)智能體可以在該環(huán)境中采取的離散動(dòng)作集合 A;一個(gè)轉(zhuǎn)移函數(shù),用于定義給定先前狀態(tài)和動(dòng)作后下一狀態(tài)的分布 T(s, a, s′) = p(st+1 = s′ | st = s, at = a);以及一個(gè)單步獎(jiǎng)勵(lì)函數(shù),將狀態(tài)-動(dòng)作組合映射到正或負(fù)實(shí)數(shù) R: S × A → ?。因此,在一個(gè)簡單的紙牌游戲中,環(huán)境的狀態(tài)可能只是牌在各玩家之間的分布;智能體的動(dòng)作可能是再抽一張牌(twist)或不再抽牌(stick);轉(zhuǎn)移函數(shù)將決定新牌局的狀態(tài)(這取決于從牌堆中抽出哪張牌);而獎(jiǎng)勵(lì)函數(shù)可能是某人手牌所代表的分?jǐn)?shù)總和(可能如龐托恩游戲中那樣,如果總分超過某個(gè)閾值,則得零分)。因此,玩家面臨的挑戰(zhàn)是決定何時(shí)停止抽牌,以最大化可能的得分結(jié)果。
在MDP的背景下,智能體的行為被概念化為一種刺激-動(dòng)作映射或策略,形式化為一個(gè)將狀態(tài)映射到動(dòng)作的函數(shù) π: S → A。因此,在紙牌游戲中,一個(gè)策略會(huì)為每種牌的分布指定應(yīng)采取的動(dòng)作(例如,動(dòng)作可能包括從桌上拿一張牌、扔掉一張牌、什么都不做等,具體取決于正在玩的游戲)。12
序貫決策中出現(xiàn)的第一個(gè)問題是預(yù)測問題(也稱為策略評(píng)估):給定一個(gè)策略和一個(gè)初始狀態(tài),長期遵循該策略能獲得多少獎(jiǎng)勵(lì)?具體而言,假設(shè)我們從初始狀態(tài) s? 開始,反復(fù)根據(jù)策略 at = π(st) 采取行動(dòng),計(jì)算獎(jiǎng)勵(lì) rt = R(st, at),并從轉(zhuǎn)移函數(shù)中采樣一個(gè)新的狀態(tài) st+1 ~ T(st, at, ·)。這生成了一條軌跡或展開路徑 ?s?, a?, r?, s?, a?, r?, ...?。這樣的軌跡會(huì)產(chǎn)生多少長期獎(jiǎng)勵(lì)?雖然對(duì)“長期獎(jiǎng)勵(lì)”由什么構(gòu)成有不同定義方式,但一種具有優(yōu)良數(shù)學(xué)性質(zhì)的標(biāo)準(zhǔn)方法是使用與某一狀態(tài)相關(guān)聯(lián)的期望累積折扣無限獎(jiǎng)勵(lì)和(即價(jià)值),其表達(dá)式為:
值得強(qiáng)調(diào)的是,MDP 模型中獎(jiǎng)勵(lì)(reward)與價(jià)值(value)之間的區(qū)分,以一種重要且與認(rèn)知相關(guān)的方式豐富了標(biāo)準(zhǔn)的期望效用概念。具體而言,獎(jiǎng)勵(lì)函數(shù)刻畫了決策者如何為世界狀態(tài)賦予內(nèi)在效用(intrinsic utility),例如饑餓動(dòng)物眼中的食物1?。另一方面,價(jià)值函數(shù)則對(duì)應(yīng)于一種由獎(jiǎng)勵(lì)、環(huán)境以及未來行為共同衍生出的效用。正如我們將在第 7.5.4 節(jié)進(jìn)一步討論的那樣,這使得 MDP 模型在建模序貫決策情境中的學(xué)習(xí)與計(jì)算方面尤為有用。
序貫決策中出現(xiàn)的第二個(gè)問題是最優(yōu)控制(optimal control,也稱為策略優(yōu)化,policy optimization):給定一個(gè) MDP,什么樣的策略能夠最大化價(jià)值?找到具有最大價(jià)值函數(shù)的策略,通常就是所謂“求解”一個(gè) MDP 的含義。然而,這引出了一個(gè)新的問題:既然策略和價(jià)值函數(shù)都是定義在狀態(tài)上的函數(shù),那么我們所說的“最大”函數(shù)究竟指什么?是指在某些特定狀態(tài)上具有最高價(jià)值?任意狀態(tài)?還是所有狀態(tài)?幸運(yùn)的是,無限折扣 MDP 具有一個(gè)吸引人的數(shù)學(xué)性質(zhì):存在一個(gè)唯一的最優(yōu)價(jià)值函數(shù),它在所有狀態(tài)上都具有最高價(jià)值(盡管最優(yōu)策略可能不唯一,因?yàn)椴煌瑒?dòng)作的價(jià)值可能相等)。
此外,這個(gè)最優(yōu)價(jià)值函數(shù)也可以簡潔地表示為一組遞歸的貝爾曼最優(yōu)性方程(Bellman optimality equations):
這里的直覺是:一個(gè)狀態(tài)的價(jià)值,取決于我們選擇最佳動(dòng)作所能實(shí)現(xiàn)的價(jià)值——而該動(dòng)作會(huì)產(chǎn)生某種即時(shí)獎(jiǎng)勵(lì),并根據(jù)概率性的轉(zhuǎn)移函數(shù)將我們帶入一個(gè)新的狀態(tài),而這個(gè)新狀態(tài)本身也具有其自身的價(jià)值。因此,我們可以遞歸地將當(dāng)前狀態(tài)與未來狀態(tài)的價(jià)值聯(lián)系起來。
貝爾曼最優(yōu)性方程表達(dá)的是狀態(tài)的價(jià)值,但我們通常也對(duì)另一個(gè)密切相關(guān)的問題感興趣:即在某個(gè)特定狀態(tài)下采取某個(gè)動(dòng)作的價(jià)值(假設(shè)從此以后我們都采取最優(yōu)行動(dòng))。這一量通常被稱為 Q 值(“Q” 表示 “quality”,即“質(zhì)量”),其對(duì)應(yīng)于:
一旦我們掌握了 Q 值(或某種能從 R、T 和 V* 快速計(jì)算它們的方法),任何在每個(gè)階段都選擇具有最高(或并列最高)Q 值動(dòng)作的貪婪策略,就是一個(gè)最優(yōu)策略:
總而言之,馬爾可夫決策過程(MDP)提供了一種對(duì)基本序貫決策任務(wù)進(jìn)行建模的方法,而對(duì)長期獎(jiǎng)勵(lì)或價(jià)值進(jìn)行建模的一種標(biāo)準(zhǔn)方法是期望的、累積的、帶折扣的無限和模型。該模型使我們能夠簡潔地定義兩個(gè)計(jì)算問題:預(yù)測(prediction),即在不同狀態(tài)下評(píng)估一個(gè)策略;以及最優(yōu)控制(optimal control),即尋找一個(gè)能最大化價(jià)值的策略。當(dāng)然,擁有貝爾曼方程是一個(gè)良好的開端——但我們實(shí)際上需要以高效的方式求解這些方程,才能評(píng)估策略并確定哪個(gè)策略是最優(yōu)的。在接下來的章節(jié)中,我們將討論來自規(guī)劃(planning)和強(qiáng)化學(xué)習(xí)(reinforcement learning)領(lǐng)域的算法,這些算法在不同的初始假設(shè)下能夠解決這些問題。
7.5.2 已知模型下的預(yù)測與控制
在已知獎(jiǎng)勵(lì)函數(shù) R(s, a) 和轉(zhuǎn)移模型 T(s, a, s′) 的前提下,存在若干用于預(yù)測和控制的算法。在已知獎(jiǎng)勵(lì)和轉(zhuǎn)移模型的情況下進(jìn)行控制,通常被稱為“規(guī)劃”(planning)。
一大類序貫決策算法基于動(dòng)態(tài)規(guī)劃(dynamic programming)。在動(dòng)態(tài)規(guī)劃中,我們假設(shè)可以訪問完整的狀態(tài)空間,并通過向后歸納法計(jì)算價(jià)值函數(shù),即反復(fù)將未來狀態(tài)的價(jià)值回推到潛在的前驅(qū)狀態(tài),直到所有狀態(tài)的價(jià)值收斂為止。具體而言,從一個(gè)初始價(jià)值函數(shù) V? 開始,我們根據(jù)第 k 個(gè)價(jià)值函數(shù)(應(yīng)用貝爾曼最優(yōu)性方程)計(jì)算第 k+1 個(gè)價(jià)值函數(shù)。在策略評(píng)估的情形下,這是:
請(qǐng)注意,當(dāng)計(jì)算最優(yōu)價(jià)值函數(shù)時(shí),值迭代并不要求我們顯式地表示策略。
動(dòng)態(tài)規(guī)劃和值迭代構(gòu)成了許多其他序貫決策算法的理論基礎(chǔ),包括時(shí)序差分學(xué)習(xí)算法(在7.5.3節(jié)中討論)。此外,值迭代與啟發(fā)式搜索算法之間也存在聯(lián)系——當(dāng)獎(jiǎng)勵(lì)函數(shù) R 和轉(zhuǎn)移函數(shù) T 已知但狀態(tài)空間 S 過大而無法完全枚舉時(shí),這些啟發(fā)式搜索算法被用于規(guī)劃。在典型的啟發(fā)式搜索算法中,我們假設(shè)給定一組初始狀態(tài) S? ? S,并可根據(jù)轉(zhuǎn)移函數(shù) T 通過檢查后繼狀態(tài)來構(gòu)建一個(gè)狀態(tài)轉(zhuǎn)移圖。一種方法是在擴(kuò)展轉(zhuǎn)移圖與求解該圖上的最優(yōu)解之間交替進(jìn)行,并利用所得解指導(dǎo)下一輪擴(kuò)展。在圖構(gòu)建過程也由可接受啟發(fā)式(即始終低估從某狀態(tài)出發(fā)的總成本)引導(dǎo)的情況下,這一過程可被分析為一種在動(dòng)態(tài)變化的狀態(tài)子集上進(jìn)行的異步值迭代,該子集保證收斂到針對(duì)初始狀態(tài)的最優(yōu)策略。這種看待啟發(fā)式搜索的方式,為經(jīng)典的確定性規(guī)劃算法(如 A* 算法(Hart, Nilsson, & Raphael, 1968))以及 MDP 規(guī)劃算法(如 LAO*(Hansen & Zilberstein, 2001))和基于樹搜索的算法(Kocsis & Szepesvári, 2006)提供了一個(gè)統(tǒng)一的視角。更多細(xì)節(jié)請(qǐng)參見 Ghallab, Nau, and Traverso (2016)。
該過程可以反復(fù)迭代,直至達(dá)到一個(gè)不動(dòng)點(diǎn)(但請(qǐng)注意,動(dòng)作之間的關(guān)聯(lián)必須以一致的方式打破,否則算法可能會(huì)在等價(jià)策略之間循環(huán)而永不收斂)。令人欣慰的是,或許也令人驚訝的是,可以證明所得策略是全局最優(yōu)的(Sutton & Barto, 2018)。
本節(jié)回顧的用于序列預(yù)測與控制的算法,在獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)移函數(shù)已知時(shí)方可使用。然而,通常情況下我們并不完全了解序列決策問題的形式,因此需要推斷出至少其中一個(gè)量。接下來我們將轉(zhuǎn)向一類適用于一個(gè)或兩個(gè)函數(shù)未知情形的算法。
7.5.3 帶有未知模型的預(yù)測與控制
當(dāng)環(huán)境模型未知時(shí),我們?nèi)绾卧u(píng)估策略或找到最優(yōu)策略?這正是強(qiáng)化學(xué)習(xí)算法所設(shè)計(jì)應(yīng)對(duì)的情形。當(dāng)前的方法可分為兩類:無模型方法(model-free approaches),旨在不顯式估計(jì) R(s,a) 和 T(s,a,s′) 的前提下估算或優(yōu)化價(jià)值函數(shù);以及基于模型的方法(model-based approaches),旨在從環(huán)境中構(gòu)建一個(gè)模型,再利用諸如第7.5.2節(jié)所述的方法計(jì)算價(jià)值(Sutton & Barto, 2018)。通常,模型估計(jì)很大程度上歸結(jié)為本書中已詳細(xì)討論過的無監(jiān)督學(xué)習(xí)問題——如估計(jì)概率密度、推斷潛在變量、構(gòu)建圖模型——因此此處的重點(diǎn)將放在無模型方法上。
我們可以使用與此處給出的TD預(yù)測更新規(guī)則類似的論證來理解這一更新規(guī)則。具體而言,右側(cè)的第二項(xiàng)代表一個(gè)由學(xué)習(xí)率加權(quán)的預(yù)測誤差。只要α隨時(shí)間適當(dāng)減小,隨著迭代次數(shù)的增加,將收斂到真實(shí)的Q*(s, a)。此外,一個(gè)有用的
Q學(xué)習(xí)的一個(gè)特性是它是離策略的(off-policy):也就是說,Q*(s, a) 的估計(jì)獨(dú)立于智能體所遵循的策略,因此可以基于任何狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)序列進(jìn)行估計(jì),只要狀態(tài)/動(dòng)作空間有足夠的覆蓋。
7.5.4 強(qiáng)化學(xué)習(xí)與認(rèn)知科學(xué)
規(guī)劃與強(qiáng)化學(xué)習(xí)的形式化方法之所以有用,是因?yàn)樗鼈兲峁┝艘粋€(gè)統(tǒng)一的規(guī)范性框架,用于從估計(jì)或最大化價(jià)值的角度理解適應(yīng)過程。特別是,由于所有正確的強(qiáng)化學(xué)習(xí)算法在設(shè)計(jì)上都會(huì)收斂到一個(gè)明確定義的價(jià)值函數(shù),因此它們繼承了一些先驗(yàn)的規(guī)范性依據(jù),可作為生物學(xué)習(xí)的潛在模型。選擇特定算法(例如,基于模型的學(xué)習(xí)與無模型學(xué)習(xí))反映了對(duì)可用計(jì)算權(quán)衡或機(jī)制的不同假設(shè)。
從歷史角度看,強(qiáng)化學(xué)習(xí)領(lǐng)域的發(fā)展是一個(gè)絕佳的例子,說明嘗試工程化和逆向工程智能系統(tǒng)如何能促進(jìn)跨不同分析層次的科學(xué)洞見的富有成效的交流。最早的強(qiáng)化學(xué)習(xí)算法是心理學(xué)模型,它們形式化地描述了巴甫洛夫條件反射中的行為模式(例如,Bush & Mosteller, 1955; Rescorla & Wagner, 1972)。后來人們意識(shí)到,這些機(jī)制可以被重新表述為動(dòng)態(tài)規(guī)劃(Bellman, 1957)和TD學(xué)習(xí)(Sutton & Barto, 1987)的規(guī)范性框架。這些基本思想構(gòu)成了過去數(shù)十年中關(guān)于順序決策情境下學(xué)習(xí)研究的基礎(chǔ),并在過去十年中促成了人工智能領(lǐng)域的多項(xiàng)突破(例如,在Atari視頻游戲、國際象棋和圍棋等游戲中超越人類;參見Mnih et al., 2015; Silver et al., 2016)。
對(duì)于認(rèn)知科學(xué)家而言,強(qiáng)化學(xué)習(xí)算法背后的原則為理解人類及其他物種的適應(yīng)提供了關(guān)鍵洞見。在這里,我們回顧若干研究線索,從將TD預(yù)測與巴甫洛夫條件反射聯(lián)系起來的認(rèn)知簡單模型開始,逐步過渡到更復(fù)雜的任務(wù)層級(jí)和基于模型的規(guī)劃模型。
巴甫洛夫條件反射與TD預(yù)測 在巴甫洛夫(或經(jīng)典)條件反射中,有機(jī)體學(xué)習(xí)一種無條件刺激(本身具有內(nèi)在獎(jiǎng)賞性,例如口渴狗的水)與條件刺激(例如,可靠預(yù)示水聲的鈴聲)之間的關(guān)聯(lián)。在強(qiáng)化學(xué)習(xí)框架中,無條件刺激對(duì)應(yīng)于具有正獎(jiǎng)勵(lì)的狀態(tài)(sUC, R(sUC) > 0),而條件刺激對(duì)應(yīng)于沒有獎(jiǎng)勵(lì)但可靠過渡到無條件刺激的狀態(tài)(sC)。條件刺激的估計(jì)值(V(sC))隨后對(duì)應(yīng)于無條件刺激與條件刺激之間的聯(lián)想強(qiáng)度,而TD預(yù)測(公式(7.15))則刻畫了給定有機(jī)體經(jīng)驗(yàn)時(shí)建立適當(dāng)關(guān)聯(lián)的學(xué)習(xí)動(dòng)力學(xué)。盡管其學(xué)習(xí)規(guī)則很簡單,基本的TD算法卻能解釋經(jīng)典條件反射中研究的廣泛學(xué)習(xí)現(xiàn)象(Sutton & Barto, 1987)。此外,神經(jīng)科學(xué)的研究描繪了一幅引人入勝的畫面,說明TD學(xué)習(xí)在大腦中是如何實(shí)現(xiàn)的:TD學(xué)習(xí)所描述的獎(jiǎng)勵(lì)預(yù)測誤差δ被發(fā)現(xiàn)對(duì)應(yīng)于中腦多巴胺神經(jīng)元的瞬態(tài)活動(dòng),并為突觸修飾提供全局信號(hào)(Schultz, Dayan, & Montague, 1997; Glimcher, 2011)。這些結(jié)果代表了在Marr提出的三個(gè)分析層次(在第1章討論)上的顯著趨同:價(jià)值估計(jì)問題(計(jì)算層面)、TD預(yù)測/隨機(jī)近似(算法層面)以及瞬態(tài)多巴胺(實(shí)現(xiàn)層面)。
操作性條件反射、控制及基于模型與無模型學(xué)習(xí) 盡管經(jīng)典條件反射涉及從觀察序列中形成狀態(tài)間的價(jià)值關(guān)聯(lián),操作性(或工具性)條件反射則涉及通過試錯(cuò)在不同狀態(tài)與動(dòng)作之間形成價(jià)值關(guān)聯(lián)(Thorndike, 1898)。具體而言,在操作性條件反射實(shí)驗(yàn)中,有機(jī)體在某一狀態(tài)下采取行動(dòng)(例如,燈亮?xí)r按壓杠桿),然后出現(xiàn)可能帶來獎(jiǎng)賞或懲罰的結(jié)果(例如,出現(xiàn)食物顆粒)。這類場景,尤其是當(dāng)它們涉及擴(kuò)展的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)序列時(shí),特別適合在強(qiáng)化學(xué)習(xí)框架內(nèi)建模。
正如我們前面提到的,強(qiáng)化學(xué)習(xí)算法空間中最重要的一種二分法之一在于基于模型與無模型學(xué)習(xí)之間。回憶一下,在基于模型的強(qiáng)化學(xué)習(xí)中,有機(jī)體學(xué)習(xí)環(huán)境的模型(即轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)),然后利用該模型計(jì)算價(jià)值函數(shù)?;谀P偷膹?qiáng)化學(xué)習(xí)被認(rèn)為對(duì)應(yīng)于人們?cè)诃h(huán)境中進(jìn)行深思熟慮推理以決定何種行動(dòng)最合理的情形(例如,Daw et al., 2005)。相比之下,在無模型強(qiáng)化學(xué)習(xí)中,有機(jī)體直接學(xué)習(xí)價(jià)值函數(shù)(例如,使用Q學(xué)習(xí))。至關(guān)重要的是,從算法角度看,基于模型的學(xué)習(xí)比無模型學(xué)習(xí)更具靈活性,但也更耗費(fèi)認(rèn)知資源,因?yàn)樗枰S著轉(zhuǎn)移和獎(jiǎng)勵(lì)估計(jì)的更新而重新計(jì)算價(jià)值函數(shù)。此外,值得注意的是,基于模型/無模型學(xué)習(xí)的區(qū)別可以映射到熟悉的心理學(xué)區(qū)分——目標(biāo)導(dǎo)向行為與習(xí)慣性行為之間(Wood & Rünger, 2016),盡管這不是形式化這種區(qū)別的唯一方式(Dezfouli & Balleine, 2013; Miller, Shenhav, & Ludvig, 2019)。
理論上,基于模型和無模型學(xué)習(xí)機(jī)制在計(jì)算和概念上是截然不同的,但在真實(shí)的生物系統(tǒng)中,這兩個(gè)過程很難完全分離(Doll, Simon, & Daw, 2012)。在過去的二十年里,在研究這些不同學(xué)習(xí)和控制形式及其神經(jīng)基礎(chǔ)的算法交互方面取得了相當(dāng)大的進(jìn)展。例如,雙步任務(wù)(Gl?scher, Daw, Dayan, & O’Doherty, 2010)是一個(gè)簡單的馬爾可夫決策過程,包含兩個(gè)選擇階段和一個(gè)結(jié)果階段,其狀態(tài)獎(jiǎng)勵(lì)會(huì)隨著時(shí)間推移發(fā)生漂移。選擇階段與結(jié)果階段狀態(tài)之間的轉(zhuǎn)移是隨機(jī)的,但高于機(jī)會(huì)水平,這意味著如果參與者學(xué)會(huì)某個(gè)結(jié)果階段具有最高獎(jiǎng)勵(lì),他們便可以采用基于模型的規(guī)劃以達(dá)到該結(jié)果狀態(tài)。然而,參與者也可能僅僅回退到由無模型策略提供的單步價(jià)值估計(jì),這在最初對(duì)新獎(jiǎng)勵(lì)信息不敏感。在遇到新獎(jiǎng)勵(lì)信息的關(guān)鍵試驗(yàn)中,基于模型和無模型學(xué)習(xí)會(huì)導(dǎo)致發(fā)散的價(jià)值更新,從而提供了區(qū)分人們算法策略的機(jī)會(huì)。諸如此類的范式常被用來研究基于模型和無模型學(xué)習(xí)如何競爭行為控制(Gl?scher, Daw, Dayan, & O’Doherty, 2010),以及它們?nèi)绾误w現(xiàn)不同的算法與機(jī)制權(quán)衡(Otto, Gershman, Markman, & Daw, 2013; Daw & Dayan, 2014; Solway & Botvinick, 2015),以及它們?nèi)绾文軌騾f(xié)同作用(Kool, Gershman, & Cushman, 2017; Kool, Cushman, & Gershman, 2018)。
分布強(qiáng)化學(xué)習(xí) 標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法使用狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)樣本形成價(jià)值函數(shù)的點(diǎn)估計(jì),但近期關(guān)于分布強(qiáng)化學(xué)習(xí)的工作探索了明確將價(jià)值表示為可能回報(bào)上的分布(Bellemare, Dabney, & Munos, 2017; Dabney, Rowland, Bellemare, & Munos, 2018; Bellemare, Dabney, & Rowland, 2023)。乍一看,為什么用值的分布表示會(huì)比僅表示期望值更有益并不明顯——畢竟,在選擇具有不同值分布的動(dòng)作時(shí),我們將計(jì)算并比較期望值。然而,實(shí)踐中,值分布已被證明能提供更豐富的近似目標(biāo),從而促進(jìn)表征學(xué)習(xí)(例如,使用神經(jīng)網(wǎng)絡(luò)),緩解策略變化時(shí)的學(xué)習(xí)影響,并支持更廣泛的下游行為以及泛化能力(Bellemare et al., 2017)。分布方法在深度強(qiáng)化學(xué)習(xí)中的成功促使人們探究大腦是否編碼價(jià)值分布:Dabney等人(2020)表明,不同的多巴胺神經(jīng)元似乎跟蹤不同水平的價(jià)值(因此共同編碼了價(jià)值分布),并在學(xué)習(xí)過程中表現(xiàn)出一系列正面和負(fù)面的獎(jiǎng)勵(lì)預(yù)測誤差。這些結(jié)果豐富了大腦如何實(shí)現(xiàn)標(biāo)量獎(jiǎng)勵(lì)預(yù)測誤差的經(jīng)典圖景。
獎(jiǎng)勵(lì)設(shè)計(jì)與塑造 在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)問題中,我們被賦予一個(gè)獎(jiǎng)勵(lì)函數(shù)并必須找到一個(gè)最優(yōu)策略。但我們也可以反向思考:給定一個(gè)期望的策略,尋找一個(gè)獎(jiǎng)勵(lì)函數(shù),當(dāng)其被最大化時(shí),會(huì)產(chǎn)生一個(gè)匹配期望策略的最優(yōu)策略。這被稱為獎(jiǎng)勵(lì)設(shè)計(jì)問題(Singh, Lewis, & Barto, 2009; Sorg, Singh, & Lewis, 2010),并出現(xiàn)在許多重要場景中。一個(gè)例子是獎(jiǎng)勵(lì)塑造,我們旨在增強(qiáng)現(xiàn)有獎(jiǎng)勵(lì)函數(shù),使得最優(yōu)策略得以保留,同時(shí)加速學(xué)習(xí)。例如,如果我們希望激勵(lì)一個(gè)強(qiáng)化學(xué)習(xí)代理到達(dá)目標(biāo)狀態(tài),我們可能不僅希望在到達(dá)目標(biāo)時(shí)提供單一獎(jiǎng)勵(lì),因?yàn)槟菍⑻峁┮粋€(gè)極其稀疏的學(xué)習(xí)信號(hào)。相反,我們希望為目標(biāo)達(dá)成之前的中間步驟提供額外的塑造獎(jiǎng)勵(lì),以促進(jìn)更快的學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的一個(gè)重要成果是塑造定理(Ng, Harada, & Russell, 1999),它提供了塑造函數(shù)的必要且充分條件,確保它們不會(huì)改變最優(yōu)策略(具體來說,它們應(yīng)取“勢函數(shù)”的形式)。塑造定理可用于設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),使人們能夠?qū)崿F(xiàn)長期目標(biāo)但獲得更多的中間反饋(Lieder, Chen, Krueger, & Griffiths, 2019)。然而,也已發(fā)現(xiàn),當(dāng)扮演教師角色時(shí),人們并不會(huì)簡單地提供符合塑造定理的評(píng)估反饋。例如,人們會(huì)無意中激勵(lì)強(qiáng)化學(xué)習(xí)算法遵循“正向獎(jiǎng)勵(lì)循環(huán)”,在這種情況下,算法系統(tǒng)性地偏離目標(biāo)行為以獲得糾正該偏差的獎(jiǎng)勵(lì),接著進(jìn)一步偏離和糾正(并獲得進(jìn)一步獎(jiǎng)勵(lì)),可能無限循環(huán)下去(Ho, Cushman, Littman, & Austerweil, 2019)。
此外,在強(qiáng)化學(xué)習(xí)框架中,獎(jiǎng)勵(lì)是所有適應(yīng)與學(xué)習(xí)背后的驅(qū)動(dòng)力,這促使一些研究者提出:最大化一個(gè)獎(jiǎng)勵(lì)信號(hào)就足以解釋所有智能行為(Silver, Singh, Precup, & Sutton, 2021)。獎(jiǎng)勵(lì)設(shè)計(jì)的視角使我們能夠?qū)⑦@一論點(diǎn)表述為一個(gè)定義明確的問題:給定某種適當(dāng)明確指定的智能行為,是否存在一個(gè)獎(jiǎng)勵(lì)函數(shù),使得在最大化該函數(shù)時(shí)能產(chǎn)生目標(biāo)行為?Abel 等人(2021)針對(duì)馬爾可夫獎(jiǎng)勵(lì)函數(shù)(即獎(jiǎng)勵(lì)定義在狀態(tài)-動(dòng)作-下一狀態(tài)三元組 s,a,s′上)在馬爾可夫決策過程(MDP)中的情形分析了這一問題,并發(fā)現(xiàn):對(duì)于以策略集合形式定義的行為(這是單一最優(yōu)策略的推廣),這類獎(jiǎng)勵(lì)函數(shù)可能并不存在。例如,在一個(gè)網(wǎng)格世界中,若狀態(tài)空間對(duì)應(yīng)于網(wǎng)格中的位置,則行為規(guī)則“始終朝同一方向前進(jìn)”無法通過任何馬爾可夫獎(jiǎng)勵(lì)函數(shù)來表達(dá)。這些結(jié)果的一個(gè)重要啟示是:對(duì)于給定的 MDP,某些類別的獎(jiǎng)勵(lì)函數(shù)在表達(dá)能力(expressivity)方面并非總是顯而易見的。此類發(fā)現(xiàn)推動(dòng)了關(guān)于學(xué)習(xí)和優(yōu)化非馬爾可夫獎(jiǎng)勵(lì)函數(shù)的持續(xù)研究(Vazquez-Chanlatte, Jha, Tiwari, Ho, & Seshia, 2018;Icarte, Klassen, Valenzano, & McIlraith, 2018)。
表征與強(qiáng)化學(xué)習(xí) 將潛在狀態(tài)推斷與強(qiáng)化學(xué)習(xí)相結(jié)合,是建模學(xué)習(xí)、決策與表征之間相互作用的一種方法,但并非唯一方法。有機(jī)體如何編碼狀態(tài)或動(dòng)作,會(huì)對(duì)其他過程產(chǎn)生影響,例如探索行為或內(nèi)部決策算法本身(Ho, Abel, Griffiths, & Littman, 2019)。例如,基于模型與無模型學(xué)習(xí)之間的區(qū)別,與其說是純粹算法層面的差異,不如說同樣關(guān)乎表征:在基于模型的學(xué)習(xí)中,價(jià)值函數(shù)是利用所學(xué)得的轉(zhuǎn)移函數(shù)表征計(jì)算得出的;而在無模型學(xué)習(xí)中,價(jià)值函數(shù)是直接學(xué)習(xí)得到的,并不依賴于對(duì)轉(zhuǎn)移函數(shù)的獨(dú)立表征(Sutton & Barto, 2018)。
關(guān)于選項(xiàng)的使用問題,有關(guān)人類分層強(qiáng)化學(xué)習(xí)的研究已探討了人們?nèi)绾卧诙鄠€(gè)抽象層級(jí)上學(xué)習(xí)動(dòng)作價(jià)值(Eckstein & Collins, 2020),他們?nèi)绾瓮ㄟ^無模型機(jī)制學(xué)習(xí)選項(xiàng)價(jià)值(Cushman & Morris, 2015),以及選項(xiàng)內(nèi)預(yù)測誤差如何在神經(jīng)層面實(shí)現(xiàn)(Botvinick, Niv, & Barto, 2009; Ribas-Fernandes et al., 2011)。關(guān)于選項(xiàng)的發(fā)現(xiàn)問題,已有若干提案被提出,包括基于策略壓縮的方法(Solway et al., 2014)、貝葉斯推斷方法(Tomov, Yagati, Kumar, Yang, & Gershman, 2020)以及資源合理性方法(Correa, Ho, Callaway, & Griffiths, 2020)(參見第13章)。盡管如此,關(guān)于人類如何以及為何獲得特定的分層動(dòng)作表征——以及如何最好地概念化它們與子目標(biāo)、子任務(wù)及其他形式抽象的交互——目前仍是活躍的研究領(lǐng)域。
注意與順序決策 什么內(nèi)容被表征,以及如何理解這一點(diǎn),也可以被視為決策過程與注意機(jī)制相互作用的結(jié)果(Radulescu, Niv, & Ballard, 2019)。盡管關(guān)于注意作為一種有用建構(gòu)的適用范圍存在相當(dāng)多的爭論(James, 1890; Hommel et al., 2019),但就我們的目的而言,注意可被視為一種對(duì)信息進(jìn)行偏置或過濾的過程,旨在促進(jìn)決策過程中高效的學(xué)習(xí)與計(jì)算。因此,如果純粹推理是關(guān)于“超越數(shù)據(jù)”誘導(dǎo)模式,那么注意則涉及“減少數(shù)據(jù)”以使其更易于管理。在單階段決策背景下,結(jié)合選擇性注意與強(qiáng)化學(xué)習(xí)的模型可以解釋學(xué)習(xí)如何被調(diào)節(jié)并映射到注意的解剖學(xué)基礎(chǔ)之上(Leong, Radulescu, Daniel, DeWoskin, & Niv, 2017; Niv, 2019; Niv et al., 2015)。
近期工作還研究了認(rèn)知控制——一種自上而下或目標(biāo)導(dǎo)向的注意形式(Miller & Cohen, 2001; Shenhav et al., 2017)——在規(guī)劃中的作用?;仡櫟?.5.2節(jié)所述的規(guī)劃算法,它們都基于一個(gè)固定任務(wù)表征的假設(shè)來優(yōu)化策略。例如,在使用啟發(fā)式樹搜索規(guī)劃棋步時(shí),人們會(huì)使用一個(gè)實(shí)例化了棋子移動(dòng)規(guī)則及獲勝條件的模型來模擬走法與應(yīng)對(duì)招數(shù)。然而,有理由放松“固定規(guī)劃模型”的假設(shè):首先,在現(xiàn)實(shí)世界中進(jìn)行規(guī)劃時(shí),往往沒有給定模型,因此認(rèn)知系統(tǒng)必須定期面對(duì)按需構(gòu)建模型的挑戰(zhàn)。其次,即使在具有明確定義真實(shí)模型的領(lǐng)域(如國際象棋),許多細(xì)節(jié)對(duì)于規(guī)劃即時(shí)行動(dòng)而言也是無關(guān)緊要的。最后,心理學(xué)中關(guān)于問題解決、類比遷移和頓悟的經(jīng)典發(fā)現(xiàn)表明,人們傾向于在不同問題表征之間靈活切換以求解問題(Duncker, 1945; Ohlsson, 2012; Holyoak, 2012)。受這些考慮的啟發(fā),Ho 等人(2022)提出并檢驗(yàn)了一個(gè)規(guī)范性的“價(jià)值引導(dǎo)任務(wù)約束”模型,該模型考慮了構(gòu)建模型(形式化為選擇一個(gè)簡化MDP)與在該模型中優(yōu)化策略(例如,使用第7.5.2節(jié)中的某一種算法)之間的相互作用。其核心思想是將模型與策略的選擇視為一個(gè)雙層優(yōu)化過程:外層循環(huán)選擇一個(gè)簡化模型(即一個(gè)約束),該模型由內(nèi)層循環(huán)的規(guī)劃算法用于計(jì)算最優(yōu)策略。在其最簡形式中,外層循環(huán)尋求在任務(wù)約束下優(yōu)化表征價(jià)值(VOR):
7.6 主動(dòng)學(xué)習(xí)
到目前為止,我們討論的情形中,我們行動(dòng)的后果效用本身是直接感興趣的。但在認(rèn)知的許多領(lǐng)域中,后果本身可能并非主要關(guān)注點(diǎn),而是因?yàn)樗鼈兲峁┝诉M(jìn)一步的信息。這正是主動(dòng)學(xué)習(xí)(active learning)的領(lǐng)域,在該領(lǐng)域中,我們的行為至少部分不是服務(wù)于某個(gè)外部定義的目標(biāo),而是由盡可能高效地收集相關(guān)信息這一目標(biāo)驅(qū)動(dòng)的。在審視一張地圖、一頁書或一張人臉時(shí),我們的眼睛并不會(huì)漫無目的地游移;相反,它們會(huì)尋找具有特定相關(guān)性或興趣的特征。因此,我們的眼睛會(huì)選擇性地采樣主要城鎮(zhèn)、道路或港口,而不是均勻分布的海面區(qū)域;它們會(huì)跳轉(zhuǎn)到那些似乎最有可能包含新奇且有趣信息的段落;并聚焦于那些最有可能揭示身份或情緒表情的面部特征。同樣,在決定與誰交談、在搜索引擎中輸入什么內(nèi)容或閱讀什么材料時(shí),我們通常是在搜尋信息,而非試圖達(dá)成任何具體的外部目標(biāo)。事實(shí)上,大量的人類活動(dòng)——尤其是在教育領(lǐng)域(當(dāng)我們學(xué)習(xí)歷史或科學(xué)時(shí))和文化領(lǐng)域(去看電影、讀小說或聽音樂)——都涉及獲取和處理并不服務(wù)于任何即時(shí)任務(wù)或目標(biāo)的信息。我們的注意力是有限的,必須在一個(gè)充滿各種誘惑和干擾的復(fù)雜世界中明智地部署。當(dāng)然,有時(shí)我們的關(guān)注范圍會(huì)更窄——我們有一個(gè)具體的決策要做出或一個(gè)行動(dòng)方案要追求,我們希望收集有助于解決當(dāng)下挑戰(zhàn)的信息。
無論如何,應(yīng)當(dāng)明確的是,選擇收集哪些信息(以及類似地,選擇注意哪些信息、忽略哪些信息——一旦信息被收集)的過程,在認(rèn)知幾乎所有方面的運(yùn)作中都具有核心重要性。存在一個(gè)持續(xù)不斷的循環(huán):我們當(dāng)前的知識(shí)狀態(tài)指導(dǎo)我們的感官和注意力去主動(dòng)收集新信息;然后這些新信息被用于更新我們的知識(shí)狀態(tài);接著我們?cè)俑鶕?jù)更新后的知識(shí)狀態(tài)去尋找更多信息,如此往復(fù)。我們是關(guān)于自身世界的不懈主動(dòng)學(xué)習(xí)者,積極搜尋有用且有趣的信息,而非僅僅被動(dòng)記錄偶然進(jìn)入視野的任何數(shù)據(jù)。
舉一個(gè)平凡的例子,假設(shè)我們丟失了鑰匙。我們不會(huì)簡單等待有關(guān)其位置的有用證據(jù)自行出現(xiàn)。我們會(huì)主動(dòng)搜尋有用的線索。我們會(huì)拍打口袋、翻找包袋、查看沙發(fā)底下,希望收集能給我們提供(希望是決定性的)線索的感官信息。在犯罪現(xiàn)場收集線索或設(shè)計(jì)科學(xué)實(shí)驗(yàn)時(shí),我們同樣是在嘗試選擇一組可能產(chǎn)生數(shù)據(jù)的動(dòng)作,這些數(shù)據(jù)能夠在所考慮的不同理論之間起到診斷作用(例如,Lindley, 1956; Platt, 1964)。在所有這些情況下,我們都積極嘗試找到盡可能有用或有趣的那類信息。
究竟什么算作“有用”或“有趣”,將取決于我們的目標(biāo)(找到鑰匙、抓住罪犯、確定最佳科學(xué)理論)。而在缺乏特定目標(biāo)的情況下,我們會(huì)發(fā)現(xiàn)某些信息有趣,而另一些信息則枯燥乏味。事實(shí)上,大量閑暇時(shí)間都花在搜尋和消費(fèi)與我們生活無明顯即時(shí)關(guān)聯(lián)的信息上(看電影、為運(yùn)動(dòng)隊(duì)加油、閱讀歷史和小說、聽音樂等等)。但盡管“是什么讓信息變得有趣”這一總體問題困難且開放(Chater & Loewenstein, 2016),主動(dòng)學(xué)習(xí)的相同原則仍在發(fā)揮作用:我們的大腦正在搜尋并關(guān)注有趣的信息;同時(shí)試圖避免那些枯燥或無用的信息。
主動(dòng)選擇希望接收的數(shù)據(jù)這一想法,乍看之下似乎有些輕微的悖論。畢竟,在我們將目光轉(zhuǎn)向新位置或進(jìn)行科學(xué)實(shí)驗(yàn)之前,我們并不知道將接收到什么數(shù)據(jù)——否則,數(shù)據(jù)收集的行為將完全多余。但如果我們不知道將接收到什么數(shù)據(jù),又如何評(píng)估其潛在價(jià)值?
答案正如貝葉斯方法中常見的那樣,源于先驗(yàn)知識(shí)的使用。因此,在移動(dòng)眼睛或進(jìn)行實(shí)驗(yàn)之前,我們可以考慮在數(shù)據(jù)收集行為被設(shè)想之前的可能數(shù)據(jù)集的概率分布(此處“先驗(yàn)”僅指“在數(shù)據(jù)收集行為被構(gòu)想之前”)。假設(shè)智能體能夠?yàn)槊總€(gè)可能的數(shù)據(jù)結(jié)果賦予一個(gè)價(jià)值;那么,可能導(dǎo)致此類數(shù)據(jù)的動(dòng)作的信息價(jià)值就可以簡單地定義為期望值,其中期望是相對(duì)于數(shù)據(jù)的先驗(yàn)分布而言的。例如,我們對(duì)人類面部的先驗(yàn)知識(shí),加上視覺外圍當(dāng)前低保真度的信息,可能足以將視覺空間中的某些位置縮小為比其他位置更可能有趣的地方,因而成為更合適的注視目標(biāo)。因此,例如,在掃描圖像時(shí),眼球運(yùn)動(dòng)有可能在諸如眼睛和嘴巴等信息豐富的元素間跳躍,并較少關(guān)注臉頰或額頭區(qū)域,或背景中的墻壁。
為了直觀理解這一機(jī)制如何運(yùn)作,考慮一個(gè)著名推理心理學(xué)任務(wù)(Wason, 1966, 1968)的變體:人們必須根據(jù)一條規(guī)則主動(dòng)選擇數(shù)據(jù),例如“如果一個(gè)人在俱樂部里,那么他必須至少21歲”,該規(guī)則的形式為“若 p,則 q”。在實(shí)驗(yàn)任務(wù)中,參與者會(huì)看到四張卡片,每張卡片的一面寫著年齡,另一面寫著此人是否進(jìn)入了俱樂部。但我們只能看到卡片的正面——任務(wù)是說出我們希望翻看哪些卡片。
翻看哪些卡片(即,搜尋哪些信息)的答案當(dāng)然取決于我們的效用。這些效用在日常生活中甚至在許多實(shí)驗(yàn)任務(wù)中通常只是模糊指定的。但這些效用顯然會(huì)依賴于我們的目標(biāo)。例如,假設(shè)我們是一名警察,正在檢查違反規(guī)則的情況——并且假設(shè)我們因發(fā)現(xiàn)違法行為而獲得高收益。
那么我們可以明確忽略那些不在俱樂部的人(我們不翻看“非 p”卡片)以及年齡超過21歲的人(我們不翻看“q”卡片)。但我們確實(shí)希望主動(dòng)了解那些在俱樂部里的人——這樣做的預(yù)期收益取決于我們的先驗(yàn)概率(基于背景知識(shí)),即他們可能未滿21歲(當(dāng)然,也取決于我們從發(fā)現(xiàn)任何此類違規(guī)者中獲得的效用)。我們還想檢查未滿21歲的人(“非 q”卡片),以防他們恰好進(jìn)入了俱樂部。在大多數(shù)現(xiàn)實(shí)場景中,翻看這張卡片的預(yù)期收益相當(dāng)?shù)汀吘?,未滿21歲的人數(shù)量龐大,而其中有人恰好進(jìn)入俱樂部的可能性很低。因此,翻看“p”卡片將帶來最大的預(yù)期效用,翻看“q”卡片則有較小的預(yù)期效用,其余卡片的預(yù)期效用為零(事實(shí)上,如果我們考慮調(diào)查所付出的“努力”,這些選項(xiàng)將具有負(fù)的預(yù)期效用,因而不會(huì)被選擇)。這與實(shí)驗(yàn)數(shù)據(jù)相符(Cheng & Holyoak, 1985; Cosmides, 1989)。1?
但為了看清效用的關(guān)鍵作用,假設(shè)我們不是警察,而是大學(xué)學(xué)生會(huì)的代表,職責(zé)是檢查年齡超過21歲的人(q 卡片)是否沒有被不公平地拒之門外(非 p 卡片)。在這種角色下,我們的效用并非來自發(fā)現(xiàn)違反規(guī)則的情況(p、非 q 情形),而是來自發(fā)現(xiàn)那些未被規(guī)則正當(dāng)化的例外情況。
(非 p、q 情形)。要找到這類情形,只需翻看“非 p”和“q”卡片即可。因此,我們選擇翻看哪些卡片——即我們主動(dòng)選擇調(diào)查哪些信息——不僅取決于規(guī)則本身,還取決于我們的目標(biāo);而這種根據(jù)任務(wù)框架變化的卡片選擇,在實(shí)驗(yàn)中已被觀察到(Gigerenzer & Hug, 1992)。請(qǐng)注意,如果像早期關(guān)于選擇任務(wù)的討論那樣,將數(shù)據(jù)選擇問題視為純粹的“邏輯”問題,獨(dú)立于決策者的效用,則無法預(yù)測這些轉(zhuǎn)變。
該不等式意味著,平均而言,任何新的觀察或?qū)嶒?yàn)所預(yù)期帶來的信息量都是正的,或者至多為零(這一結(jié)論源自基本的信息論(Cover & Thomas, 1991))。期望信息增益及其密切相關(guān)概念已被用作衡量實(shí)驗(yàn)優(yōu)劣的標(biāo)準(zhǔn)、神經(jīng)網(wǎng)絡(luò)中主動(dòng)學(xué)習(xí)的模型(Mackay, 1992b),以及用于建模諸如閱讀過程中眼動(dòng)如何被引導(dǎo)等認(rèn)知現(xiàn)象(例如,Legge, Klitz, & Tjan, 1997)。
事實(shí)上,這種方法也被應(yīng)用于四卡片選擇任務(wù)(Wason, 1966, 1968)的一個(gè)變體。假設(shè)我們考慮一條抽象規(guī)則(不涉及俱樂部、年齡限制或其他任何現(xiàn)實(shí)情境),例如:“如果一張卡片的一面是 A,那么另一面就是 2?!?現(xiàn)在我們面前有以下四張卡片:
參與者對(duì)該規(guī)則沒有任何特定的效用關(guān)聯(lián)(他們并非在尋找違反規(guī)則的情況,也不是在尋找規(guī)則無法合理解釋的待遇案例)。相反,任務(wù)僅僅是收集信息,以判斷該規(guī)則是否成立。從信息論的角度來看,我們假設(shè)自己最初對(duì)規(guī)則的真假持某種先驗(yàn)信念(可能是完全無知),并希望翻看那些在期望意義上最有可能最大程度降低我們不確定性的卡片(Oaksford & Chater, 1994)。當(dāng)然,針對(duì)這一設(shè)定,可以構(gòu)建出許多不同細(xì)節(jié)的模型。但為了直觀理解人們可能做出的推斷,不妨考慮一個(gè)現(xiàn)實(shí)世界的例子:假設(shè)我們想知道吃牛肚是否會(huì)導(dǎo)致人生病。那么這四張卡片將如下所示:
直觀上,顯然我們應(yīng)該翻看“牛肚”(p)卡片——發(fā)現(xiàn)此人是否生病將提供非常豐富的信息。同樣,我們自然也會(huì)去查詢那些生病的人(q 卡片)。生病的原因有很多,但有可能他們恰好最近吃了牛肚,這將為該假設(shè)提供支持性證據(jù)。此外,檢查未生病的人(非 q 卡片)也存在一種較為遙遠(yuǎn)的可能性,即獲得有用信息:萬一他們碰巧吃了牛肚,這將構(gòu)成對(duì)規(guī)則的反例。然而,由于吃牛肚極為罕見,出現(xiàn)這種情況的概率非常低,我們很可能只是抽樣到一個(gè)健康的、沒吃牛肚的人,這幾乎不會(huì)提供任何信息。因此,人們主動(dòng)調(diào)查卡片的傾向應(yīng)遵循如下順序:p > q > 非 q > 非 p,這一順序已在實(shí)證研究中被觀察到(Oaksford & Chater, 1994)。不過,Oberauer、Wilhelm IV 和 Diaz(1999)指出,直接操縱不同結(jié)果的概率有時(shí)對(duì)卡片選擇的影響至多很微弱。
這種基于期望信息增益的分析,為該任務(wù)中的主動(dòng)數(shù)據(jù)選擇提供了一種理性解釋,尤其引人注目,因?yàn)槿藗兂UJ(rèn)為該任務(wù)“邏輯上”正確的反應(yīng)純粹是尋求對(duì)規(guī)則的證偽(即只翻看 p 和非 q 卡片),而翻看 q 卡片則純粹是一種錯(cuò)誤——這種觀點(diǎn)似乎符合波普爾(Popper)的證偽主義科學(xué)哲學(xué)(Popper, 1959/1990),而非貝葉斯式的科學(xué)推理觀(Howson & Urbach, 1993)。貝葉斯主動(dòng)學(xué)習(xí)框架還能捕捉該任務(wù)的許多變體,以及事件 p 和 q 的概率變化如何影響卡片選擇頻率(Oaksford & Chater, 2003)。然而,人們的數(shù)據(jù)選擇并未完全與這些概率校準(zhǔn)——人們似乎傾向于假設(shè) p 和 q 默認(rèn)是罕見的(這在絕大多數(shù)現(xiàn)實(shí)世界的規(guī)則中確實(shí)成立),即使在特定實(shí)驗(yàn)情境中這一假設(shè)并不成立。更一般而言,這一觀點(diǎn)有助于解釋為何人們經(jīng)常采用“正向檢驗(yàn)策略”(positive test strategy;Navarro & Perfors, 2011),即在尋找反例幾乎不可能發(fā)現(xiàn)相關(guān)證據(jù)的情況下,轉(zhuǎn)而搜索支持感興趣假設(shè)的實(shí)例。因此,至少在許多情境下,傾向于尋找正面實(shí)例并非確認(rèn)偏誤(confirmation bias)的表現(xiàn),而是具有理性基礎(chǔ)的(Klayman & Ha, 1987)。
不過請(qǐng)注意,以盡可能多地獲取信息為目標(biāo)而主動(dòng)選擇信息,是相對(duì)于我們希望檢驗(yàn)的一組特定假設(shè)而言的(例如,某條特定規(guī)則是否成立)。但如前所述,我們的目標(biāo)常常更為開放——有時(shí)我們?yōu)g覽報(bào)紙是為了了解某個(gè)特定事件的結(jié)果,但很多時(shí)候我們只是想知道是否發(fā)生了什么有趣的事情。同樣,在科學(xué)中,我們有時(shí)試圖設(shè)計(jì)實(shí)驗(yàn)來檢驗(yàn)一個(gè)或多個(gè)具體假設(shè);但很多時(shí)候,我們的探究要更具探索性。如何最好地刻畫這類開放情境中的主動(dòng)學(xué)習(xí),是一個(gè)重要且尚未解決的問題——我們對(duì)“什么使信息變得有趣”僅有初步的理論(Chater & Loewenstein, 2016)。
本文主要聚焦于確定應(yīng)采樣哪些數(shù)據(jù)的問題。但至少同樣重要的是一個(gè)平行問題:一旦數(shù)據(jù)被采樣,應(yīng)執(zhí)行哪些計(jì)算?鑒于大腦的計(jì)算資源顯然極為有限,認(rèn)知系統(tǒng)最重要的任務(wù)之一便是謹(jǐn)慎地引導(dǎo)其計(jì)算資源。與選擇采樣哪些信息的問題類似,這一想法本身也略帶悖論色彩:在尚未執(zhí)行某項(xiàng)計(jì)算之前,我們?nèi)绾闻袛嗥浣Y(jié)果可能有多有用?同樣,關(guān)鍵在于能夠利用先驗(yàn)信息來判斷哪些計(jì)算可能是有用的,哪些則不然。我們將在第13章詳細(xì)探討這一問題,考察對(duì)有限計(jì)算資源的理性使用如何解釋人類行為偏離貝葉斯決策理論的某些方式。
7.8 理性的局限
本章的基本前提是:期望效用(或類似量)的最大化可以為跨多個(gè)領(lǐng)域的決策建模提供基礎(chǔ),從動(dòng)物覓食到運(yùn)動(dòng)控制、學(xué)習(xí)以及高層決策。這一觀點(diǎn)似乎與判斷與決策領(lǐng)域及行為經(jīng)濟(jì)學(xué)的研究傳統(tǒng)相沖突,后者似乎表明人們經(jīng)常且系統(tǒng)性地偏離貝葉斯決策理論——事實(shí)上,作為經(jīng)濟(jì)學(xué)決策方法基礎(chǔ)的基本一致性假設(shè),也常常被系統(tǒng)性地違反(例如,Kahneman & Tversky, 1984)。
一些理論家認(rèn)為,對(duì)理性的偏離如此普遍,以至于將貝葉斯視角用于決策建模,乃至更廣義上對(duì)行為的理性分析,可能是一條理論死胡同;相反,他們主張,行為或許更宜用一系列啟發(fā)式規(guī)則或輸入-輸出規(guī)則的層級(jí)集合來解釋(例如,Brooks, 1991;Gigerenzer & Todd, 1999;McFarland & B?sser, 1993)。
我們持相反觀點(diǎn):放棄決策的理性理論,將使人類行為變得完全不可理解——事實(shí)上,這將導(dǎo)致我們無法區(qū)分“行為”(例如,拿起杯子、向朋友揮手、打字發(fā)消息)與單純的“動(dòng)作”(例如,跌倒、被醫(yī)生的錘子觸發(fā)反射、無意中壓到電腦鍵盤)。貝葉斯決策理論有助于將行為解釋為目的性活動(dòng):我們的行動(dòng)與我們的偏好和信念保持一致。例如,我們之所以拿起咖啡杯,是因?yàn)槲覀兿嘈疟杏锌Х?,并且我們想喝它。我們運(yùn)動(dòng)動(dòng)作的精細(xì)細(xì)節(jié)也可以用同樣的方式解釋:我們希望平穩(wěn)高效地拿起杯子,并在移動(dòng)過程中不灑出內(nèi)容物,這一意圖有助于解釋我們具體如何移動(dòng)。更廣泛地說,貝葉斯視角解釋了信念、偏好和行動(dòng)如何在多個(gè)尺度上(從單個(gè)動(dòng)作、行為、即時(shí)計(jì)劃,到整個(gè)人生方向)以盡可能連貫的方式相互關(guān)聯(lián)。相比之下,如果我們?cè)噲D將行為僅僅視為一組反射或一套專用啟發(fā)式工具箱,就很難理解人類行為連貫性的來源(例如,Bratman, 1987)1?。
在本書中,我們使用貝葉斯建模,旨在揭示人類所面對(duì)的特定歸納問題的理想解是什么樣子,進(jìn)而以此作為理解人類行為的工具。期望該方法總能對(duì)人類決策的精確細(xì)節(jié)進(jìn)行定量建模是不現(xiàn)實(shí)的。我們認(rèn)為,貝葉斯方法在那些人類表現(xiàn)已被強(qiáng)大的自然選擇和學(xué)習(xí)力量所塑造的領(lǐng)域中可能尤為有效——例如運(yùn)動(dòng)控制、動(dòng)作序列組織、規(guī)劃、常識(shí)推理等。而在我們不熟悉的、以數(shù)字或語言形式呈現(xiàn)的決策問題(例如涉及賭博選擇的問題)中,該方法可能遠(yuǎn)不適用1?。
此外,大腦無法嚴(yán)格遵循貝葉斯決策理論——除最簡單的情境外,精確的貝葉斯計(jì)算在計(jì)算上是不可行的,只能通過近似方法實(shí)現(xiàn),例如采樣方法(參見本書第6章;Chater 等,2020;Sanborn & Chater, 2016;Vul 等,2014)。然而,要理解人類行為的目的性本質(zhì),我們必須將人類行動(dòng)視為對(duì)理性模型的近似,而非完全不受約束。也就是說,智能決策可以是有限推理的產(chǎn)物,但絕不能是毫無推理的結(jié)果。
7.9 小結(jié)
本書的核心問題是歸納:如何從局部且含噪聲的數(shù)據(jù)中獲知世界的結(jié)構(gòu)?然而,從生物體生存與繁衍的角度來看,任何此類學(xué)習(xí)若不能轉(zhuǎn)化為行動(dòng)(即無法將知識(shí)與我們的價(jià)值觀結(jié)合以決定如何行動(dòng)),都是無用的。貝葉斯決策理論為此問題提供了解決方案,指明了理性智能體應(yīng)如何基于其信念采取行動(dòng)。即便是簡單的決策,也可能涉及復(fù)雜的證據(jù)累積過程;當(dāng)我們考慮相互依賴的序列決策時(shí),這種復(fù)雜性會(huì)進(jìn)一步加劇。盡管如此,認(rèn)知科學(xué)家已在揭示人類決策背后數(shù)學(xué)原理方面取得了實(shí)質(zhì)性進(jìn)展,這些進(jìn)展建立并補(bǔ)充了前幾章所述的概率建模的一般思想。隨著本書進(jìn)入第二部分,我們將探討更復(fù)雜的模型以及在人類認(rèn)知中的更詳細(xì)應(yīng)用,而貝葉斯決策理論的原則將為連接信念與行動(dòng)提供基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.