Learning Inductive Bias with Hierarchical Bayesian Model
分層貝葉斯模型學習歸納偏差
《貝葉斯認知模型 逆向工程思維》
為簡化問題,學習模型通常聚焦于單次學習事件。例如,一個孩子在看到一個帶有標簽的示例后,就學會了“袋熊”(wombat)這一新概念。貝葉斯模型或許可以通過一個先驗分布來解釋這一結果,該先驗分布捕捉了孩子在此次學習事件中所帶入的已有預期。這是一個有益的起點,但至少還有兩個根本性問題有待解決。
第一個問題是:先驗分布從何而來?我們已經(jīng)看到,先驗分布在貝葉斯模型中起著關鍵作用,這意味著我們必須認真思考學習者是如何為特定任務獲得恰當?shù)南闰灥摹?/p>
第二個相關的問題是:當前的詞匯學習事件與孩子生活中其他詞匯學習事件之間有何關聯(lián)?兒童需要學習大量詞匯的含義,因此必須考慮以往的學習事件如何幫助加速未來的學習。例如,學習過以往的詞匯可能幫助孩子意識到,像“袋熊”這樣的新詞更可能指代整個物體,而非物體的某個部分或?qū)傩?。只要學習者面對的是來自同一類別的多個任務,利用以往學習事件通常就是可行的——例如,兒童必須學習多種工具和人工制品的因果結構,并在多種社會情境中發(fā)現(xiàn)適當?shù)男袨槟J健T诿糠N情況下,我們都希望理解兒童是如何“學會學習”的,換句話說,就是學習如何通過發(fā)現(xiàn)并利用不同任務之間的共同要素而得到加速。
本章提出,分層貝葉斯模型(hierarchical Bayesian models)有助于解釋先驗從何而來,以及兒童如何學會學習。分層模型與前幾章中較簡單的模型之間的關鍵區(qū)別在于“抽象”(abstraction)這一概念。如圖8.1所示,人類知識體系通常被組織成多個抽象層次。學習往往需要在這些不同層次上進行推理。例如,學習語言的嬰兒可能認識到:語音是音素(phonemes)的具體實例,音素串連起來構成詞語,而語法規(guī)則則規(guī)定了哪些詞序構成可接受的句子(圖8.1a)。視覺經(jīng)驗可能使嬰兒認識到:世界包含物體,物體由部件組成,且存在更高層次的規(guī)律性,可預測哪些物體傾向于共同出現(xiàn)(圖8.1d)。觀察他人行為的嬰兒可能認識到:這些行為通常是為了實現(xiàn)某種目標,而這些目標是通過串聯(lián)一系列低層次的運動指令來達成的(圖8.1b)。
本章將聚焦于圖8.1中剩下的三個例子:我們探討兒童如何學習多個類別(圖8.1c)、如何學習多個因果模型(圖8.1e),以及如何學習一組物體的多種屬性(圖8.1f)。圖8.1c中的層次結構表明,如果兒童已經(jīng)獲得了關于類別的一般性抽象知識(例如,屬于同一類別的物體往往具有相同形狀),那么他們就更容易學習具體類別(例如,球是圓的)。圖8.1e中的層次結構表明,如果學習者已經(jīng)獲得了關于物體類別的更抽象知識(例如,藥物可能引起頭痛),那么他們就更容易學習涉及特定物體的因果模型(例如,一片Lariam藥片的作用)。最后,圖8.1f中的層次結構表明,如果學習者已經(jīng)獲得了一個結構化表征(例如一棵樹狀結構),能夠指示哪些動物傾向于共享某些特征,那么他們就能對新的生物特征做出更有把握的推斷。
正如我們將看到的,分層貝葉斯模型是一種定義在類似圖8.1所示抽象層次結構之上的概率模型。較高層次的知識為較低層次的推理設定了先驗分布,而對整個層次結構進行的概率推理則可以解釋上層抽象知識是如何習得的。因此,分層貝葉斯模型有助于解釋先驗分布如何從以往的學習事件中獲得,以及這些習得的先驗如何促進后續(xù)學習事件中的快速學習。
8.1 一個分層Beta-二項式模型
我們將從考慮一個簡單的分層模型開始,該模型建立在前幾章討論的拋硬幣模型基礎上。然而,現(xiàn)在我們考慮的是裝有彈珠的袋子而非硬幣——袋子類比于硬幣,黑色和白色彈珠類比于正面和反面,從袋中抽出一顆黑色彈珠類比于拋硬幣得到正面。
想象一下,你得到了一袋新彈珠,并從中抽出一顆彈珠,結果是黑色的。單憑這一觀察本身,并不能提供關于袋內(nèi)顏色分布的有力證據(jù)。然而,假設你之前已從20個先前的袋子中各抽取了20顆彈珠,并觀察到每個袋子中的彈珠都只有一種顏色——要么全是白色,要么全是黑色。那么,你可能會相對確信新袋子里的所有彈珠都是黑色的。先前袋子的經(jīng)驗塑造了你對新袋子所帶入的先驗期望,而你所獲得的這種先驗知識使你能夠僅根據(jù)關于新袋子的一條信息就做出強有力的推斷。
8.1.1 詞匯學習中的形狀偏好(Shape Bias)
到目前為止,我們關注的是關于彈珠袋的推斷,但圖8.2a所概括的分層方法有助于解釋兒童如何在僅獲得一個帶標簽示例的情況下學習詞語。假設一位母親指著臺面上一個陌生的物體,并告訴她的孩子那是一個“spork”(叉勺)。原則上,孩子可能會對這個詞的含義提出多種假設:例如,孩子可能會將這個新詞擴展到任何由相同材料制成的其他物體,或者擴展到任何其他放在臺面上的物體。然而,到了24個月大時,兒童更傾向于將這個新詞擴展到任何在形狀上與原始示例相似的其他人造物體(Smith, Jones, Landau, Gershkoff-Stowe, & Samuelson, 2002)。
人們有時將“同一類別中的成員往往在形狀上相似”這一預期稱為形狀偏好(shape bias)。通過擴展圖8.2a中的分層模型,有助于解釋形狀偏好是如何習得的(另見第1章中的圖1.4和圖1.5)。首先假設這些袋子可以包含多種不同顏色的彈珠,而不僅限于黑色和白色?,F(xiàn)在,θ? 指定了對所有可能顏色集合上的一個分布,而方程(8.4)中的先驗分布 p(θ) 是一個狄利克雷分布(Dirichlet distribution),即第3章中介紹的貝塔分布的 n 維推廣。假設該模型觀察到來自若干袋子的彈珠:從第一個袋子中抽出的所有彈珠都是紅色的,從第二個袋子中抽出的所有彈珠都是綠色的,依此類推。在這樣的證據(jù)下,如果從一個新袋子中僅抽出一顆藍色彈珠,該模型便會自信地推斷出該袋子中的所有彈珠都是藍色的。
現(xiàn)在假設,裝有彩色彈珠的袋子被替換為物體類別,且這些物體在多個維度上變化,而非僅在一個顏色維度上變化。圖8.3展示了一個簡單示例:學習者從三個類別中各觀察到三個物體,并從一個新類別中觀察到單個物體。請注意,這些物體在顏色和形狀上均存在差異。我們可以為每個維度引入一份分層模型的副本:例如,將有一個 θ?? 變量用于第 i 個袋子,以捕捉該袋子內(nèi)的顏色分布;還有一個 θ?? 變量用于捕捉該袋子內(nèi)的形狀分布。圖8.3將這兩個變量合并為一個標記為 θ? 的向量。正如每個維度都有一個 θ? 變量一樣,在第3層級上,每個維度也都有其對應的均值和尺度參數(shù)。
圖8.3a所示的觀測數(shù)據(jù)表明,任何給定類別的成員在顏色上可能有所變化,因此,顏色維度上的尺度參數(shù)的后驗分布會表明該參數(shù)相對較高。然而,來自同一類別的物體具有相同的形狀,因此,模型將推斷形狀維度的尺度參數(shù)相對較低。對這兩個維度的尺度參數(shù)進行上述推斷意味著,模型預期新類別的所有成員都將與所觀察到的單一示例具有相同的形狀,但顏色會有所不同。換句話說,學習到形狀維度的尺度參數(shù)相對較低,使模型獲得了“形狀偏好”,而這種偏好支持了對新類別的快速推斷。
圖8.3b展示了當模型被賦予一項受Smith等人(2002)研究啟發(fā)的新名詞泛化任務時的結果。在訓練階段,模型被展示四個類別中每個類別的兩個示例。圖8.3b顯示了一個訓練數(shù)據(jù)矩陣,其中每一列代表一個示例,各行編碼這些示例的形狀、紋理、顏色和大小。假設每個維度可取10種可能的值——例如,有10種可能的形狀、10種可能的顏色,等等。前兩列表示兩個屬于類別1且具有相同形狀但紋理、顏色和大小不同的物體。請注意,所有屬于同一類別的物體對,在形狀維度上都具有相同的值。
隨后,通過向模型呈現(xiàn)一個“dax”——一個在訓練過程中未出現(xiàn)過的全新類別的示例——來測試模型。在圖8.3中,類別標簽5用于編碼“dax”,測試矩陣的第一列表示新示例。接下來的三列代表三個類別標簽未知的選擇對象。第一個選擇對象在形狀上與dax匹配,第二個在紋理上與dax匹配,第三個在顏色上與dax匹配。模型被要求推斷這三個選擇對象中最有可能是“dax”的是哪一個。圖8.3中的黑色條形顯示了三個對象的相對選擇概率,表明在形狀上匹配的對象被推斷為“dax”。白色條形總結了Smith等人(2002)報告的數(shù)據(jù),顯示接觸過八個訓練對象的19個月大嬰兒在新名詞泛化測試中也選擇了形狀匹配的對象。2 這一結果尤其有趣,因為未曾接觸過訓練對象的19個月大嬰兒并不會以這種方式進行泛化;他們會在三個選擇對象中隨機選擇。因此,Smith等人(2002)的研究支持了“形狀偏好是從經(jīng)驗中習得的”這一觀點。
圖8.3a中的分層模型已在多個方面得到擴展(Kemp et al., 2007; Perfors & Tenenbaum, 2009),研究人員還提出了其他關于類別學習的分層模型(Navarro, 2006; Heller, Sanborn, & Chater, 2009; Canini, Shashkov, & Griffiths, 2010),包括專注于更豐富、更高維度的視覺類別表征的模型(Zhu, Chen, Torralba, Freeman, & Yuille, 2010; Salakhutdinov, Tenenbaum, & Torralba, 2013; Li, Fergus, & Perona, 2006; Sudderth, Torralba, Freeman, & Willsky, 2005; Lake, Salakhutdinov, & Tenenbaum, 2015)。盡管這些模型做出了各種形式的假設,但一個共同的主題是:關于類別的知識被組織成多個抽象層級,而在更抽象的層級上進行學習有助于解釋人類如何能夠僅憑一個或幾個示例就迅速學會新的類別。
8.2 因果學習
現(xiàn)在考慮一個學習者必須從同一“家族”中學習多個因果系統(tǒng)的問題。例如,在使用過幾部先前的手機后,學習者可能需要弄清楚如何使用她剛買的新手機。我們將考慮一個簡單的例子,其中每個系統(tǒng)都可以用一個至多包含一個因果關系的簡單因果模型來描述。例如,假設學習者關心降壓藥是否會引起頭痛作為副作用。每種藥物的因果模型是一個因果圖模型,表明一個原因變量(服用該藥物)是否概率性地導致一個結果變量(經(jīng)歷頭痛)。
學習幾種先前藥物的因果模型,可以實現(xiàn)對一種新藥物的快速學習。例如,假設學習者發(fā)現(xiàn)某些降壓藥從不會引起頭痛,而另一些則大約一半時間會引起頭痛。想象一下,學習者現(xiàn)在服用了一種新藥,并經(jīng)歷了頭痛。盡管她觀察到這種新藥在引起頭痛方面有100%的成功率,她仍可能推斷該藥物大約一半時間會引起頭痛。
圖8.4展示了一個分層模型,可用于捕捉這類推斷。第1層指定了八種降壓藥各自的列聯(lián)數(shù)據(jù),并顯示了學習者在服用每種藥物后經(jīng)歷頭痛(e?)和未經(jīng)歷頭痛(e?)的次數(shù)。例如,學習者曾10次服用藥物 o?,且在這10次中均未經(jīng)歷頭痛。請注意,藥物 o? 至 o? 似乎不會引起頭痛,但藥物 o? 至 o? 似乎大約一半時間會引起頭痛。為簡化起見,我們假設降壓藥是引起頭痛的唯一可能原因——換句話說,我們假設如果學習者當天沒有服藥,則她當天不會經(jīng)歷頭痛。
第2層展示了針對每種具體藥物的因果模型 m?。藥物 o? 的模型不包含箭頭,表明該藥物不會引起頭痛。藥物 o? 的模型包含一個箭頭,箭頭上的數(shù)值標簽表明 o? 是一種具有0.5因果強度的頭痛生成原因。
第3層指定了一個因果圖式(causal schema),用于概括關于藥物的一般信息。該圖式將藥物組織成類別,其中 z? 表示藥物 i 的類別分配。該圖式還包括一組 m?,其中包含每個類別的因果模型。圖8.4中展示了兩個類別,類別 A 的因果模型 m?? 表明該類別中的藥物傾向于不引起頭痛。類別 B 的因果模型 m?? 表明屬于該類別的藥物大約一半時間會引起頭痛。
圖8.4中的層次結構可以通過定義分布將其轉(zhuǎn)化為一個概率模型,這些分布規(guī)定了在給定上一層級變量的情況下,各層級變量是如何生成的。我們提供了一個基于Kemp等人(2010)提出的完整指定模型的非正式描述。我們假設,對于藥物 i 的所有因果事件都是獨立地從該藥物的因果模型中抽取的。在第2層,藥物 i 的因果模型 m? 是從一個分布中抽取的,該分布確保模型傾向于匹配第3層類別 z? 對應的模型。最后,在第3層,存在關于因果模型和類別分配的先驗。類別分配的先驗 P(z) 由中文餐館過程(CRP;參見第9章)誘導產(chǎn)生,并捕捉了類別總數(shù)會很小的預期。
通過對第3層的類別分配 z 和圖式層級的因果模型 m? 進行積分,可以對新藥物的因果模型 做出推斷:
圖8.4a 中的模型有助于解釋:學習多個因果模型的結構如何支持對新因果模型結構的快速推斷。分層貝葉斯模型還被應用于其他幾種因果學習問題(Hagmayer & Mayrhofer, 2013)。Lucas 和 Griffiths (2010) 開發(fā)了一個分層模型,有助于解釋人們?nèi)绾螌W習因果關系的功能形式——例如,人們?nèi)绾螌W習多個原因是以合取關系(僅當所有原因都存在時才產(chǎn)生效果)還是析取關系(只要至少一個原因存在即產(chǎn)生效果)相結合的;Lucas, Bridgers, Griffiths, 和 Gopnik (2014a) 在發(fā)展心理學背景下探討了相同的思想。Goodman, Ullman, 和 Tenenbaum (2011) 描述了一個分層模型,有助于解釋學習者如何理解“因果干預”這一抽象概念。在所有這些案例中,分層模型都有助于解釋抽象因果知識是如何習得的,以及這種知識如何塑造人們對新因果系統(tǒng)的快速推斷。
8.3 屬性歸納
作為我們分層貝葉斯推斷的第三個例子,考慮這樣一個問題:學習者發(fā)現(xiàn)某個領域中的一個或多個成員具有一種新屬性,并必須決定如何將該屬性擴展到該領域的其余成員。例如,已知馬攜帶酶X132,那么牛也攜帶這種酶的可能性有多大(Rips, 1975; Osherson, Smith, Wilkie, Lopez, & Shafir, 1990)?盡管學習者可能對酶X132知之甚少,但她之前曾觀察過馬和牛的許多其他特征,注意到馬和牛共享其中許多特征,這表明它們很可能都攜帶酶X132。本節(jié)描述了一個分層模型,用于捕捉這類推斷,并有助于解釋關于一組對象屬性的學習如何支持對這些對象新屬性的快速推斷。
其中 P(enew∣dnew,S)在方程 (8.8) 中定義。該積分可通過使用 MCMC 方法從分布 p(S∣d1,…,dn,dnew)中抽取樹樣本進行近似(Huelsenbeck & Ronquist, 2001)?;蛘?,可以識別出一棵具有高后驗概率的單一樹,然后利用這棵樹對新屬性的擴展做出預測。Kemp、Perfors 和 Tenenbaum(2004;另見 Kemp & Tenenbaum, 2009)采用了第二種策略,表明單棵樹足以準確預測人類關于新生物屬性擴展的推斷。
圖8.5中的模型假設擴展 ei是在某個真實但未知的樹 S上生成的。樹狀結構可能有助于捕捉生物物種之間的分類關系,但在其他情境下,其他類型的結構化表征(如鏈式、環(huán)形或聚類集合)可能更有用。理解哪種表征最適合特定情境,有時被認為依賴于先天知識:例如,Atran(1998)認為,將生物種類組織成樹狀結構的傾向反映了某種先天決定的認知模塊。分層貝葉斯方法通過展示一個模型如何發(fā)現(xiàn)最適合給定數(shù)據(jù)集的表征形式,挑戰(zhàn)了這一結論的必然性。我們可以通過在圖8.5中增加另一層級來構建此類模型,該層級指定對第4層級的先驗分布。假設變量 F表示 S是一棵樹、一條鏈、一個環(huán),或是某種其他結構形式的實例。在給定關于可能形式假設空間的先驗分布的情況下,圖8.5中的模型能夠同時發(fā)現(xiàn)最佳表征形式 F以及該形式的最佳實例 S,從而最好地解釋一組觀測到的屬性。Kemp 和 Tenenbaum(2008)正式定義了這類模型,表明它能為多個領域選擇適當?shù)谋碚餍问剑▍⒁妶D1.2中的圖示)。例如,當提供有關動物及其屬性的信息時,該模型會選擇樹狀結構表征;而當提供有關最高法院法官投票模式的信息時,它則會選擇線性表征(即自由-保守光譜)。
8.4 超越嚴格的層級結構
分層模型的關鍵特征在于它包含了多個抽象層級。到目前為止討論的三個模型都是簡單示例,它們還有一個共同的特性:每個模型中的變量都可以排列成一棵樹,使得第 k 層(除根節(jié)點外)的每個變量僅依賴于第 k+1 層中的一個變量。然而,在許多情況下,有必要使用具有多個層級但組織方式不那么嚴格的形式化表示。例如,圖8.5暗示生物屬性是在第3層的一個樹狀分類體系上生成的,但某些屬性(例如,“血液中含有高水平的歐米伽-3脂肪酸”)可能依賴于棲息地和食性等因素,而這些因素會跨越該分類體系(Heit & Rubinstein, 1994)。
對圖8.5中模型的一個自然擴展,是在第3層引入多種結構,包括樹狀分類體系、食物網(wǎng)(Shafto, Kemp, Bonawitz, Coley, & Tenenbaum, 2008),以及按棲息地對動物進行的分類(Shafto, Kemp, Mansinghka, & Tenenbaum, 2011),并允許第2層的某一特定屬性依賴于這些結構中的一個或多個。
圖形模型的語言足夠豐富,能夠表達許多具有多層抽象但并非嚴格分層的模型。我們已經(jīng)見過若干這樣的例子。第5章中引入的主題模型表明,每篇文檔中的詞語依賴于兩個變量:一個是文檔特有的主題向量 θ,另一個是整個文檔集合共享的主題集合 φ。因此,圖5.9中的圖形模型并不呈樹狀結構。圖5.14a中的模型將主題模型與隱馬爾可夫模型(HMM)相結合,更是明顯偏離了嚴格的分層方法。該模型融合了一個語義模型(主題模型,即潛在狄利克雷分配)和一個句法模型(HMM),文檔中的第 i 個詞可能由其中任一組件生成。將這兩個組件結合起來,所產(chǎn)生的圖形模型雖具有多層抽象,卻與樹狀結構大相徑庭。
就我們的目的而言,這兩個模型都可被視為分層模型,因為它們都包含了多個抽象層級。從某些角度看,“多層級建?!保╩ultilevel modeling)或許是本章所述方法更恰當?shù)姆Q謂,但為了與認知科學文獻保持一致,我們?nèi)允褂谩胺謱咏!保╤ierarchical modeling)這一術語。
8.5 未來方向
本章所討論的分層模型有助于解釋:先前情境中的經(jīng)驗如何支持對新情境的快速學習。這類“學會學習”(learning to learn)最引人注目的例子可能發(fā)生在兒童早期,此時兒童正在構建抽象知識,而這些知識將成為其后續(xù)大量學習的基礎。若干研究團隊已指出,分層貝葉斯模型能夠為認知發(fā)展提供洞見(Perfors, Tenenbaum, Griffiths, & Xu, 2011;Glassen & Nitsch, 2016;Ullman & Tenenbaum, 2020),第20章回顧了該領域的一些研究成果。然而,將這一方法應用于更廣泛的發(fā)育現(xiàn)象,仍是未來研究的重要挑戰(zhàn)。
學習并不會在兒童成年后停止,而是貫穿人的一生。機器學習研究者已開發(fā)出旨在模擬這種能力的終身學習(lifelong learning)模型(Thrun & Pratt, 2012),而分層貝葉斯方法為應對這一挑戰(zhàn)提供了一條有前景的路徑。原則上,分層貝葉斯框架可以無限期地持續(xù)遭遇新的學習情境,未來的研究應致力于開發(fā)能夠在以年或數(shù)十年為單位的時間尺度上進行學習的模型,而非僅限于分鐘、小時或天的尺度。
除了延長學習發(fā)生的時間跨度,未來的工作還應努力擴展單一分層框架所能適用的任務范圍。受發(fā)展通用人工智能(artificial general intelligence)目標的啟發(fā),近期人工智能(AI)領域的研究已從僅學習單一任務的系統(tǒng)(例如玩Atari游戲(Mnih等,2015))轉(zhuǎn)向能夠?qū)W習多種任務的系統(tǒng)(例如玩Atari游戲、生成圖像描述以及堆疊積木(Reed等,2022))。分層貝葉斯模型(Wilson, Fern, Ray, & Tadepalli, 2007)為實現(xiàn)類似的演進路徑提供了可能性,未來研究可探索這些模型在多大程度上能夠解釋人類的通用學習能力。
分層貝葉斯方法面臨的最后一項挑戰(zhàn),是與神經(jīng)計算模型建立更深層次的聯(lián)系。預測編碼(predictive coding)理論認為,大腦區(qū)域被組織成一個層級結構,支持自下而上和自上而下的概率推斷(Clark, 2013),而分層貝葉斯方法為形式化這些思想提供了自然的框架(Lee & Mumford, 2003;Friston, 2009)。當前的研究正利用分層貝葉斯模型,以更深入地理解功能異常(Williams, 2018)和正常運作的大腦中的計算機制(Rohe, Ehlis, & Noppeney, 2019)。
8.6 結論
本章開頭我們提出,分層貝葉斯模型可以應對兩個挑戰(zhàn):一是有助于解釋先驗分布從何而來,二是有助于解釋人類如何“學會學習”(learn to learn)。我們僅部分地回應了第一個挑戰(zhàn)。本章介紹的三個模型有助于說明關于類別、因果模型和屬性的抽象知識是如何獲得的,以及這種抽象知識如何誘導出先驗分布,從而支持對新類別、新因果模型和新屬性的快速推斷。因此,我們展示了某些先驗是如何被習得的;但在每種情況下,這種學習本身都依賴于某種形式的先驗假設。例如,這些模型依賴于預先固定的超參數(shù),我們也假設了每個分層模型的結構是事先已知的。當然,這些假設是可以放松的——例如,可以通過在分層模型中增加一個額外層級,為超參數(shù)引入先驗分布,從而實現(xiàn)對超參數(shù)的學習。然而,無論我們增加多少層級,分層貝葉斯模型始終需要以某種形式的先驗知識為基礎。因此,這些模型的目標并非解釋概率模型如何在完全不依賴任何先驗知識的情況下取得成功,而是解釋一個初始具備合理可視為先天(innate)的先驗知識的系統(tǒng),如何獲得相對復雜的知識。
我們通過展示分層貝葉斯模型的上層如何捕捉跨多種情境普遍適用的知識,來回應“學會學習”的問題。在這種情況下,上層知識的獲取支持了下層的快速學習,因此可被描述為“學會學習”。我們僅簡要觸及了分層模型在發(fā)展方面的含義,但這些模型之所以具有吸引力,部分原因在于它們提供了一種理解學習如何在人的一生中不斷變化并加速的途徑。
心理學家、統(tǒng)計學家和機器學習研究者已開發(fā)出許多本章未討論的其他分層模型。例如,分層模型已被用于解釋人們?nèi)绾螌W習新說話者的言語特征(Pajak, Fine, Kleinschmidt, & Jaeger, 2016),如何與新伙伴建立交流慣例(Hawkins et al., 2023),如何預測從未執(zhí)行過的行動結果(Gershman & Niv, 2015),以及如何習得適用于多個運動任務的抽象策略(Braun, Waldert, Aertsen, Wolpert, & Mehring, 2010)。這些模型在許多方面各不相同,但都依賴于在抽象層級結構上進行的概率推斷。因此,分層貝葉斯模型再次印證了前幾章所強調(diào)的一個核心主題:概率推斷與結構化表征——在此即抽象層級結構——相結合所能實現(xiàn)的效果,遠超過任一方法單獨使用時所能達到的水平。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.