夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

分層主動推理中的動態(tài)規(guī)劃 Dynamic planning in hierarchical active inference

0
分享至

Dynamic planning in hierarchical active inference

分層主動推理中的動態(tài)規(guī)劃

https://arxiv.org/abs/2402.11658

本文重點在于:如何在主動推理(Active Inference)框架內(nèi),構(gòu)建一個能夠進行動態(tài)規(guī)劃的層級化智能體模型,以解決現(xiàn)實世界中如工具使用等復(fù)雜、變化環(huán)境下的任務(wù)。

文章的主要貢獻和重點可概括為以下幾點:

  1. 提出“混合計算”新方向: 文章明確指出,現(xiàn)有主動推理研究常將運動控制與決策制定割裂開來。本文旨在彌合這一鴻溝,探索一種層級化的混合模型(Hybrid Models),該模型結(jié)合了離散表征(用于高層次決策與規(guī)劃)和連續(xù)表征(用于低層次感覺運動控制),從而實現(xiàn)真正的“動態(tài)規(guī)劃”。

  2. 整合生物行為的關(guān)鍵特征: 作者強調(diào),要設(shè)計出有效的智能體,必須模擬人類大腦的三個核心能力:

  • 理解可供性 (Affordances)

    :即理解物體能提供何種交互可能性。

  • 構(gòu)建深層靈活的層級結(jié)構(gòu) (Flexible Hierarchies)

    :模仿大腦對身體和環(huán)境的層級化組織與控制。

  • 基于連續(xù)感官證據(jù)生成動態(tài)計劃 (Dynamic Discretized Plan)

    :能在不斷變化的環(huán)境中,通過想象和推斷未來狀態(tài)來規(guī)劃多步行動。

從簡單單元到復(fù)雜層級架構(gòu)的設(shè)計: 文章采用由簡入繁的論述方式:

  • 第2章 :從最簡單的連續(xù)時間單元出發(fā),引入“意圖”(Intention)的概念,讓智能體不僅能追蹤目標,還能根據(jù)意圖調(diào)制自身動力學,實現(xiàn)多步行為。
  • 第3章 :將多個單元組合成層級結(jié)構(gòu),區(qū)分“內(nèi)稟”與“外在”參考系,解決復(fù)雜的運動學問題(如手持物體行走),并探討了層級間信息傳遞的機制。
  • 第4章 :引入離散接口,這是實現(xiàn)高級動態(tài)規(guī)劃的關(guān)鍵。通過離散的“策略”(Policies)和“隱藏原因”,智能體可以進行在線重規(guī)劃,應(yīng)對意外情況,并在不同時間尺度上協(xié)調(diào)動作。最終提出了一個混合單元(Hybrid Unit),它結(jié)合了離散的意圖選擇和連續(xù)的狀態(tài)推斷,實現(xiàn)了貝葉斯模型約簡下的動態(tài)推理。

4. 討論與展望: 在討論部分,作者總結(jié)了當前模型的局限性(如固定結(jié)構(gòu)、計算復(fù)雜度),并指出了未來極具潛力的研究方向:

  • 如何讓智能體自主學習其生成模型和策略,而非依賴預(yù)設(shè)知識。

  • 如何利用無限狄利克雷過程等貝葉斯方法,在動態(tài)環(huán)境中實現(xiàn)高效的結(jié)構(gòu)學習。

  • 探索分布式?jīng)Q策網(wǎng)絡(luò)的可能性,挑戰(zhàn)傳統(tǒng)的中心化決策假設(shè)。

  • 最終目標是構(gòu)建一個能像人類一樣,通過感覺運動經(jīng)驗主動改造環(huán)境、并在此過程中產(chǎn)生真正“理解”的智能體。

總而言之,本文并非僅僅介紹一個新算法,而是為構(gòu)建下一代具有類人認知與規(guī)劃能力的人工智能系統(tǒng),提供了一套完整的理論框架和設(shè)計藍圖,其核心在于融合層級、混合、動態(tài)三大要素,以實現(xiàn)主動推理框架下真正的“動態(tài)規(guī)劃”。


摘 要
所謂動態(tài)規(guī)劃,我們指的是人腦推斷并施加與認知決策相關(guān)的運動軌跡的能力。近年來興起的一種范式——主動推理(active inference),為理解生物有機體的適應(yīng)性提供了根本性洞見:生物體持續(xù)致力于最小化預(yù)測誤差,從而將自身限制在與生命相容的狀態(tài)之中。過去數(shù)年間,大量研究表明,人類與動物的行為均可在主動推理框架下得到解釋——無論是離散的決策過程,還是連續(xù)的運動控制——進而啟發(fā)了機器人學與人工智能領(lǐng)域的創(chuàng)新解決方案。然而,現(xiàn)有文獻仍缺乏一種全面視角,以有效規(guī)劃在動態(tài)變化環(huán)境中具有現(xiàn)實可行性的行動。以建模諸如工具使用等復(fù)雜任務(wù)為目標,我們深入探討主動推理中的動態(tài)規(guī)劃問題,并始終緊扣生物行為的兩個關(guān)鍵方面:一是理解并利用可供性(affordances)以實現(xiàn)物體操控的能力;二是習得自我與環(huán)境(包括其他智能體)之間層級化的交互關(guān)系。我們從一個簡單單元出發(fā),逐步描述更為復(fù)雜的結(jié)構(gòu),比較近期提出的不同設(shè)計方案,并輔以基礎(chǔ)實例。本研究有意區(qū)別于以神經(jīng)網(wǎng)絡(luò)與強化學習為中心的傳統(tǒng)觀點,轉(zhuǎn)而指向主動推理中一個尚未充分探索的方向:層級模型中的混合表征(hybrid representations)。

關(guān)鍵詞:主動推理 動態(tài)規(guī)劃 混合模型 工具使用

  1. 引言
    大腦具有三個特征,與在動態(tài)變化環(huán)境中執(zhí)行規(guī)劃任務(wù)(如工具使用)密切相關(guān)。

首先,大腦不僅能維持對身體狀態(tài)的估計,還能維持對與自身相關(guān)的外部物理變量的估計。已有研究表明,獼猴后頂葉皮層(Posterior Parietal Cortex, PPC)通過感覺運動表征對物體進行編碼,而此類表征反映了身體結(jié)構(gòu)(Breveglieri, Galletti, Bosco, Gamberini, & Fattori, 2015;Romero, Pani, & Janssen, 2014)。這些表征對物體操控極為有用,因為它們高效地刻畫了物體所提供的行動可能性,即所謂“可供性”(affordances)(Yamanobe et al., 2017)。例如,對一個杯子的編碼可依據(jù)意圖不同而不同——若意圖是投擲,則采用動力性抓握(power grip);若意圖是飲水,則采用精巧性抓握(precision grip)。此外,為在動態(tài)環(huán)境中及時行動,PPC可在一連串動作過程中并行編碼多個物體,即便不同子目標之間存在顯著的時間延遲(Baldauf, Cui, & Andersen, 2008)。

第二個特征涉及靈活且深層的層級結(jié)構(gòu)。層級性結(jié)構(gòu)無處不在,不僅體現(xiàn)為環(huán)境中物理屬性之間的因果關(guān)系,更是生物體與環(huán)境互動方式的內(nèi)在屬性。即便是動物最復(fù)雜的運動學結(jié)構(gòu),也遵循一種嚴格的層級策略,即不同肢體均從以身體為中心的參考系逐級衍生。大腦功能網(wǎng)絡(luò)的層級模塊性已被廣泛認可(Hilgetag & Goulas, 2020;Meunier, 2009),體感與運動皮層中對身體圖式(body schema)的表征亦是如此(Holmes & Spence, 2004),頂葉與前運動皮層中關(guān)于層級化運動序列的組織同樣如此(Yokoi & Diedrichsen, 2019)。尤其值得注意的是,身體圖式并非靜態(tài)實體,而會隨人類個體在兒童期與青春期發(fā)育過程同步變化(Assaiante, Barlaam, Cignetti, & Vaugoyeau, 2014)。令人驚訝的是,神經(jīng)系統(tǒng)能夠以某種方式將外部物體與自我關(guān)聯(lián)起來——盡管這種關(guān)聯(lián)未必反映身體與環(huán)境之間真實的因果關(guān)系——卻最有利于在特定情境下高效行動。生理學研究表明,隨著工具使用的頻繁開展,獼猴大腦的頂葉與運動區(qū)會逐步調(diào)整其表征,為工具“騰出空間”,從而延長感知到的肢體長度(Iriki, Tanaka, & Iwamura, 1996;Obayashi et al., 2001)。這種適應(yīng)性具有高度可塑性,可在極短時間內(nèi)同化外部物體(Carlson, Alvarez, Wu, & Verstraten, 2010),并引發(fā)對身體形態(tài)的體感表征改變;此類改變甚至在工具使用結(jié)束后仍持續(xù)存在(Cardinali et al., 2009)。

第三個特征是依據(jù)連續(xù)的感官證據(jù)構(gòu)建動態(tài)、離散化計劃的能力。復(fù)雜任務(wù)涉及決策,而大腦已知可通過多種機制實現(xiàn)決策(Pezzulo, Donnarumma, Maisto, & Stoianov, 2019)。其中尤為重要的一種機制是“為深思熟慮而進行的規(guī)劃”(planning for deliberation),亦稱“替代性試錯”(vicarious trials and errors):主體在生成并評估多個備選方案后,才最終選定某一行動(Redish, 2016)。人類規(guī)劃最具吸引力的一面在于:其具備想象能力,或曰內(nèi)源性生成對未來狀態(tài)的動態(tài)表征的能力——包括通向這些狀態(tài)的潛在軌跡與子目標(Stoianov, Maisto, & Pezzulo, 2022;Stoianov, Pennartz, Lansink, & Pezzulo, 2018)。海馬體是支持軌跡生成的關(guān)鍵神經(jīng)結(jié)構(gòu),但規(guī)劃過程是與其他腦區(qū)協(xié)同實現(xiàn)的(Redish, 2016)。

那么,人腦如何捕獲自我與環(huán)境的層級組織與動態(tài)特性,以實現(xiàn)有目的的規(guī)劃?一種新興理論是預(yù)測編碼(predictive coding)(Clark, 2016;Friston & Kiebel, 2009;Hohwy, 2013;Rao & Ballard, 1999)。近年來,該理論日益受到關(guān)注,并自稱為皮層功能的統(tǒng)一性范式。依據(jù)預(yù)測編碼,生命體通過構(gòu)建一個內(nèi)部生成模型來理解世界,該模型模擬外部生成過程中的因果關(guān)系。從關(guān)于世界的高層假設(shè)出發(fā),一系列神經(jīng)預(yù)測逐級向下傳遞,最終形成對感官證據(jù)的低層預(yù)測。將模型的預(yù)測與實際感覺輸入進行比較,會引發(fā)另一波自下而上傳遞的預(yù)測誤差信號。模型反復(fù)迭代調(diào)整自身結(jié)構(gòu),直至所有預(yù)測誤差被最小化——即模型能準確預(yù)測接下來將發(fā)生什么。這種優(yōu)化機制不同于傳統(tǒng)深度學習:其信息傳遞是局部的;且向上層級傳遞的并非某特征的檢測結(jié)果,而是模型對其預(yù)測的“驚訝程度”(即預(yù)測誤差大小)。除在諸多情境下推動了認知與神經(jīng)科學研究(Clark, 2013;Hohwy, 2020;Millidge, Seth, & Buckley, 2022;Shipp, 2016)外,該理論亦影響了機器學習的新方向:預(yù)測編碼網(wǎng)絡(luò)(Predictive Coding Networks, PCNs)已被證明在分類與回歸任務(wù)中具有良好泛化性能(Ororbia & Kifer, 2022;Salvatori et al., 2023),相較于神經(jīng)網(wǎng)絡(luò)具備若干關(guān)鍵優(yōu)勢,同時仍能近似實現(xiàn)反向傳播算法(Millidge, Tschantz, & Buckley, 2022;Whittington & Bogacz, 2017, 2019)。

盡管預(yù)測編碼可闡明錯覺與雙眼競爭等視覺現(xiàn)象(Hohwy, Roepstorff, & Friston, 2008),但它僅解釋了故事的前半部分(即感知部分)。具體而言,它并未解釋為何有機體會與環(huán)境發(fā)生交互——而正是這一過程,導(dǎo)致前文舉例中獼猴大腦在工具使用時主動“扭曲”其身體圖式。沿著這一線索,第二種創(chuàng)新性視角被提出,旨在揭示不僅適用于皮層功能、更適用于所有生命體行為的統(tǒng)一第一原理。該視角稱為主動推理(active inference)(Buckley, Kim, McGregor, & Seth, 2017;Friston, 2010;Friston, Daunizeau, Kilner, & Kiebel, 2010;Parr, Pezzulo, & Friston, 2021),其理論根基與預(yù)測編碼相同,但進一步引入了生物行為的兩個關(guān)鍵假設(shè):
第一,生命體并非僅對世界維持靜態(tài)假設(shè),還會構(gòu)建內(nèi)部動態(tài)——無論是瞬時軌跡還是未來狀態(tài)——以預(yù)期不同時間尺度上事件的展開;
第二,這些動態(tài)假設(shè)可通過運動實現(xiàn)。
后一假設(shè)將“模型”轉(zhuǎn)化為“智能體”(agent),引出一個看似反直覺卻極具洞見的推論:感知使智能體的假設(shè)順應(yīng)環(huán)境(如預(yù)測編碼所述),而行動則迫使環(huán)境順應(yīng)假設(shè)——即通過采樣那些能使假設(shè)為真的觀測結(jié)果。若這些假設(shè)或信念對應(yīng)于由表型等所定義的期望狀態(tài),那么在行動與感知之間的循環(huán)往復(fù),最終將使智能體得以生存。這正是所謂自由能原理(free energy principle)的核心:為維持穩(wěn)態(tài),所有生物體必須持續(xù)且主動地最小化其感官狀態(tài)與基于少數(shù)生命兼容選項所形成的期望之間的差異。舉一實例:若我“相信”自己手中正握持一工具,我將竭盡全力去觀察該工具出現(xiàn)在我手中的視覺圖像;在此過程中,一個由伸手與抓握組成的協(xié)調(diào)動作便自然發(fā)生。該觀點迥異于神經(jīng)科學中廣泛確立的“刺激–反應(yīng)”映射模式;已有證據(jù)表明,相較于最優(yōu)控制與強化學習(Reinforcement Learning, RL),它可能更具生物學合理性(Adams, Shipp, & Friston, 2013;Brown, Friston, & Bestmann, 2011;Friston, 2011;Friston, Daunizeau, & Kiebel, 2009)。

主動推理的實現(xiàn)可分為兩大框架,分別用于模擬人類與動物行為的兩個互補方面:

  • 運動控制

    (Anil Meera et al., 2022;Lanillos et al., 2021;Mannella, Maggiore, Baltieri, & Pezzulo, 2021;Maselli, Lanillos, & Pezzulo, 2022;Pezzato, Ferrari, & Corbato, 2020;Priorelli et al., 2023;Taniguchi et al., 2023);

  • 決策制定

    (Adams, Stephan, Enno, Brown, & Frith & Friston, 2013;Donnarumma, Costantini, Ambrosini, Friston, & Pezzulo, 2017;Friston, Parr, & de Vries, 2017;Kaplan & Friston, 2018;Proietti, Pezzulo, & Tessari, 2023)。

原則上,主動推理或可成為理解人腦中目標導(dǎo)向行為如何涌現(xiàn)的關(guān)鍵(Pezzulo et al., 2024a)。例如,用于操控的相關(guān)物體可通過運動指令與感官證據(jù)之間的閉環(huán),逐漸被納入“自我”身份之中——這意味著,一旦智能體開始預(yù)測自身運動的后果,其“自我”與環(huán)境之間的邊界便會擴展(Lanillos, Pages, & Cheng, 2020)。此外,主動推理可能推動當前人工智能體取得關(guān)鍵進展,進一步發(fā)展一個前景廣闊的研究方向——即“以推理實現(xiàn)規(guī)劃”(planning as inference)(Botvinick & Toussaint, 2012;Toussaint, 2009;Toussaint & Storkey, 2006)。上述三個特征對于設(shè)計能應(yīng)對現(xiàn)實應(yīng)用(如工具使用)的主動推理智能體至關(guān)重要。但問題在于:如何將三者統(tǒng)合為一個整體性視角?換言之,如何在含多個物體的層級結(jié)構(gòu)中實現(xiàn)動態(tài)規(guī)劃?

為回答這一問題,本研究探索了主動推理中一個替代性方向:即朝向層級系統(tǒng)中的混合計算(hybrid computations in hierarchical systems)。我們系統(tǒng)分析了運動控制領(lǐng)域中已應(yīng)用的多種設(shè)計方案,深入考察了物體可供性、深層層級結(jié)構(gòu),以及在連續(xù)信號中進行規(guī)劃等問題。以“如何建模工具使用”為出發(fā)點,我們從一個簡單單元入手,逐步構(gòu)建出更豐富的模塊;這些模塊可按層級方式聯(lián)結(jié),并展現(xiàn)出有趣的高層特性。
第2章中,我們以單自由度(single-DoF)智能體為對象,探究如何表征可供性,并僅在連續(xù)時間內(nèi)實現(xiàn)多步行為;
第3章中,我們分析將不同單元組合為單一網(wǎng)絡(luò)的意涵,采用更復(fù)雜的運動學構(gòu)型,并區(qū)分內(nèi)在動態(tài)與外在動態(tài);
第4章中,我們闡述在連續(xù)環(huán)境中引入離散決策的優(yōu)勢,聚焦于混合結(jié)構(gòu),并探討離散與連續(xù)兩種表征世界之間的若干對應(yīng)關(guān)系。
最后,在“討論”部分,我們深入論述離散與連續(xù)表征協(xié)同處理的益處,并就該主題的未來研究方向提出若干建議。

  1. 可供性建模
    本章中,我們闡釋一個基本單元在連續(xù)時間中的推理機制。隨后,我們逐一介紹為實現(xiàn)簡單任務(wù)中的多步行為而引入的修改與特性——此類任務(wù)無需深層的層級建模,亦無需在線重規(guī)劃。

連續(xù)時間主動推理框架(Friston, 2008;Friston et al., 2009;Priorelli, Maggiore, et al., 2023)——通常與低層感覺運動環(huán)路相對應(yīng)——利用廣義濾波(generalized filtering)(Friston, Stephan, Li & Daunizeau, 2010)對自我與環(huán)境的瞬時軌跡進行建模;這些軌跡通過最小化一種稱為變分自由能(variational free energy)的量推斷得出,后者即機器學習中所稱的證據(jù)下界(evidence lower bound, ELBO)的負值。與最優(yōu)控制不同,主動推理中的運動指令源自本體感覺預(yù)測(proprioceptive predictions),而這些預(yù)測通過經(jīng)典的脊髓反射?。╯pinal reflex arcs)得以實現(xiàn)(Adams, Shipp, & Friston, 2013)。這消除了對代價函數(shù)的需求——因為逆模型直接從本體感覺(而非潛變量)狀態(tài)映射至動作——并將控制問題轉(zhuǎn)化為推理問題(Friston, 2011)。

在主動推理中對物體的建模,近期已在若干情境中展開:

  • 主動物體重建

    (active object reconstruction)(Ferraro, Van de Maele, Mazzaglia, Verbelen, & Dhoedt, 2022;van Bergen & Lanillos, 2022;Van de Maele, Verbelen, Mazzaglia, Ferraro, & Dhoedt, 2023;Van de Maele, Verbelen, et al., 2022):其中智能體為多個元素編碼相互獨立的表征,并通過動作更準確地推斷其動態(tài)特性;

  • 眼動行為模擬

    (Adams, Aponte, Marshall, & Friston, 2015):其中目標信念的動態(tài)受一隱藏位置偏置;

  • 認知可供性分析

    (epistemic affordance)(Donnarumma et al., 2017):即不同物體的可供性如何隨智能體信念變化而改變。

在連續(xù)時間中,此類可供性可表達為與潛在智能體構(gòu)型相對應(yīng)的內(nèi)稟參考系(intrinsic reference frames),從而定義與物體交互的特定方式。根據(jù)智能體意圖調(diào)整這些附加信念(Priorelli & Stoianov, 2023b),可使其在動態(tài)情境中高效運作——例如用眼睛追蹤移動目標(Adams et al., 2015),或在運動中抓取物體(Priorelli & Stoianov, 2023a),并將其放置于目標位置(Priorelli & Stoianov, 2024c)。

2.1 簡單智能體
最基本的單元如圖1(a)所示。這是連續(xù)時間主動推理智能體的最簡形式,我們僅保留了關(guān)鍵節(jié)點,從而便于以如下似然函數(shù) 和動力學函數(shù)描述一個速度控制的動態(tài)系統(tǒng):









這個代理如何執(zhí)行一個簡單的到達運動?如圖1(a)所示,我們可以將臂部角度和速度編碼為廣義隱藏狀態(tài)。我們將在以后討論本體感覺和外感受域之間的關(guān)系;目前,我們考慮一個具有臂部關(guān)節(jié)角度和手的笛卡爾位置之間一一映射的單一自由度。通過指示目標 ρ 來達到,我們可以定義以下動力學函數(shù):





但是代理在實踐中是如何移動的呢?如介紹中提到的,行動是自由能原則的另一面,通過該原則,代理采樣那些符合其先驗信念的觀測。實際上,除了感知推理(預(yù)測編碼中的典型)之外,主動推理還假設(shè)生物體通過與環(huán)境的互動來最小化自由能;這種最小化簡化為一個更簡單的更新,僅依賴于(本體感覺)預(yù)測誤差。由于這些預(yù)測誤差是從代理的信念中產(chǎn)生的,這意味著每當后者偏向于某個首選狀態(tài)時,運動就會自然跟隨。因此,在感知和行動之間存在一個微妙的平衡——在感知中,預(yù)測誤差在層次結(jié)構(gòu)中上升,以使信念更接近觀測——而在行動中,預(yù)測誤差在較低水平上被抑制,因為觀測更接近它們的預(yù)測。然而,關(guān)于如何在連續(xù)時間內(nèi)實際實現(xiàn)主動推理,仍有一個未解決的問題。一些研究表明,直接使用外感受信息來計算運動命令可以導(dǎo)致更平滑的運動和解決視動沖突(Friston, Daunizeau, 等人,2010;Maselli 等人,2022;Priorelli & Stoianov,2023b),實際上一些機器人實現(xiàn)有效地使用了這種方法(Oliver 等人,2021;Sancaktar 等人,2020)。然而,證據(jù)似乎表明運動命令僅通過抑制本體感覺信號產(chǎn)生(Adams, Shipp, & Friston,2013;Friston,2011),這已經(jīng)是運動所需的內(nèi)在參考框架,因此導(dǎo)致更容易的逆動力學。出于這個原因,在接下來的內(nèi)容中,我們假設(shè)運動是通過最小化相對于本體感覺預(yù)測誤差的自由能來實現(xiàn)的:


其中 執(zhí)行從本體感覺預(yù)測到運動命令 a 的逆動力學,可能由經(jīng)典的脊髓反射弧實現(xiàn)。最后,行動也可以依賴于多個階——速度、加速度等——允許更有效的運動和控制(Baioumy, Duckworth, Lacerda, & Hawes,2020;Bos, Meera, Benders, & Wisse,2022;Meera & Wisse,2021;Meo, Franzese, Pezzato, Spahn, & Lanillos,2023),但由于這超出了我們的范圍,我們只最小化0階。盡管如此,通過指定隱藏狀態(tài)的適當動力學,仍然可以通過1階運動——例如,保持恒定速度——來實現(xiàn)。

2.2 物體追蹤

前一節(jié)所定義的簡單智能體僅能實現(xiàn)內(nèi)嵌于動力學函數(shù)中的固定軌跡,那么它如何追蹤運動物體?這通常是通過引入主動推理中的一個關(guān)鍵概念——隱藏原因 v來實現(xiàn)的,該變量連接不同層級,并規(guī)定動力學函數(shù)如何演化。在主動推理的運動控制文獻中,它們也被用于編碼待到達的目標(Adams 等, 2015;Friston, Daunizeau 等, 2010;Parr & Friston, 2018a;Pio-Lopez, Nizard, Friston, & Pezzulo, 2016),如圖3(a)所示。從主動視角來看,將目標視為隱狀態(tài)與感覺觀測的因果變量是合理的,即“正是我想抵達的物體產(chǎn)生了我的運動”。此時,智能體的生成模型變?yōu)閳D3(b)所示形式。需注意,此處存在兩個先驗:一個針對隱狀態(tài),另一個針對隱藏原因,分別記為 η? 和 η?。此外,動力學函數(shù)與似然函數(shù)均依賴于隱藏原因;我們進一步假設(shè)似然函數(shù)可分解,其中 o? 與 o? 分別表示手臂與目標的觀測值。為簡化起見,我們假設(shè)視覺似然函數(shù) g? 是一個簡單的恒等映射,直接生成目標角度。正是通過隱藏原因與觀測之間的聯(lián)結(jié),智能體才得以在動態(tài)環(huán)境中運作。事實上,我們可以定義如下動力學函數(shù):


顯然,隱藏原因會受到先驗預(yù)測誤差、反向動力學誤差和反向似然誤差的影響——這與隱狀態(tài)的更新類似,不同之處在于該推斷作用于一個狀態(tài)而非一條路徑。通過反向似然誤差,智能體可以在移動時正確估計目標構(gòu)型,如圖4的追蹤模擬所示。關(guān)于動力學預(yù)測誤差,它現(xiàn)在可以流入兩個不同的通路:具體而言,梯度 ?? 和 ?? 的作用分別是推斷產(chǎn)生特定速度的狀態(tài)與原因;它們的實際作用將在第4章中闡明。


2.3 意圖調(diào)制與物體可供性

盡管上述方法能夠在動態(tài)情境中運作,但它仍僅能復(fù)現(xiàn)一個簡單場景:目標沒有內(nèi)在動力學,且始終扮演隱狀態(tài)的“原因”角色。換句話說,它無法對更現(xiàn)實的任務(wù)進行建模,例如“抓取-放置”操作——在該任務(wù)中,物體起初是伸手抓握動作的原因,但隨后又成為另一原因(如目標位置)的結(jié)果,從而引發(fā)放置動作;更重要的是,它無法建模一種任務(wù):在這種任務(wù)中,不僅智能體自身的動力學需要被學習,目標的動力學也必須被學習(例如,若需在運動過程中抓取一個移動物體,智能體應(yīng)推斷其軌跡以預(yù)判其落點)。

因此,要在復(fù)雜環(huán)境中運作,智能體必須: (i) 為每個希望交互的實體維持完整的表征; (ii) 根據(jù)當前情境靈活分配原因與后果,以決定下一步動作——這與離散模型中的策略類似,后文將對此加以解釋。

因此,我們首先將多個環(huán)境實體編碼為隱狀態(tài)中的潛在身體構(gòu)型,即x = [x?, x?, ..., x?],其中x?是實際的身體構(gòu)型(如前所述),N是實體的數(shù)量(Priorelli & Stoianov, 2023b)。相應(yīng)地,分解后的似然函數(shù)會為第一個分量x?生成本體感覺觀測值,并為每個實體生成視覺觀測值:


在這里,視覺觀測被假定在笛卡爾域中,因此視覺似然函數(shù) 通過正向運動學生成潛在配置的手部位置。這個結(jié)構(gòu)與之前的模型相似,只是目標現(xiàn)在與手一起嵌入在隱藏狀態(tài)中,并且隱藏原因與觀測之間沒有連接。我們可以為隱藏原因和動力學函數(shù)定義一個類似的分解,使得每個實體都有一個由特定原因(例如,手臂或目標將來會在哪里)偏向的獨立動力學;然而,這在需要實體之間交互的拾取和放置操作中用處有限。因此,我們用一個函數(shù)計算一個意圖狀態(tài),如下所示:



這個向量與方程(8)中的吸引子具有相同的作用,但現(xiàn)在它指向隱藏狀態(tài)的一個函數(shù)。最后,我們定義以下動力學函數(shù):


公式(14)中的動力學函數(shù)并非像似然函數(shù)那樣由分離的通路構(gòu)成,而是同時影響所有環(huán)境實體——例如,它會根據(jù)目標計算出一條手臂的運動軌跡。智能體在執(zhí)行伸手動作時所經(jīng)歷的步驟如下:(i) 第0階狀態(tài)為第1階狀態(tài)施加一條軌跡,并生成感覺預(yù)測;(ii) 第0階狀態(tài)推斷其自身預(yù)測的后果,因此此時它既受到意圖狀態(tài)的影響,也受到觀測值的影響(即被二者共同偏置);(iii) 從這一新的偏置位置生成本體感覺預(yù)測,最終驅(qū)動動作產(chǎn)生。

該方法可視為Adams等人(2015)研究的一種推廣:在眼動行為背景下,他們將目標與注視中心編碼為隱狀態(tài),每個狀態(tài)擁有自身的動力學,并被一個隱藏位置所吸引。盡管與非線性動力學函數(shù)相比存在局限性(例如,可通過排斥勢能實現(xiàn)避障,Priorelli, Pezzulo, & Stoianov, 2023c),但結(jié)合上述特定形式及隱狀態(tài)分解結(jié)構(gòu),該方法仍具有處理復(fù)雜交互的高度靈活性。此外,將隱藏原因解釋為增益,在主動推理視角下依然合理:因為更高層級表征的是“朝向目標移動”的意圖,而目標位置則在更低層級被推斷出來。

單獨來看,將隱藏原因視為吸引子增益似乎幫助不大。然而,如圖5(a)所示,我們可以按以下方式組合M個意圖:




生成模型如圖5(b)所示。0階隱藏狀態(tài)的更新規(guī)則變?yōu)椋?/p>


該方法實現(xiàn)了智能體對當前情境所預(yù)測的平均軌跡。此方法之所以有效,原因有二:
第一,它允許將復(fù)合運動分解為若干更簡單的子目標,這些子目標可被分別處理;例如,當智能體面臨兩個或多個相互沖突的先驗時,這種方法有助于分析其行為(Priorelli & Stoianov, 2023b)。
第二,無需規(guī)劃即可實現(xiàn)簡單的多步行為(Priorelli & Stoianov, 2024c),此時僅需調(diào)整隱藏原因即可。連續(xù)軌跡之間的轉(zhuǎn)換則可通過更高層級的先驗實現(xiàn),例如觸覺感知的信念。
第三,也是最重要的一點,它允許并行維持與待操控物體相關(guān)的潛在身體構(gòu)型——從而實現(xiàn)運動間的高效過渡——并根據(jù)物體的可供性及智能體的意圖對物體進行編碼(例如,用手柄抓握杯子,或用整只手抓握)。圖6的模擬展示了這一特性,其中智能體執(zhí)行一項包含移動物體的兩步伸手任務(wù)。


  1. 層級模型

迄今為止,我們已討論了若干種單元,它們具有兩種輸入——關(guān)于隱狀態(tài)的先驗和關(guān)于隱藏原因的先驗——以及一種輸出——第0階觀測值。在本章中,我們將重點探討如何將此類單元組合成單一網(wǎng)絡(luò),以實現(xiàn)更高級、更高效的控制。為此,我們將利用第一種輸入(即隱狀態(tài)先驗),而關(guān)于第二種輸入(隱藏原因先驗)的討論則留待下一章。

在層級主動推理模型中,單元按層排列,使得某一層的輸出作為其下層的輸入。這種架構(gòu)能夠表征復(fù)雜數(shù)據(jù),例如卷積模型或非線性時間序列(Friston, 2008)。在運動控制領(lǐng)域,一個(深層)目標層級整合了大腦的控制與動機通路(Pezzulo, Rigoli, & Friston, 2018)。對于機器人學而言,可設(shè)計連續(xù)時間下的層級運動學模型,其中每個單元在內(nèi)稟參考系與外在參考系中編碼特定的自由度(Degree of Freedom, DoF)(Priorelli, Pezzulo, & Stoianov, 2023c)。這使得實現(xiàn)涉及多個肢體同步協(xié)調(diào)的高級動作成為可能,例如手持玻璃杯行走。該層級結(jié)構(gòu)還可推廣用于不同參考系間的齊次變換,例如透視投影(Priorelli, Pezzulo, & Stoianov, 2023)。

3.1 內(nèi)稟原因與外在原因

上一節(jié)所介紹的單元能夠在連續(xù)時間內(nèi)實現(xiàn)多步行為,兼顧物體可供性,并在一定程度上考慮環(huán)境的動態(tài)要素。然而,它僅能估計身體構(gòu)型,而在實際應(yīng)用中,我們通常需在空間域內(nèi)規(guī)劃運動。此外,它僅能生成與單一自由度(如手部)相關(guān)的視覺預(yù)測,而我們通常面對的是更為復(fù)雜的運動學結(jié)構(gòu)(如人體),包含多個分支。正如最優(yōu)控制理論所述,連續(xù)時間主動推理同樣考慮三種參考系與兩次逆變換:首先,外在信號(例如,編碼目標的笛卡爾坐標)通過逆運動學轉(zhuǎn)換為內(nèi)在信號(例如,編碼手部到達目標位置所需對應(yīng)的關(guān)節(jié)角度構(gòu)型),隨后再通過逆動力學轉(zhuǎn)換為實際的運動控制信號(例如,關(guān)節(jié)力矩)(Todorov, 2004)。這兩種過程也被歸因于人類大腦(Floegel, Kasper, Perrier, & Kell, 2023;Hinman, Chapman, & Hasselmo, 2019;Vallar et al., 1999),但最優(yōu)控制與主動推理在實踐中的展開方式存在本質(zhì)差異。如前一章所述,在主動推理中,運動指令被本體感覺預(yù)測誤差所取代,這些誤差通過脊髓反射弧得以抑制(Adams, Shipp, & Friston, 2013)。因此,逆動力學變得更為簡單,因為行動本身被擱置一旁,智能體只需知道從本體感覺狀態(tài)到運動指令的映射關(guān)系——參見公式(7)。

但逆運動學又該如何處理?回顧我們在前一章提及的觀點,即“正是我想要抵達的物體產(chǎn)生了我的運動”。主動推理顛覆了最優(yōu)控制的思路,認為行動是由外在原因(例如,肢體位置)所產(chǎn)生的本體感覺后果(例如,肌肉長度的變化)所驅(qū)動的(Friston, 2011)。直觀地講,我們可以像圖7(a)那樣對一次外在運動進行建模,即采用以下動力學函數(shù)與似然函數(shù):


其中,代表手臂關(guān)節(jié)角度,為待到達的目標位置,是前向運動學函數(shù),返回手部位置,是其雅可比矩陣。

視覺似然函數(shù)分別通過前向運動學和恒等映射,生成對手部與目標的視覺預(yù)測。對于目標導(dǎo)向的行為,首先生成目標位置與手部位置之間的誤差;隨后,一個逆運動學模型被直接嵌入動力學函數(shù)中,例如采用雅可比轉(zhuǎn)置或偽逆(Friston, Daunizeau, et al., 2010;Friston et al., 2011;Lanillos et al., 2020;Meo & Lanillos, 2021;Oliver et al., 2021;Pio-Lopez et al., 2016;Sancaktar et al., 2020)。換言之,外在參考系被反轉(zhuǎn)以生成一個內(nèi)稟狀態(tài),該狀態(tài)隨后再次轉(zhuǎn)換回原始域,以便與視覺觀測值進行比較。因此,前向運動學與逆運動學各執(zhí)行兩次:一次在動力學函數(shù)中,另一次在視覺推斷的前向與反向傳遞過程中——即當視覺預(yù)測誤差 被反向傳播時:


如果預(yù)測結(jié)果未被臨時存儲,這將導(dǎo)致計算需求和內(nèi)存占用增加。此外,還存在一個關(guān)于生物學合理性的爭議:在動力學函數(shù)中使用感知層級的吸引子,意味著該單元“知曉”部分似然預(yù)測——而通常認為似然預(yù)測應(yīng)一直傳遞至感覺器官(sensorium)——以及其逆映射,這些都屬于更低層級的特征。最后,采用圖7(a)中的模型,智能體難以輕松表達外在坐標系下所需的路徑,例如實現(xiàn)直線或圓周運動,或同時在外在與內(nèi)稟域施加約束(如手持玻璃杯行走時)。

相反,我們可以利用公式(19)中的前向與逆運動學,并遵循生成過程的自然流向,以避免重復(fù)計算,如圖7(b)所示。替代性的生成模型展示于圖7(c)。該模型依賴兩個層級結(jié)構(gòu):頂層為一個內(nèi)稟單元(編碼手臂關(guān)節(jié)角度),通過前向運動學為底層的一個外在單元(編碼目標的笛卡爾位置)生成預(yù)測(Priorelli, Pezzulo, & Stoianov, 2023c):







盡管生成模型遵循最優(yōu)控制的前向流動,本體感覺后果與外在原因之間的特殊關(guān)系在主動推理中仍然成立,因為運動學反演將一個高級過程視為操縱抽象(內(nèi)在或外在)表示,這兩者都產(chǎn)生低級本體感覺狀態(tài)。正如Adams及其同事所指出的,“關(guān)鍵區(qū)別不在于從期望狀態(tài)(以外在運動學框架)到內(nèi)在(動態(tài))參考框架的映射,而在于從期望狀態(tài)(無論哪種框架)到運動命令的映射”(Adams, Shipp, & Friston, 2013)。話雖如此,圖2中表示的兩個模型之間存在顯著差異,可以將其與預(yù)測編碼的兩種監(jiān)督學習模式(Millidge, Seth, & Buckley, 2022)進行比較:一種是前向模式,將潛在狀態(tài)固定到標簽和數(shù)據(jù)上的觀測可以生成高度精確的數(shù)字圖像,而反向分類任務(wù)則更困難,因為標簽和數(shù)據(jù)之間沒有一一映射;相反,反向模式將潛在狀態(tài)固定到數(shù)據(jù)上,并將觀測固定到標簽上,在分類上表現(xiàn)出色,但在生成圖像時表現(xiàn)不佳?;诖耍覀兛梢詫D7(a)的模型解釋為一種反向模式,可以快速生成手部在目標處的正確運動學配置,但幾乎無法從本體感覺推斷出手部位置,從而規(guī)劃動作。相反,我們可以將圖7(b)的模型解釋為一種前向模式,可以高精度生成手部位置,但會發(fā)現(xiàn)很難推斷出實際實現(xiàn)運動所需的運動學配置。

3.2 用于迭代變換的模塊

圖7(b)中的模型引入了兩個層級(內(nèi)稟與外在)之間的層級依賴關(guān)系,這種依賴通過連接隱狀態(tài)實現(xiàn)。相比之下,連續(xù)時間主動推理中的典型方法是:將某一層級的隱狀態(tài)與隱原因,與下一層級的隱原因(而非隱狀態(tài))相連接,如圖9(a)所示。雖然這種方法允許為下層單元施加一條軌跡,但要為第0階隱狀態(tài)指定固定的設(shè)定點(setpoints)卻并非易事,因為由隱原因產(chǎn)生的動力學預(yù)測誤差必須回傳至前一個時間階次。從圖7(b)可清晰看出,在設(shè)計層級模型時,隱狀態(tài)之間的連接具有極高的實用價值。事實上——如圖9(b)所示——它在離散模型中定義不同時間尺度的初始狀態(tài)時至關(guān)重要,例如用于象形文字閱讀(Friston et al., 2020)或語言交流(Friston et al., 2020)。類似連接也應(yīng)用于標準的預(yù)測編碼網(wǎng)絡(luò)(PCNs)中,其中每一層的每個神經(jīng)元計算上一層神經(jīng)元的組合,并將其傳遞給激活函數(shù)(Millidge, Seth, & Buckley, 2022)——如圖9(c)所示。





深度層次模型與淺層代理相比有什么優(yōu)勢?盡管圖7(b)的結(jié)構(gòu)在控制方面比圖7(a)的模型提供了更先進的控制,但其用途仍然局限于解決簡單任務(wù),例如用手執(zhí)行操作。雖然可以同時協(xié)調(diào)多個肢體,但這將需要復(fù)雜的動態(tài)函數(shù),其復(fù)雜性隨著關(guān)節(jié)數(shù)量和運動鏈的分支而增加。

關(guān)鍵地,淺層代理無法捕捉生成過程中固有的層次因果關(guān)系,無法預(yù)測和預(yù)期在運動過程中將發(fā)生的局部力的交換。如介紹中提到的,如果需要使用工具進行操作任務(wù),還需要深度模型。除了正向運動學中的旋轉(zhuǎn)平移外,迭代變換在計算機視覺中也至關(guān)重要——圖像可能會受到縮放、剪切或投影的影響——更一般地說,每當改變坐標向量的基礎(chǔ)時也是如此。





此時,我們可以輕松地表達每個單一關(guān)節(jié)和肢體如何演變,提供高度先進的控制,如圖10(a)和10(b)的模擬所示。除了模擬肢體動態(tài)外,IE模塊還可以應(yīng)用于其他線性變換,例如透視投影。如圖10(c)所示,這可以通過平行預(yù)測(例如,從眼睛或多個相機)估計物體的深度(Priorelli, Pezzulo, & Stoianov, 2023),這是一種主動推理過程,涉及目標固定和假設(shè)測試(Parr & Friston, 2018a)。該架構(gòu)的模塊化允許代理在2D投影平面中定義動態(tài)吸引子,在3D參考框架中定義眼睛的動態(tài)吸引子,或簡單的輻合-調(diào)節(jié)角度。這種方法還與主動預(yù)測編碼(Rao, Gklezillos, & Satthis, 2022)和遞歸神經(jīng)程序(Fisher & Rao, 2023)有一些相似之處,后者通過遞歸應(yīng)用參考框架變換到場景的部分來解決計算機視覺中的部分-整體層次學習問題。

3.3. 自我、物體和其他個體

在描述圖7(b)時,我們忽略了一個在開始時引入的關(guān)鍵機制:對物體可供性(affordances)的表征?;叵胍幌?,平行編碼的隱藏狀態(tài)不僅包括自我,還包括其他環(huán)境實體;然而,代理的模型現(xiàn)在可以分層地表達生成過程。這由以下似然函數(shù)描述:


在其中,每個層次結(jié)構(gòu)的IE模塊都具有自我和每個實體的不同因素。對于自我,這有一個簡單的解釋,即它只是依次生成運動鏈每個部分的位置,這取決于其關(guān)節(jié)角度。關(guān)于物體,我們可以通過將視覺觀測附加到特定層次的隱藏狀態(tài)的第二個因素來編碼其笛卡爾位置。如果生成模型對自我和物體具有相同的層次結(jié)構(gòu),那么反向傳播這個第二個組件的外在預(yù)測誤差最終將推斷出代理相對于物體的潛在配置,就像以前一樣。例如,如果物體與最后一個(即手)層次相關(guān)聯(lián),這將表示手在物體位置,而所有前一個層次將表示生成最終位置的適當中間位置和角度。換句話說,隱藏狀態(tài)和似然的附加分解在這里反映了代理認為適合操縱物體的(深層)層次配置。由于每個層次都可以通過其隱藏原因表達一些動態(tài),因此這種潛在配置的推斷被引導(dǎo)以匹配物體的可供性和代理的意圖。正如下一章將展示的那樣,這允許根據(jù)情況靈活適應(yīng)運動鏈,以及表示物體(例如工具)的層次結(jié)構(gòu)。推斷的信念將僅受來自物體的外感受信息的影響,而本體感覺狀態(tài)將僅用于更新代理對其當前配置的信念。除了建模物體的可供性外,這種策略在多代理環(huán)境中也很有用??梢跃S護一個關(guān)于另一個代理的運動鏈的層次生成模型,該模型將通過關(guān)于其所有位置和關(guān)節(jié)角度的外感受觀測來推斷,從不同的以身體為中心的參考框架開始。如圖11所示,用于外部物體的目標導(dǎo)向方法在這種情況下也反映出來:代理可以通過平行的層次路徑表示第二個代理與自身的關(guān)系,表達一種特定類型的互動(例如,第二個代理的手相對于它自己的手,導(dǎo)致握手動作)。從生物學角度來看,這兩種情況可以被解釋為模擬鏡像神經(jīng)元的功能,即當主體執(zhí)行自愿的目標導(dǎo)向動作或當其他主體執(zhí)行該動作時觸發(fā)(Rizzolatti & Craighero, 2004)。構(gòu)建一個關(guān)于他人的運動鏈的內(nèi)部模型——無論是本身還是與自我的關(guān)系——對于預(yù)測(因此理解)他們的意圖至關(guān)重要。在這種觀點中,神經(jīng)活動之所以產(chǎn)生,是因為代理根據(jù)其假設(shè)和當前上下文對其運動結(jié)構(gòu)進行持續(xù)預(yù)測(Friston 等人,2011;Kilner, Friston, & Frith, 2007)。在主動推理下,自我、物體和其他代理之間的關(guān)系可能通過圖12的模擬更好地理解,該圖顯示了兩個具有相互依賴的不兼容目標的代理。在這里,兩個代理都能夠使用潛在和實際配置的有效分解來推斷不同運動鏈的并行表示。注意,一個人的當前信念總是在要實現(xiàn)的意圖狀態(tài)和實際配置之間;這反映了主動推理的一個基本方面,即我們的信念從未真正反映世界的狀態(tài),而是總是偏向于首選狀態(tài)最終——驅(qū)動行動。一般來說,身體狀態(tài)、物體或其他代理都可以在適合特定上下文的參考框架中進行操作;這與皮層柱使用以物體為中心的參考框架來編碼外部元素和更抽象實體的假設(shè)一致(Hawkins, Ahmad, & Cui, 2017)。

  1. 混合單元

到目前為止所呈現(xiàn)的連續(xù)時間層次模型在現(xiàn)實世界中缺乏有效的可用性:盡管它們可以表示任何未來軌跡——這意味著具有一定的規(guī)劃能力——但它們沒有未來狀態(tài)的顯式模型,也無法在替代軌跡中進行選擇。在本章中,我們將探討如何將離散決策制定整合到連續(xù)運動控制中。在此過程中,我們重新審視第一章的基本單元,最終使用第二個輸入——對隱藏原因的先驗。在離散狀態(tài)空間中的主動推理(Costa 等人,2020;Smith, Friston, & Whyte, 2022)——通常歸因于大腦皮層,特別是前額葉區(qū)域(Parr, Rikhye, Halassa, & Friston, 2020),以及皮層紋狀體回路——利用部分可觀測馬爾可夫決策過程(POMDPs)的結(jié)構(gòu)來規(guī)劃預(yù)期感覺的抽象動作。這種(主動)推理依賴于預(yù)期自由能的最小化,即代理期望在未來感知到的自由能。預(yù)期自由能可以分解為兩個類似于控制理論兩個經(jīng)典方面的項,即探索和開發(fā)——在這里自然產(chǎn)生;這些分別對應(yīng)于減少不確定性的項和尋找一系列動作以實現(xiàn)代理先驗信念的目標尋求項。

此外,所謂的混合或混合模型(Friston, Parr, & de Vries, 2017; Friston, Rosch, 等人, 2017)結(jié)合了離散模型的潛力與連續(xù)信號的推斷,允許在變化的環(huán)境中進行穩(wěn)健的決策制定。雖然貝葉斯模型簡化理論(Friston, Harrison, & Penny, 2003; Friston, Parr, & Zeidman, 2018; Friston & Penny, 2011; Rosa, Friston, & Penny, 2012)提供了兩種模型之間的有效通信,但這種統(tǒng)一方法目前還沒有得到廣泛的實際應(yīng)用(Friston, Parr, & de Vries, 2017; Friston, Rosch, 等人, 2017; Parr & Friston, 2018a, 2018b, 2019; Parr 等人, 2021; Tschantz, Barca, Maisto, Buckley, Seth, & Pezzulo, 2022)。一個開放的問題是如何處理高度動態(tài)的環(huán)境:混合模型通常在靜態(tài)先驗之間進行比較,限制代理通過固定位置實現(xiàn),例如,多步到達動作。在 Priorelli 和 Stoianov(2023a)中,一個混合模型在每個時間步驟從系統(tǒng)動態(tài)生成代理的假設(shè),允許將連續(xù)軌跡與離散計劃聯(lián)系起來。除了這些更傳統(tǒng)的解決方案,最近還提出了許多其他混合方法。一項研究解決了在主動推理中實現(xiàn)真實機器人導(dǎo)航的問題,利用了受生物啟發(fā)的SLAM方法(?atal, Verbelen, Van de Maele, Dhoedt, & Safron, 2021)。其他研究提出了如何將主動推理與模仿學習整合到自主車輛中,使用動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)來解釋專家代理與動態(tài)對象之間的交互(Nozari 等人, 2023, 2022)。一個由兩個連續(xù)層次和兩個離散層次組成的增強DBN被用來模擬無人機在不同時間尺度上的行為,以協(xié)助無線通信(Krayani, Alam, Marcenaro, Nallanathan, & Regazzoni, 2022; Krayani, Khan, Marcenaro, Marchese, & Regazzoni, 2023, 2024; Obite 等人, 2023)。一項機器人研究將主動推理與行為樹結(jié)合,用于動態(tài)環(huán)境中的反應(yīng)動作規(guī)劃(Pezzato, Corbato, Bonhof, & Wisse, 2023)。最后,基于遞歸切換線性動態(tài)系統(tǒng)的混合模型允許發(fā)現(xiàn)連續(xù)山地車任務(wù)的非網(wǎng)格離散化。Collis, Singh, Kinghorn, 和 Buckley(2024)。

4.1. 通過模型簡化進行動態(tài)推斷



通過貝葉斯模型簡化技術(shù)在離散隱藏原因和連續(xù)隱藏狀態(tài)之間進行轉(zhuǎn)換(反之亦然),這種技術(shù)用于將完整后驗?zāi)P偷膹?fù)雜性限制為更簡單和更具限制性(正式稱為簡化)的分布(Friston 等人,2018;Friston & Penny,2011)。簡化意味著某些數(shù)據(jù)的似然等于完整模型的似然,唯一的區(qū)別在于先驗的規(guī)范;因此,簡化模型 m 的后驗可以用完整模型的后驗來表示:


在我們的例子中,模型簡化意味著用一組離散假設(shè)來解釋連續(xù)信號的無限值。圖13(a)展示了一個簡化版本的混合主動推斷模型。我們可以將這個過程轉(zhuǎn)化為通常的消息傳遞,其中兩個領(lǐng)域之間的自上而下和自下而上的消息分別執(zhí)行簡化先驗的貝葉斯模型平均(BMA)和簡化感覺證據(jù)的貝葉斯模型比較(BMC)。


在傳統(tǒng)的混合模型中,離散隱藏狀態(tài)通過將特定簡化先驗與每個離散狀態(tài)的概率加權(quán)來生成連續(xù)隱藏原因的先驗;因此,簡化先驗代表了感覺器官真實原因的替代假設(shè)(Friston, Parr, & de Vries, 2017)。然后,隱藏原因的后驗與這些簡化先驗進行比較,以找出其中哪一個可以是環(huán)境的最佳解釋,同時考慮到在觀察感覺證據(jù)之前它們的離散概率。因為代理比較的是預(yù)先固定和確定的連續(xù)替代方案,所以它無法在變化的環(huán)境中正確運行。例如,如果代理認為可以在兩個位置中的一個找到物體,它將總是到達其中一個或另一個初始猜測,即使物體已經(jīng)被移動到第三個位置。那么如何使用新可用的證據(jù)來更新我們的簡化假設(shè)呢?通過將隱藏原因視為從分類分布生成的——如方程(31)——我們可以將隱藏狀態(tài)的后驗與動態(tài)函數(shù)的輸出進行比較,這些函數(shù)因此充當代理的簡化先驗(Priorelli & Stoianov, 2023a)。更正式地說,我們定義 M 個簡化先驗概率分布和一個完整先驗?zāi)P停?/p>





其中l = [l?, ..., l?]。關(guān)于在拉普拉斯假設(shè)下BMC的完整推導(dǎo),請參見Friston等人(2018)、Friston和Penny(2011);關(guān)于本文所提方法的更多細節(jié),可參見Priorelli和Stoianov(2023a)。公式(39)是公式(9)的離散對應(yīng)形式,但此時自底向上的消息編碼了一個恰當?shù)碾x散分布,可用于推斷與當前軌跡最相關(guān)的意圖。

該模型的因子圖——我們稱之為混合單元(hybrid unit)——如圖13(c)所示。若我們分別分析圖13(b)中所示的三條不同通路,則能更清晰地理解其每一步連續(xù)推理過程:
(i) 在前向傳遞過程中,該單元接收一個離散意圖先驗H?,對潛在軌跡f?(x)執(zhí)行貝葉斯模型平均(BMA),并為第1階施加一個先驗η'?;
(ii) 在第一次反向傳遞過程中,該單元通過將當前軌跡與動力學函數(shù)生成的軌跡進行比較,累積出與當前軌跡最相關(guān)的意圖;
(iii) 在第二次反向傳遞過程中,該單元將動力學預(yù)測誤差反向傳播至第0階,以推斷與該軌跡最相關(guān)的連續(xù)狀態(tài),最終生成有偏置的觀測值。

經(jīng)過一段時間T后,該單元最終計算離散先驗與累積證據(jù)之間的差異,生成一組新的意圖組合,隨后整個過程重新開始。

現(xiàn)在來看這一機制如何實現(xiàn)自我強化:一個決策產(chǎn)生某種運動,而該運動反過來又推斷出下一個決策本身。從身體運動中推斷目標,是決策研究中常被忽視的一個基本方面,卻可能導(dǎo)致完全不同的行為表現(xiàn)。具體而言,該組件會產(chǎn)生一種“承諾效應(yīng)”,使已做出的決策得以穩(wěn)定化,避免因改變主意而在動態(tài)環(huán)境中錯失有效機會(Lepora & Pezzulo, 2015; Priorelli, Stoianov, & Pezzulo, 2024a)。此外,這種動態(tài)推理具有多種用途,例如,它可用于推斷智能體正在跟隨多個物體中的哪一個——正如圖14所示——通過為不同物體生成軌跡,并將其與感知到的軌跡進行比較(Priorelli & Stoianov, 2023a)。

另一種能產(chǎn)生類似結(jié)果的替代方案,是Isomura、Parr和Friston(2019)在社會交換背景下使用的模型。在這種混合解決方案中,“學生”鳥為每個“教師”同類維持若干個連續(xù)生成模型。置于這些假設(shè)中心的離散切換變量,用于推斷哪只“教師”鳥生成了所感知到的鳥鳴。生成模型的學習依賴于兩種互補的方法,即所有可能“教師”鳥的貝葉斯模型平均,或特定某只鳥生成歌曲的貝葉斯模型選擇。

最后需指出的是,公式(33)與(38)中的動力學精度在此處具有一種有趣的解釋,等價于觀測精度Π?。預(yù)測編碼假設(shè),每當智能體感知到某一感覺模態(tài)存在高噪聲時,該生成模型的精度就會下降,因為它無法被信賴來理解世界的狀態(tài)(Clark, 2016; Hohwy, 2013)。此外,自由能原理固有的行動與感知二元性告訴我們,精度的優(yōu)化——被認為編碼為突觸增益——可能在注意力機制中扮演關(guān)鍵角色,該機制選擇性地采樣感覺數(shù)據(jù)(Feldman & Friston, 2010; Parr, Benrimoh, Vincent, & Friston, 2018)?;谶@些假設(shè),我們注意到對(簡化后的)動力學精度的一種雙重解釋:一個較低的精度Π?,?若與抓取動作相關(guān),可能意味著它不可靠,無法解釋當前情境(例如,物體距離手部太遠);此外,也可能意味著智能體并不打算依賴它來達成目標(例如,當物體超出伸手范圍時試圖抓?。?。這一視角揭示了除前文所述隱藏原因快速推斷之外的另一種機制:一種對簡化精度的緩慢學習過程,使智能體能夠評估——并且至關(guān)重要的是,專注于——那些適用于特定場景的意圖(Priorelli & Stoianov, 2023a)。

4.2 用于動態(tài)規(guī)劃的離散接口

眾多研究表明,運動員的大腦后部與皮下區(qū)域激活水平更高,涉及極少或無需意識思考,從而實現(xiàn)不同動作間的流暢轉(zhuǎn)換;相比之下,初學者的大腦則需更多前額葉計算,導(dǎo)致表現(xiàn)較低(Di Russo等, 2005;Fattapposta等, 1996;Graybiel, 2008)。從主動推理視角看,可將運動員的熟練度與圖5(a)所示連續(xù)模型(對應(yīng)皮下感覺運動環(huán)路)進行比較。該模型編碼了一種靈活性較低但反應(yīng)極快的轉(zhuǎn)換機制,例如在抓取高速移動物體時(Priorelli & Stoianov, 2024c)。通常,當環(huán)境不確定性低且任務(wù)包含智能體已正確習得的固定動作序列時,此策略非常有效。然而,若智能體面臨新奇或復(fù)雜的任務(wù),需仔細思慮即將發(fā)生的未來,則必須具備在意外發(fā)生時重新規(guī)劃正確動作序列的能力——此時,一個始終為隱藏原因產(chǎn)生先驗確定行為的高層信念將無法完成任務(wù)。

通過將圖5(a)中的連續(xù)隱藏原因替換為圖13(c)中的離散隱藏原因,我們現(xiàn)在可通過一個由以下分布構(gòu)成的離散模型賦予智能體規(guī)劃能力——如圖15所示:










總之,計算策略 π 的后驗概率轉(zhuǎn)化為尋找符合 G 定義的雙重目標的最佳動作。在這里,離散動作不打算作為實際的運動命令,類似于方程(7),而是作為高層次表示上的抽象動作。實際上,離散模型在主動推理中的層次結(jié)構(gòu)允許在分離時間尺度的情況下進行決策,其中特定層次可以生成并推斷出下層的狀態(tài)和路徑(de Tingu, Van de Maele, Verbelen, & Dhoedt, 2024; Friston 等人, 2024; Van de Maele, Dhoedt, Verbelen, & Pezzulo, 2024)。進一步評估長時間跨度動作的后果可以提供更高級的規(guī)劃,稱為復(fù)雜推理(Friston, Da Costa, Hafner, Hesp, & Parr, 2021)。計算與期望自由能的動作不同于連續(xù)模型的運動控制,后者僅最小化當前狀態(tài)的自由能。

除了之前的代理,現(xiàn)在可以同步不同連續(xù)信號的行為,基于相同的高層次策略。例如,可以實現(xiàn)與移動物體的拾取和放置操作——如圖16所示——在到達和抓取動作之間產(chǎn)生平滑的過渡,分別在外在和內(nèi)在領(lǐng)域執(zhí)行(Priorelli & Stoianov, 2024c)。注意這兩個動作之間如何自然地出現(xiàn)中間階段,對應(yīng)于復(fù)合接近運動。原則上,動力學精度 的學習可能揭示了運動技能學習是如何通過連續(xù)軌跡和離散策略之間的消息傳遞發(fā)生的。此外,通過這種動態(tài)規(guī)劃,代理可以在離散步驟 τ 內(nèi)為相同的連續(xù)周期 T 推斷和實現(xiàn)瞬時軌跡,例如,抓取移動物體而無需等待連續(xù)重新規(guī)劃步驟。第三,這種基于連續(xù)證據(jù)的環(huán)境離散表示配置允許學習,如在 Priorelli, Stoianov, 和 Pezzulo(2025)中所示,學習似然矩陣 A 涉及計算目標和身體動作之間的巧合,從而根據(jù)上下文的難度(冒險與保守)調(diào)整響應(yīng)策略。此外,通過學習先驗 D,一種習慣性行為向選定決策發(fā)展。同樣,可以根據(jù)當前觀察和動作更新矩陣 C 中編碼的優(yōu)先狀態(tài)。



4.3 靈活的層級結(jié)構(gòu)

圖17展示了一個為解決工具使用任務(wù)而設(shè)計的深層混合模型(Priorelli & Stoianov, 2024a)。該模型融合了(深層)層級結(jié)構(gòu)的表達能力、混合單元固有的軌跡規(guī)劃優(yōu)勢,以及對物體可供性與其他智能體進行編碼的可能性。與圖15類似,IE模塊與頂層的離散模型通信,但如今它們以層級方式組合,復(fù)現(xiàn)了智能體的運動學鏈。由此,產(chǎn)生了兩種不同的目標導(dǎo)向策略。


考慮一個簡單的伸手動作:若在手部層級施加一個吸引子,則會生成一連串外在預(yù)測誤差,反向傳遞至前序?qū)蛹?,并最終找到一種合適的運動學構(gòu)型,使手部位于目標上方。這對應(yīng)于沿混合單元展開的“水平層級深度”,可類比于嬰兒典型的“運動咿呀學語”過程(Caligiore等, 2008),即在不同層級隨機生成吸引子,以識別正確的身體結(jié)構(gòu)。

除了這種樸素策略之外,由于當前離散模型能夠為每個IE模塊(在內(nèi)稟與外在域中)生成軌跡,一旦逆運動學被正確執(zhí)行,便可實現(xiàn)更高級的行為——即為整個運動學鏈施加一條特定路徑。這對應(yīng)于具有兩個(離散與連續(xù))時間尺度的“垂直層級深度”,它引導(dǎo)低層推斷朝某一方向進行,例如避開奇異點或擺脫由排斥吸引子產(chǎn)生的局部極小值。


其中是方程(36)中軌跡先驗的梯度,我們注意到前向和后向外在似然性之間以及離散模型的自上而下調(diào)節(jié)之間存在微妙的平衡。從離散模型的角度來看,離散隱藏狀態(tài)為每個混合單元產(chǎn)生特定的隱藏原因組合;這種組合在連續(xù)域中生成復(fù)合軌跡,權(quán)衡不同的潛在軌跡,考慮到整個離散步驟 τ 的動態(tài)元素。在此之后,為每個混合單元積累證據(jù),最終推斷出可能生成與自我和環(huán)境相關(guān)的實際軌跡的最可能的離散狀態(tài)。

在使用工具的任務(wù)中存在一個非平凡問題,例如,用棍子的末端去夠一個球。與其他代理可能具有不同的運動學結(jié)構(gòu)一樣,工具可能有自己的層次結(jié)構(gòu)(例如,即使是一根簡單的棍子也由兩個笛卡爾位置和一個角度表示)這些必須以某種方式整合到代理的生成模型中。具體來說,用工具夠到物體意味著定義一個潛在的身體配置,通過一個新的虛擬層次來增強。這個新層次在生成過程和實際身體配置 的信念中并不存在。然而,如果我們考慮這兩種潛在配置,代理將工具視為其手臂的延伸,因此可以靈活地修改其身體圖式,如介紹中所討論的。這可以通過將工具的兩個視覺觀察與手臂和虛擬層次的隱藏狀態(tài)的第二路徑鏈接來實現(xiàn),如圖17所示。由于IE模塊的內(nèi)在單元還編碼了關(guān)于肢體長度的信息,代理不僅可以通過視覺觀察推斷其運動學結(jié)構(gòu),還可以推斷工具的實際長度(Priorelli & Stoianov, 2024b)。雖然這第二路徑仍然以工具和手臂之間的明確區(qū)分為標志,因為手臂層次從兩個元素接收觀察,但構(gòu)建了第三個路徑,使得球的觀察僅與虛擬層次相關(guān)聯(lián)。因此,這種新的潛在配置將手臂和工具視為同一運動鏈的一部分。這三個路徑之間的相互作用(如圖18所示)可能揭示了隨著廣泛使用工具(Iriki 等人,1996;Obayashi 等人,2001),運動皮層的重新映射如何逐漸發(fā)生,修改了自我與環(huán)境之間的邊界。


盡管主動推理已在多個科學領(lǐng)域取得諸多進展并日益流行,但當前一個主要缺陷在于:關(guān)于運動控制與決策制定的研究迄今仍相對分離,分別使用兩個高度相似卻不同的框架。其結(jié)果是,學界尚未就如何實現(xiàn)動態(tài)規(guī)劃(即如何在持續(xù)變化的環(huán)境中進行決策)達成共識;而解決復(fù)雜任務(wù)的前沿方案通常將主動推理與機器學習或最優(yōu)控制的傳統(tǒng)方法相結(jié)合。從理論角度看,少數(shù)研究曾提出一種高效優(yōu)雅的方式,即將離散與連續(xù)表征的能力整合進單一生成模型(Friston, Parr, & de Vries, 2017; Friston, Rosch, et al., 2017);然而,這種混合方法尚未成熟,導(dǎo)致文獻中相關(guān)研究數(shù)量極少。

因此,本文試圖為這一尚待探索的方向提供一個全面視角,通過比較針對復(fù)雜度遞增任務(wù)的不同設(shè)計方案,旨在拉近運動控制與行為研究之間的距離。作為一個實際案例,我們描述了工具使用的建模過程(Priorelli & Stoianov, 2024a),該任務(wù)不可避免地需要同時結(jié)合離散與連續(xù)框架,并必須額外考慮物體可供性與層級關(guān)系這兩個方面。在簡單情境下,將目標視為某些隱狀態(tài)的原因是一個合理的假設(shè),可使智能體在動態(tài)環(huán)境中運作。但當存在多個物體時,智能體如何決定特定動作的原因?它又如何兼顧不同物體的可供性?若目標沿非平凡路徑移動呢?隱狀態(tài)可被分解為獨立分布,編碼內(nèi)稟坐標系中的多個實體,從而表達潛在的身體構(gòu)型。此外,隱藏原因可關(guān)聯(lián)至與智能體意圖相關(guān)的潛在軌跡(Priorelli, Pezzulo, & Stoianov, 2023c; Priorelli & Stoianov, 2023b, 2024c)。每個實體的信念擁有各自的動力學特性,使智能體能夠預(yù)測例如運動球體的軌跡。接著,我們描述了如何將此類單元擴展以構(gòu)建復(fù)雜的(深層)層級結(jié)構(gòu)——例如模擬人體運動學(Priorelli, Pezzulo, & Stoianov, 2023c),或執(zhí)行更通用的參考系變換,如透視投影(Priorelli, Pezzulo, & Stoianov, 2023)。如今,隱狀態(tài)的層級分解假定了一種更廣闊的視角,亦可涵蓋多智能體交互——這一點同樣在離散框架中得到分析(Maisto, Donnarumma, & Pezzulo, 2024)。最后,我們描述了設(shè)計一種具有離散隱藏原因和連續(xù)隱狀態(tài)的混合單元,通過貝葉斯模型約簡實現(xiàn)動態(tài)推斷(Priorelli & Stoianov, 2023a);隨后,一個更高層的離散模型使得模擬涉及在線動作規(guī)劃的動態(tài)任務(wù)成為可能。這進一步揭示了連續(xù)模型中軌跡推斷與離散模型中策略之間的平行關(guān)系。

維持運動學鏈深層表征的一個挑戰(zhàn)是隨之而來的計算復(fù)雜性以及從視覺輸入推斷身體姿態(tài)所需的時間,二者均隨自由度增加而增長。這是因為由遠端(如手部)層級產(chǎn)生的外在預(yù)測誤差必須向上攀爬整個層級,直至(根部)以身體為中心的參考系。這直接影響行為準確性和運動時間,二者關(guān)鍵依賴于對內(nèi)稟狀態(tài)的正確推斷。Priorelli, Pezzulo, and Stoianov (2023c) 中展示了隨著自由度增加,在推斷與行動期間的性能對比。相比之下,處理多個物體并不會顯著增加推斷時間,因為(深層)表征是并行計算的,僅受限于物體動力學的復(fù)雜性。與離散模型的通信同樣高效,因為單個離散狀態(tài)可同時基于多個單元推斷身體軌跡(Priorelli & Stoianov, 2023a)。然而,環(huán)境中其他物體的行為要求不僅預(yù)測智能體在特定動作后的表現(xiàn),還需預(yù)測其他物體的行為及其對智能體行為的影響。這需要豐富的離散表征來建模每個物體的交互,而在高維場景下評估復(fù)雜策略可能效果不佳(Paul, Sajid, Da Costa, & Razi, 2024)。最后一個問題是,為積累連續(xù)證據(jù)以支持單個離散步驟 τ 所需的時間 T。如 Priorelli 和 Stoianov (2024c) 圖5b所示,狹窄的采樣時間間隔可在高度動態(tài)環(huán)境中實現(xiàn)高效控制,但代價是計算時間增加。

本文綜述模型的一個局限在于其固定結(jié)構(gòu)。因此,關(guān)鍵問題在于:如何在不將先驗知識嵌入智能體生成模型的前提下實現(xiàn)工具使用?換言之,智能體如何在空白記憶起點或假設(shè)環(huán)境保持不變的情況下,通過主動推理完成任務(wù)?對連續(xù)時間主動推理模型的一個常見批評是,其生成模型是預(yù)先定義且固定的,具有復(fù)雜且硬編碼的動力學函數(shù),引發(fā)對其生物學合理性的擔憂。相比之下,PCN的一個吸引人特點是:它們用神經(jīng)網(wǎng)絡(luò)連接中典型的極簡函數(shù)(如權(quán)重與偏置的線性組合傳遞給非線性激活函數(shù))模擬大腦處理過程。這使PCN能輕松適應(yīng)高維數(shù)據(jù),并相較于深度學習具備若干關(guān)鍵優(yōu)勢(如自上而下的調(diào)制)(Millidge, Seth, & Buckley, 2022)。盡管大部分PCN研究涉及靜態(tài)表征,但一些研究探討了如何利用預(yù)測編碼學習時間序列(Jiang & Rao, 2023; Millidge et al., 2023),或解決強化學習任務(wù)(Millidge, 2019; Ororbia & Mali, 2022; Rao et al., 2022)。在此,我們展示了主動推理中的生成模型如何通過簡單的似然與動力學函數(shù)實現(xiàn),顯示出與PCN推斷的一些類比?;谶@些發(fā)現(xiàn),一個有前景的研究方向?qū)⑹悄7缕洌ㄉ顚樱蛹壖軜?gòu)(如圖9(d)),從而使智能體不僅能靈活調(diào)整身體圖式以與具有不同層級結(jié)構(gòu)的物體互動,還能學習系統(tǒng)動力學并據(jù)此行動,使其符合先驗信念。

在連續(xù)環(huán)境中學習策略并非易事,但采用不同于傳統(tǒng)方法的策略可能是推動當前智能體發(fā)展的關(guān)鍵,從而充分實現(xiàn)主動推理與自由能原理背后的完整理論潛力。在此方面,前沿方法是通過深度神經(jīng)網(wǎng)絡(luò)逼近似然與轉(zhuǎn)移分布(?atal等, 2019; Champion等, 2023; Ferraro等, 2023; Fountas等, 2020; Millidge, 2020; Ueltzh?ffer, 2017; Yuan等, 2023; Zelenov & Krylov, 2021)。盡管相比深度強化學習有諸多優(yōu)勢,但這仍使深層結(jié)構(gòu)局限于神經(jīng)網(wǎng)絡(luò)內(nèi)部,通常僅使用單層主動推理智能體。一項研究使用了更具生物合理性的PCN作為生成模型(Millidge, 2019),但仍依賴類似方法。正如Friston (2008) 所詳盡分析,神經(jīng)網(wǎng)絡(luò)可被視為具有最后一層無限精確先驗且無隱狀態(tài)的靜態(tài)生成模型。這種架構(gòu)可用于稀疏編碼或主成分分析(PCA);然而,它無法解釋動態(tài)變量,如反卷積問題或狀態(tài)空間模型中的濾波。因此,無論離散還是連續(xù)的時間深度,對于推斷環(huán)境最精確的表征至關(guān)重要——事實上,皮層柱似乎能夠表達模型動力學(例如,前額葉皮層持續(xù)參與預(yù)測未來狀態(tài),早期視覺皮層也記錄到運動敏感神經(jīng)元 Grossberg & Pilly, 2008)。雖然循環(huán)神經(jīng)網(wǎng)絡(luò)或Transformer等深層架構(gòu)能輕松處理時間序列(Vaswani等, 2017),但其被動的生成機制仍可能反映在主動推理智能體的行為中。與此類被動AI相反,扎根于感覺運動經(jīng)驗并主動修改環(huán)境,可能是產(chǎn)生真正理解的根本所在(Pezzulo, Parr, Cisek, Clark, & Friston, 2024b)。綜合來看,這些事實表明,在解決強化學習任務(wù)時,基于廣義運動坐標或離散未來狀態(tài)的動作層級結(jié)構(gòu)可能帶來多重優(yōu)勢。例如,以層級方式表征智能體,可實現(xiàn)對其整個身體結(jié)構(gòu)的高度先進控制,這是僅生成手部位置的單層模型所無法企及的(Priorelli, Pezzulo, & Stoianov, 2023c; Priorelli & Stoianov, 2024b)。

如何在深層層級模型中學習動態(tài)規(guī)劃?Friston等人(2023)強調(diào),在考慮結(jié)構(gòu)學習時,離散化的重要性不容忽視。確實,層級離散模型相比其連續(xù)對應(yīng)物具有更強的表達能力,尤其源于計算預(yù)期自由能的簡便性。然而,正如Friston及其同事所指出,使用連續(xù)還是離散表征取決于模型證據(jù)。具體而言,當證據(jù)具有連續(xù)性屬性時(例如處理時間序列或歐幾里得空間),前者可能表現(xiàn)更優(yōu)。事實上,圖18所示的任務(wù)之所以有效,是因為貝葉斯模型約簡在智能體操作的外在空間中執(zhí)行動態(tài)證據(jù)累積。因此,將圖17中混合單元的層級深度與一個層級離散架構(gòu)(而非僅單一層級)相結(jié)合,可能在不斷變化的環(huán)境中實現(xiàn)高效的結(jié)構(gòu)學習。一種成功的貝葉斯方法是利用無限狄利克雷過程與中國餐館先驗來生長離散分布(Sanborn, Griffiths, & Navarro, 2010)。該方法假設(shè)存在潛在無限的基分布混合,并從空模型開始構(gòu)建結(jié)構(gòu)——新配置要么分配給流行的現(xiàn)有狀態(tài),要么偶爾用于創(chuàng)建新狀態(tài)。該方法已成功應(yīng)用于學習支持復(fù)雜目標導(dǎo)向行為的結(jié)構(gòu)(Stoianov, Genovesio, & Pezzulo, 2016)、層級空間組織(Stoianov等, 2022)和空間導(dǎo)航(Stoianov等, 2018)等應(yīng)用。層級離散模型的另一種替代方案是結(jié)合由聯(lián)合離散-連續(xù)模型組成的單元——如圖15所示——這允許在每個單元內(nèi)執(zhí)行動態(tài)規(guī)劃。盡管此方案可能缺乏來自生物智能體的實證支持,但從機器學習角度看,它可能是一個值得探索的方向,可與“中心化離散決策”假設(shè)形成對比,轉(zhuǎn)而支持“分布式局部決策網(wǎng)絡(luò)”。

第三個有趣的話題涉及運動意向性。盡管多步任務(wù)通常在離散層面處理,但我們在此展示,在適當假設(shè)下,也可在連續(xù)層面實現(xiàn)并分析非平凡行為。我們定義的靈活意圖可與運動技能學習的高級階段相比較,即自主、流暢的動作無需意識決策(Priorelli & Stoianov, 2024c)。即便如此,模型結(jié)構(gòu)仍是預(yù)設(shè)的。那么,此類意圖如何在重復(fù)接觸同一任務(wù)的過程中涌現(xiàn)?智能體如何評估哪些意圖適用于特定情境?如上一章所述,動力學精度的優(yōu)化很可能涉及簡化模型的自由能(見公式(38))。這一過程或許能闡明離散動作如何從低層連續(xù)軌跡中涌現(xiàn),反之亦然——連續(xù)軌跡如何由復(fù)合離散動作生成。最后,少數(shù)研究提出了不同時間尺度上展開的策略之間的附加連接,無論是直接連接(de Tinguy等, 2024; Van de Maele等, 2024)還是通過離散隱狀態(tài)連接(Friston等, 2024)。此類方法也可應(yīng)用于混合與連續(xù)情境,從而使靈活意圖可通過整個層級中隱藏原因間的局部消息傳遞進行傳播。

原文鏈接:https://arxiv.org/abs/2402.11658

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2026年明確普通高中擴招,這意味著什么?

2026年明確普通高中擴招,這意味著什么?

卷史
2025-12-12 12:42:53
央媒發(fā)聲!62歲倪夏蓮銳評陳夢,不提球技卻一針見血

央媒發(fā)聲!62歲倪夏蓮銳評陳夢,不提球技卻一針見血

李虰手工制作
2025-11-28 22:54:55
購進劣藥且已給患者注射 北京雙井中西醫(yī)結(jié)合醫(yī)院被處罰

購進劣藥且已給患者注射 北京雙井中西醫(yī)結(jié)合醫(yī)院被處罰

信網(wǎng)
2025-12-12 17:20:42
英超9年最差衛(wèi)冕冠軍!利物浦今晚出戰(zhàn):薩拉赫留下懸念

英超9年最差衛(wèi)冕冠軍!利物浦今晚出戰(zhàn):薩拉赫留下懸念

葉青足球世界
2025-12-13 02:00:03
紹伊古突然全球通告,“東方北約”雛形已出現(xiàn),中國紅線早就劃下

紹伊古突然全球通告,“東方北約”雛形已出現(xiàn),中國紅線早就劃下

遁走的兩輪
2025-12-13 02:00:07
李明為何會突然辭去國安總經(jīng)理,背后原因引發(fā)熱議,球迷都沒想到

李明為何會突然辭去國安總經(jīng)理,背后原因引發(fā)熱議,球迷都沒想到

懂個球
2025-12-12 17:37:14
女領(lǐng)導(dǎo)拉我當假男友回老家,大年三十晚上,被父母懷疑我們這樣做

女領(lǐng)導(dǎo)拉我當假男友回老家,大年三十晚上,被父母懷疑我們這樣做

秋風專欄
2025-12-03 17:23:35
北京連下六道命令拆秦嶺別墅,陜西頂了四年不動,749局:我來拆

北京連下六道命令拆秦嶺別墅,陜西頂了四年不動,749局:我來拆

小哥很OK
2025-11-24 22:07:07
抓住機遇!國家給了明年賺錢方向!

抓住機遇!國家給了明年賺錢方向!

龍浩觀天下
2025-12-12 11:10:07
才播4集熱度破16000,段奕宏令觀眾成功入坑,刑偵劇又要出經(jīng)典了

才播4集熱度破16000,段奕宏令觀眾成功入坑,刑偵劇又要出經(jīng)典了

易同學愛談娛樂
2025-12-10 13:54:18
小米17徹底賣爆了!最大功臣竟然是這個“雞肋”功能?

小米17徹底賣爆了!最大功臣竟然是這個“雞肋”功能?

雷科技
2025-12-12 10:44:33
MacBook Pro首次采用OLED:Mini LED時代將終結(jié)

MacBook Pro首次采用OLED:Mini LED時代將終結(jié)

快科技
2025-12-12 16:42:47
一夜情釀悲?。∧凶佑昧μ团疆攬錾硗?,這事給所有人敲響警鐘

一夜情釀悲劇!男子用力太猛女方當場身亡,這事給所有人敲響警鐘

今朝牛馬
2025-12-12 16:44:55
新華社快訊:日本政府發(fā)布緊急地震預(yù)警

新華社快訊:日本政府發(fā)布緊急地震預(yù)警

新華社
2025-12-12 10:52:25
歷史開了個玩笑,先倒下的不是烏克蘭,而是百年中立的瑞士?

歷史開了個玩笑,先倒下的不是烏克蘭,而是百年中立的瑞士?

古事尋蹤記
2025-12-11 07:09:49
馬筱梅挺孕肚逛街,目測已超五個月,小玥兒照顧繼母緊跟其后

馬筱梅挺孕肚逛街,目測已超五個月,小玥兒照顧繼母緊跟其后

付老師種植技術(shù)團隊
2025-12-12 21:39:25
8天7漲停!11天7漲停......A股這一超級賽道,牛股批量現(xiàn)身!

8天7漲停!11天7漲停......A股這一超級賽道,牛股批量現(xiàn)身!

證券時報e公司
2025-12-12 17:03:25
后人哀之而不鑒之——寫在摩爾線程4000億市值之時

后人哀之而不鑒之——寫在摩爾線程4000億市值之時

債市邦
2025-12-11 12:13:14
廣西一中職學校7.7萬采購22套服裝引質(zhì)疑,招標負責人稱采購合規(guī)

廣西一中職學校7.7萬采購22套服裝引質(zhì)疑,招標負責人稱采購合規(guī)

澎湃新聞
2025-12-12 13:08:26
后來居上,格林被批不如小波特,直言他現(xiàn)在可是雄鹿隊帶頭大哥

后來居上,格林被批不如小波特,直言他現(xiàn)在可是雄鹿隊帶頭大哥

拾叁懂球
2025-12-12 18:41:38
2025-12-13 03:32:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1061文章數(shù) 17關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

高市早苗政權(quán)下的日本 西方媒體終于察覺到不對勁了

頭條要聞

高市早苗政權(quán)下的日本 西方媒體終于察覺到不對勁了

體育要聞

15輪2分,他們怎么成了英超最爛球隊?

娛樂要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財經(jīng)要聞

鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

汽車要聞

表面風平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

游戲
房產(chǎn)
手機
數(shù)碼
公開課

油條杯S4今晚開戰(zhàn),Happy&浪漫領(lǐng)銜八大高手參賽

房產(chǎn)要聞

每日狂增1300+企業(yè)!封關(guān)在即,海南徹底爆發(fā)!

手機要聞

銷量終破千萬!華為Mate70系列,到底怎么做到的?

數(shù)碼要聞

前行者×洛天依X87S鍵盤預(yù)售:限量712套,首發(fā)價399元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 亚洲AV无码精品色夜午夜网址| 精品视频在线一区| 国产 精品 无码 怀孕软件| 亚洲区少妇熟女专区| 视频国产精品丝袜第一页| 精品人妻在线97视频| 久久无码高潮喷水| 2020AV天堂手机版| 人嬠人人都人嬠人嬠′人人| 狠狠躁天天躁夜夜躁婷婷| 99久久久黄片视频| 蜜芽miya国产精品免费看特色| 久久精品女人天堂av麻| 国产精品日韩| 国产成人综合久久亚洲精品| 性色无码综合视频一区二区| 国产精品免费麻豆入口| 国产偷窥熟女精品视频大全| 久久2017国产视频| 亚洲の无码国产の无码喷水| 国产一区二区在线视频播放| 熟女精品视频一区二区三区| 98国产精品永久在线观看| 精品毛片免费看| 日本1区2区| 国产又色又刺激高潮视频| 日本成人久久久| 88久久精品无码一区二区毛片| 久久国内精品自在自线400部| 日本精品一区二区不卡| 国产猛男猛女超爽免费视频| 欧美高清精品一区二区 | 毛片精品秘 免费观看| 九九热视频在线精品18| 久久久久久91香蕉国产夜本色| 亚洲av无码牛牛影视在线二区 | 日韩中文人妻无码不卡| 视频在线观看黄色一区二区三区激情| 免费观看的av在线播放| 精品久久久久久无码人妻av| 久久先锋男人av资源网站|