夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)齊結(jié)構(gòu)學(xué)習(xí)代理的可能原則

0
分享至

Possible Principles for Aligned Structure Learning Agents

對(duì)齊結(jié)構(gòu)學(xué)習(xí)代理的可能原則

https://arxiv.org/pdf/2410.00258



摘要

本文為從自然智能的原始原理描述出發(fā),開(kāi)發(fā)可擴(kuò)展對(duì)齊人工智能(AI)提供了一條路線圖。簡(jiǎn)而言之,通往可擴(kuò)展對(duì)齊AI的可能路徑在于使人工智能代理能夠?qū)W習(xí)一個(gè)良好的世界模型,該模型包含對(duì)我們偏好的良好建模。為此,主要目標(biāo)是創(chuàng)建能夠?qū)W習(xí)表征世界及其他代理世界模型的代理;這一問(wèn)題屬于結(jié)構(gòu)學(xué)習(xí)(亦稱(chēng)因果表征學(xué)習(xí)或模型發(fā)現(xiàn))。我們以這一目標(biāo)為導(dǎo)向,揭示結(jié)構(gòu)學(xué)習(xí)與對(duì)齊問(wèn)題,并提出指導(dǎo)我們前進(jìn)的原則,綜合數(shù)學(xué)、統(tǒng)計(jì)學(xué)和認(rèn)知科學(xué)中的各種思想。1)我們討論了核心知識(shí)、信息幾何和模型約簡(jiǎn)在結(jié)構(gòu)學(xué)習(xí)中的重要作用,并建議學(xué)習(xí)一系列核心結(jié)構(gòu)模塊,以學(xué)習(xí)廣泛的自然世界。2)我們概述了一條通過(guò)結(jié)構(gòu)學(xué)習(xí)和心智理論實(shí)現(xiàn)對(duì)齊代理的方法。作為示例,我們數(shù)學(xué)上勾勒了阿西莫夫的機(jī)器人三定律,該定律規(guī)定代理應(yīng)謹(jǐn)慎行事,以最小化其他代理的痛苦。我們通過(guò)提出對(duì)齊的改進(jìn)方法來(lái)補(bǔ)充這一示例。這些觀察可能指導(dǎo)人工智能的發(fā)展,幫助擴(kuò)展現(xiàn)有的——或設(shè)計(jì)新的——對(duì)齊結(jié)構(gòu)學(xué)習(xí)系統(tǒng)。

關(guān)鍵詞:代理,世界模型,生成式,模型發(fā)現(xiàn),因果表征學(xué)習(xí),貝葉斯推理。

1 引言

本文遵循仿生學(xué)原則,探討開(kāi)發(fā)可擴(kuò)展對(duì)齊人工智能代理的挑戰(zhàn)。我們考慮了需要解決的研究問(wèn)題以及指導(dǎo)原則,提供了一個(gè)綜合數(shù)學(xué)、物理、統(tǒng)計(jì)學(xué)和認(rèn)知科學(xué)各種思想的廣泛視角。

智能的原始原理方法:我們力求涵蓋并適用于所有自然主義的人工智能方法。我們采用一種稱(chēng)為“主動(dòng)推理框架”[1–3]的智能建模的“原始原理”方法。主動(dòng)推理并非與其他自然主義的智能建模方法割裂開(kāi)來(lái),而是旨在將它們納入一個(gè)源于統(tǒng)計(jì)物理的廣泛框架中。這遵循了悠久的思想傳統(tǒng),或許起源于亥姆霍茲關(guān)于感知作為無(wú)意識(shí)推理的運(yùn)動(dòng)[4],在本世紀(jì)之交以預(yù)測(cè)編碼的形式在神經(jīng)科學(xué)中復(fù)興[5],并被概括為貝葉斯大腦假設(shè)[6]。主動(dòng)推理在21世紀(jì)初提出,通過(guò)假設(shè)行動(dòng)優(yōu)化與感知和學(xué)習(xí)相同的客觀目標(biāo)[7, 8],擴(kuò)展了這些貝葉斯解釋。這一解釋被認(rèn)為是一種潛在的統(tǒng)一大腦理論,即在特殊情況下容納一系列先前存在且部分不重疊的大腦理論[9]。鑒于這些思想的描述能力,研究人員一直在尋求用統(tǒng)計(jì)物理來(lái)證明這一解釋?zhuān)瑪?shù)學(xué)上越來(lái)越嚴(yán)謹(jǐn)和復(fù)雜。這些努力催生了一個(gè)新興的非平衡物理學(xué)領(lǐng)域,稱(chēng)為“貝葉斯力學(xué)”,它將粒子的隨機(jī)描述與推斷描述聯(lián)系起來(lái)。這已被用來(lái)推導(dǎo)出我們?cè)诖顺尸F(xiàn)的主動(dòng)推理框架,該框架提供了對(duì)有知覺(jué)行為的描述[10]。主動(dòng)推理框架可用于建模認(rèn)知科學(xué)中的大量現(xiàn)象,從人類(lèi)選擇行為[11]到精神病理學(xué)[12],再到大腦解剖學(xué)和生理學(xué)的許多已知特征[13, 14],包括神經(jīng)元群體的活動(dòng)[15, 16](參見(jiàn)[1–3,17]的綜述)。主動(dòng)推理近年來(lái)在機(jī)器學(xué)習(xí)和機(jī)器人學(xué)中獲得了越來(lái)越多的關(guān)注(參見(jiàn)[18–20]的綜述)。

學(xué)習(xí)世界模型:解鎖基于模型的人工智能方法在大規(guī)模應(yīng)用中的實(shí)用性,關(guān)鍵挑戰(zhàn)在于使代理能夠?qū)W習(xí)其世界模型,因?yàn)槟壳敖鉀Q這一問(wèn)題的方法仍然有限(但參見(jiàn)[21–23])。請(qǐng)注意,這個(gè)問(wèn)題也存在于主動(dòng)推理、基于模型的強(qiáng)化學(xué)習(xí)和控制[24]中。這個(gè)結(jié)構(gòu)學(xué)習(xí)問(wèn)題1是本文的焦點(diǎn):我們探討人工智能系統(tǒng)和代理如何可行地學(xué)習(xí)其數(shù)據(jù)生成過(guò)程的模型。我們?cè)敿?xì)研究這一問(wèn)題,并討論核心知識(shí)、信息幾何和模型約簡(jiǎn)的重要作用,并建議核心結(jié)構(gòu)模塊,以實(shí)現(xiàn)對(duì)廣泛自然世界的學(xué)習(xí)。

通過(guò)結(jié)構(gòu)學(xué)習(xí)實(shí)現(xiàn)對(duì)齊:然后,我們從結(jié)構(gòu)學(xué)習(xí)和主動(dòng)推理的角度考慮人工智能對(duì)齊問(wèn)題。在主動(dòng)推理中,代理的世界模型為其提供了偏好,因?yàn)樾袨橹皇亲畲蠡P偷淖C據(jù)。我們提出的論點(diǎn)是,通過(guò)允許代理推斷其他代理的世界模型(其中包含其偏好),可以在人工智能對(duì)齊方面取得進(jìn)展。然后,行動(dòng)被要求滿足他人的偏好,這對(duì)應(yīng)于通過(guò)采取他人的視角來(lái)與他人對(duì)齊。這是一種超越制定行為保障措施的主觀對(duì)齊概念,而行為保障措施構(gòu)成了許多當(dāng)前對(duì)齊方法的核心。作為這些思想的一個(gè)示例應(yīng)用,我們?cè)谶@個(gè)框架中數(shù)學(xué)上勾勒了阿西莫夫的機(jī)器人三定律,該定律規(guī)定代理應(yīng)謹(jǐn)慎行事,以最小化其他代理的痛苦。

我們的貢獻(xiàn):本文為開(kāi)發(fā)可擴(kuò)展、對(duì)齊的人工智能代理提供了一條研究路線圖,確定了關(guān)鍵的研究問(wèn)題和有希望的研究方向。該路線圖包含三個(gè)核心要素:1)致力于從生物智能汲取靈感的自然主義人工智能方法。2)一個(gè)使代理能夠自主學(xué)習(xí)世界模型的綜合框架,原則上實(shí)現(xiàn)了可擴(kuò)展智能。這綜合了目前分散領(lǐng)域(包括機(jī)器學(xué)習(xí)、認(rèn)知科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué))的見(jiàn)解。3)對(duì)這些進(jìn)步如何應(yīng)對(duì)人工智能對(duì)齊挑戰(zhàn)的概念性探索。

總結(jié)而言,本文提供了一個(gè)綜合視角和后續(xù)數(shù)值研究的參考點(diǎn)。

框架的意義:雖然我們呈現(xiàn)的路線圖是高層次和概念性的,但最近的工作展示了關(guān)鍵組成部分的實(shí)際可行性。例如,AXIOM [21] 實(shí)現(xiàn)了此處概述的結(jié)構(gòu)學(xué)習(xí)原則(帶有以對(duì)象為中心的主動(dòng)推理模型),在10,000次交互步驟內(nèi)掌握了街機(jī)游戲——與深度強(qiáng)化學(xué)習(xí)方法相比,實(shí)現(xiàn)了顯著的樣本、計(jì)算和參數(shù)效率。類(lèi)似的研究方向,基于理論的強(qiáng)化學(xué)習(xí)[28, 29] 表明,維持對(duì)編碼因果結(jié)構(gòu)和參數(shù)的概率程序信念的代理可以實(shí)現(xiàn)人類(lèi)水平的學(xué)習(xí)效率。這些實(shí)現(xiàn)說(shuō)明了該路線圖的核心方面,并表明自然主義、基于結(jié)構(gòu)學(xué)習(xí)的方法可以在解釋性和性能方面超過(guò)傳統(tǒng)方法。我們的工作進(jìn)一步表明,這些以及相關(guān)的進(jìn)展可能直接適用于應(yīng)對(duì)人工智能對(duì)齊挑戰(zhàn)。

論文結(jié)構(gòu):我們?cè)诘?節(jié)簡(jiǎn)要介紹了自然智能的“原始原理”框架。然后,我們?cè)诘?節(jié)討論靜態(tài)數(shù)據(jù)集的數(shù)據(jù)生成過(guò)程模型學(xué)習(xí)(即結(jié)構(gòu)學(xué)習(xí)和因果表征學(xué)習(xí)),在第4節(jié)討論代理情境下的模型學(xué)習(xí)。接著,我們?cè)诘?節(jié)轉(zhuǎn)向人工智能安全和對(duì)齊問(wèn)題,作為這些思想的一個(gè)潛在應(yīng)用。最后,我們?cè)诘?節(jié)討論這種自然主義方法在更廣泛的認(rèn)知科學(xué)和人工智能領(lǐng)域中的位置。

2 自然智能的原始原理方法
我們希望人工智能的方法能夠建立在自然智能的基礎(chǔ)之上。在接下來(lái)的內(nèi)容中,我們概述了一種智能系統(tǒng)的“原始原理”描述,該描述與自然科學(xué),特別是對(duì)自然世界的物理描述相一致。具體而言,我們提出了一種描述與環(huán)境積極互動(dòng)的系統(tǒng)的動(dòng)力學(xué)的物理理論。

符號(hào)表示:在接下來(lái)的內(nèi)容中,除非另有說(shuō)明,我們將用小寫(xiě)字母表示有限時(shí)間區(qū)間上的隨機(jī)過(guò)程,并通過(guò)時(shí)間索引這些隨機(jī)過(guò)程,以表示其在某個(gè)時(shí)間點(diǎn)(或多個(gè)時(shí)間點(diǎn))的(隨機(jī))取值。我們用 P 表示其概率分布。

設(shè)定:在最少假設(shè)的前提下,我們總結(jié)了具有內(nèi)部狀態(tài)的粒子(如有機(jī)體或代理)的各種組成部分(參見(jiàn)圖1的說(shuō)明):考慮世界 x,它由研究對(duì)象(如粒子、有機(jī)體或代理)及其環(huán)境組成。這種劃分暗示了一個(gè)邊界,通過(guò)該邊界,粒子內(nèi)部的狀態(tài)與外部狀態(tài)相互作用。因此,世界過(guò)程 x 可劃分為代理外部的過(guò)程 η、代理內(nèi)部的過(guò)程 μ 以及邊界過(guò)程 b。顯式地:x = (η, b, μ)。我們進(jìn)一步將邊界過(guò)程 b 分解為兩個(gè)過(guò)程;分別指那些不受外部過(guò)程和內(nèi)部過(guò)程直接影響或?qū)е碌倪^(guò)程(這些過(guò)程可能為空):我們分別稱(chēng)其為主動(dòng)過(guò)程 a 和感覺(jué)過(guò)程 o,即 b = (o, a)。在這里,我們可以將世界的分布解釋為外部過(guò)程如何影響代理的生成模型,即貝葉斯規(guī)則:



最大化模型證據(jù):這里的一個(gè)同義反復(fù)是,最有可能的內(nèi)部動(dòng)態(tài)和主動(dòng)動(dòng)態(tài)將最大化生成世界模型(1)的證據(jù)。確切地說(shuō),給定感覺(jué)軌跡的情況下,主動(dòng)過(guò)程和內(nèi)部過(guò)程的軌跡越可能,模型證據(jù)就越高——反之亦然。這是一個(gè)簡(jiǎn)單的觀察,支撐著接下來(lái)的所有內(nèi)容:我們可以將事物的內(nèi)部動(dòng)態(tài)和主動(dòng)動(dòng)態(tài)表述為優(yōu)化一個(gè)單一目標(biāo):世界生成模型的證據(jù)。在接下來(lái)的內(nèi)容中,我們將回顧自然系統(tǒng)中這些自我證明動(dòng)態(tài)的表征。以下表征假設(shè)世界動(dòng)態(tài)具有某種函數(shù)形式,通常(但不僅限于)是隨機(jī)微分方程,因?yàn)檫@些構(gòu)成了物理學(xué)的很大一部分基礎(chǔ),例如統(tǒng)計(jì)物理學(xué)和經(jīng)典物理學(xué),而我們旨在提供一種與物理學(xué)其余部分一致的自然智能描述。

主動(dòng)推理:在最少假設(shè)下,內(nèi)部狀態(tài)(或路徑)可以被表述為在給定邊界狀態(tài)(或路徑)的情況下,一致地推斷外部狀態(tài)(或路徑),這與統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的變分推斷一致[30, 31]。例如,內(nèi)部狀態(tài)參數(shù)化外部狀態(tài)的概率分布,使得內(nèi)部狀態(tài)和主動(dòng)狀態(tài)下降(記為 ↘)變分自由能 F(通常在統(tǒng)計(jì)物理學(xué)中表示),即證據(jù)下界(ELBO)的負(fù)值,在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中被使用:


這種描述被稱(chēng)為主動(dòng)推理,因?yàn)閮?yōu)化自由能或證據(jù)下界對(duì)應(yīng)于變分貝葉斯推理,而主動(dòng)推理通過(guò)將行動(dòng)納入相同的推斷目標(biāo)中,擴(kuò)展了這一理論。參見(jiàn)[10](分別參見(jiàn)[32])關(guān)于狀態(tài)(分別參見(jiàn)路徑)推斷情況下(2)的推導(dǎo),以及[33–36]以獲取更多細(xì)節(jié)。

對(duì)變分推斷的另一種視角是內(nèi)部路徑和主動(dòng)路徑上的分布。在經(jīng)典力學(xué)尺度上,內(nèi)部路徑和主動(dòng)路徑遵循玻爾茲曼-吉布斯分布:


其中勢(shì)函數(shù) G 通過(guò)與軌跡上的變分自由能類(lèi)比而被稱(chēng)為“預(yù)期自由能”,且 d ? dt ? {o≤t, a≤t, μ≤t} 是一個(gè)可能非空的數(shù)據(jù)歷史記錄。參見(jiàn)[10,32,37,38]以獲取(3)的推導(dǎo)。有趣的是,(3)可以與統(tǒng)計(jì)學(xué)、認(rèn)知科學(xué)和工程學(xué)中占主導(dǎo)地位的若干信息論智能決策表述相關(guān)聯(lián):參見(jiàn)[37,39,40]。

結(jié)論:(2)-(3)是同一枚硬幣的兩個(gè)方面,即它們是同一底層動(dòng)力學(xué)的互補(bǔ)表征。換句話說(shuō),自然系統(tǒng)可以被描述為優(yōu)化世界生成模型的證據(jù),最小化自由能,并追求最小化預(yù)期自由能的軌跡。

2.1 主動(dòng)推理框架
該理論為建模和模擬事物(如認(rèn)知和行為)的內(nèi)部動(dòng)態(tài)和主動(dòng)動(dòng)態(tài)提供了一個(gè)規(guī)范性框架,稱(chēng)為主動(dòng)推理[1–3, 41]。在主動(dòng)推理中,內(nèi)部動(dòng)態(tài)和主動(dòng)動(dòng)態(tài)被認(rèn)為是為了最大化一個(gè)生成“世界”模型 P 的證據(jù),該模型指定了外部、感覺(jué)和主動(dòng)過(guò)程之間的相互作用。這通過(guò)數(shù)值最小化變分自由能(2)和/或預(yù)期自由能(3)來(lái)實(shí)現(xiàn)。換句話說(shuō),內(nèi)部動(dòng)態(tài)和主動(dòng)動(dòng)態(tài)僅取決于生成模型。因此,模擬對(duì)齊智能行為的問(wèn)題在于選擇正確的生成模型類(lèi)型。這是一個(gè)開(kāi)放性問(wèn)題,也是本文的重點(diǎn)。

我們概述了主動(dòng)推理的兩個(gè)特征,這些特征將在后面相關(guān),并將其與其他行為方法聯(lián)系起來(lái):

模型證據(jù)指導(dǎo)行為:在主動(dòng)推理中,行為的目標(biāo)是最大化世界生成模型的證據(jù)。這意味著代理的世界生成模型從其視角描述了事物應(yīng)該如何行為,而行為只是滿足這些偏好。例如,如果我們考慮主動(dòng)和內(nèi)部軌跡的成本函數(shù),即預(yù)期自由能,它分解為風(fēng)險(xiǎn)和模糊性,其中風(fēng)險(xiǎn)是預(yù)測(cè)和偏好之間的KL散度,是一種預(yù)測(cè)誤差,代理力求最小化:


偏好對(duì)數(shù)據(jù)的依賴意味著這些偏好可以隨著時(shí)間推移被推斷——即被學(xué)習(xí)——[38,42]。這種風(fēng)險(xiǎn)和模糊性的分解對(duì)人工智能安全具有技術(shù)影響,我們將在第5節(jié)中展開(kāi)討論。在主動(dòng)推理中,沒(méi)有原生的獎(jiǎng)勵(lì)或效用函數(shù),但如果我們把對(duì)數(shù)概率解釋為獎(jiǎng)勵(lì)函數(shù)[43,44],預(yù)期自由能可以與強(qiáng)化學(xué)習(xí)聯(lián)系起來(lái)。在這種理解下,預(yù)期自由能是預(yù)期效用加上預(yù)期信息增益的一個(gè)保守界[39]。

在代理大腦周?chē)鷦澏ㄟ吔?。主?dòng)推理的另一個(gè)特征是,代理的身體通常被建模為外部過(guò)程的一部分。也就是說(shuō),當(dāng)建模像我們這樣的智能代理時(shí),內(nèi)部和外部之間的邊界通常圍繞代理的大腦劃定,而不是圍繞其身體劃定。例如,在主動(dòng)推理中模擬手臂運(yùn)動(dòng)時(shí),手臂的位置將屬于外部過(guò)程,感覺(jué)過(guò)程將是大腦關(guān)于手臂位置的感覺(jué),而動(dòng)作則是大腦影響這些位置的方式[11]。這與大多數(shù)強(qiáng)化學(xué)習(xí)方案[45]形成對(duì)比。

3 貝葉斯結(jié)構(gòu)學(xué)習(xí)
結(jié)構(gòu)學(xué)習(xí),在此處與因果表征學(xué)習(xí)同義,是學(xué)習(xí)數(shù)據(jù)生成過(guò)程中因果機(jī)制的問(wèn)題[25, 27]。這是因果關(guān)系、認(rèn)知科學(xué)和人工智能中的一個(gè)基本問(wèn)題:事實(shí)上,認(rèn)知發(fā)展可以被視為一個(gè)結(jié)構(gòu)學(xué)習(xí)過(guò)程[46, 47],并且結(jié)構(gòu)學(xué)習(xí)可能是通向類(lèi)人人工智能的一種方式,即從兒童的思維出發(fā),逐步將其發(fā)展為成人思維,正如圖靈已經(jīng)論證過(guò)的那樣[48]。

3.1 問(wèn)題
數(shù)據(jù)生成過(guò)程是一個(gè)未知的(因果)貝葉斯網(wǎng)絡(luò) η,包含未知的潛在變量和因果關(guān)系。原因在于其根本性:貝葉斯網(wǎng)絡(luò)是一種自然的數(shù)學(xué)形式化方法,用于解釋隨機(jī)變量及其因果關(guān)系[49]:所有數(shù)據(jù)生成過(guò)程都可以表示為貝葉斯網(wǎng)絡(luò)(或更一般地,概率圖模型),當(dāng)它們被表示為貝葉斯網(wǎng)絡(luò)時(shí),其因果機(jī)制變得透明。

一個(gè)貝葉斯網(wǎng)絡(luò)或圖模型 η(此后稱(chēng)為模型)包含三個(gè)組成部分[49]:1)因果網(wǎng)絡(luò) m,由潛在表示(節(jié)點(diǎn))及其因果關(guān)系(有向邊)組成;2)因果映射的參數(shù) θ(假設(shè)這些映射具有某種函數(shù)形式);3)潛在狀態(tài) s(即表示的狀態(tài))。


我們將在下文論證,該問(wèn)題在于找到一個(gè)生成模型,使其在對(duì)潛在貝葉斯網(wǎng)絡(luò)的狀態(tài)、參數(shù)和結(jié)構(gòu)進(jìn)行邊緣化后,最大化數(shù)據(jù)的邊際似然。在本節(jié)中,我們考慮一個(gè)靜態(tài)數(shù)據(jù)集 d(即離線學(xué)習(xí));我們將在第 4.3.1 節(jié)重新引入動(dòng)態(tài)性。

3.1.1 最大化邊際似然……
我們希望獲得一個(gè)生成模型 P(d, η),使其最大化數(shù)據(jù)的模型證據(jù) P(d)(也稱(chēng)為邊際似然)。這在形式上為數(shù)據(jù)提供了一個(gè)最小長(zhǎng)度的描述[50, 51]。對(duì)數(shù)證據(jù)分解為準(zhǔn)確性減去復(fù)雜性:


其中,準(zhǔn)確性量化了后驗(yàn)信念與數(shù)據(jù)擬合的程度,而復(fù)雜性量化了后驗(yàn)相對(duì)于先驗(yàn)的偏離程度。最大化準(zhǔn)確性意味著最大似然推斷,而最小化復(fù)雜性則施加了一個(gè)受約束的最大熵(技術(shù)上是最小相對(duì)熵)來(lái)規(guī)范后驗(yàn)分布。復(fù)雜性也可以被視為推理計(jì)算成本的代理,并通過(guò)蘭道爾原理(Landauer’s principle),關(guān)聯(lián)到能量成本[52]。簡(jiǎn)而言之,針對(duì)某些數(shù)據(jù)優(yōu)化邊際似然,會(huì)產(chǎn)生在準(zhǔn)確性上最大化但復(fù)雜性最小的模型,從而實(shí)現(xiàn)一種奧卡姆剃刀的形式。

3.1.2 ……通過(guò)變分界
由于邊際似然無(wú)法精確計(jì)算,我們優(yōu)化一個(gè)變分界:變分自由能 F 或證據(jù)下界。具體而言,這涉及對(duì)潛在貝葉斯網(wǎng)絡(luò) η 進(jìn)行近似貝葉斯推斷,通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu) m、參數(shù) θ 和狀態(tài) s 的近似后驗(yàn)分布 Q(η);參見(jiàn)圖 2。從 (5):



備注 3.1(關(guān)于結(jié)構(gòu)不確定性的編碼)。將最大化證據(jù)(6)的問(wèn)題與尋找具有最高邊際似然的結(jié)構(gòu)的問(wèn)題進(jìn)行比較:即 arg maxm P (d | m)。后者可以被視為對(duì)結(jié)構(gòu)進(jìn)行最大后驗(yàn)推斷(MAP)——即在(7)中 Q(m) 是一個(gè)點(diǎn)質(zhì)量——在結(jié)構(gòu)上的均勻先驗(yàn) P (m)。這也對(duì)應(yīng)于在給定數(shù)據(jù)的情況下最大化結(jié)構(gòu)的似然(即最大似然)。然而,我們對(duì)結(jié)構(gòu)的先驗(yàn)知識(shí)通常不是均勻的,使得先驗(yàn) P (m) 是非均勻的。此外,在有限數(shù)據(jù)甚至無(wú)限數(shù)據(jù)的情況下,可能存在多個(gè)具有相同似然的結(jié)構(gòu)(即不可識(shí)別性[26,53]),這意味著只考慮單一結(jié)構(gòu)容易導(dǎo)致過(guò)擬合。為了避免這種情況,最好考慮一個(gè)更豐富的近似后驗(yàn)分布族,這些分布族在(7)中編碼了關(guān)于結(jié)構(gòu)的不確定性。

通過(guò)優(yōu)化變分界(7)來(lái)最大化貝葉斯網(wǎng)絡(luò)的邊際似然,在大規(guī)模上是一個(gè)非常困難的問(wèn)題[54, 55]。其中一個(gè)主要的內(nèi)在困難在于,可能的因果網(wǎng)絡(luò)數(shù)量隨著潛在變量數(shù)量的增加而超指數(shù)增長(zhǎng)[56],因此,先驗(yàn)上可能解釋任何給定數(shù)據(jù)集的模型空間是巨大的。在接下來(lái)的內(nèi)容中,我們將討論如何針對(duì)先驗(yàn)和近似后驗(yàn)優(yōu)化變分界,以期產(chǎn)生更具可擴(kuò)展性的方法。

3.2 先驗(yàn):模型約簡(jiǎn)

先驗(yàn) P (η) 應(yīng)代表對(duì)外部世界的先驗(yàn)知識(shí)狀態(tài),并且在沒(méi)有直接支持的情況下,不應(yīng)先驗(yàn)地承諾某些假設(shè)。例如,通常認(rèn)為先驗(yàn)應(yīng)該是與先驗(yàn)知識(shí)一致的最大熵分布,當(dāng)這種知識(shí)以該分布上的約束形式表達(dá)時(shí)[57]。

貝葉斯模型約簡(jiǎn)[1, 58, 59] 是一種非常有效的計(jì)算工具,用于在接收一些數(shù)據(jù)后選擇更好的先驗(yàn)。其思想是擁有一組索引于某個(gè)集合 λ ∈ Λ 的先驗(yàn)分布 Pλ(η) ? P (η | λ)。然后,模型證據(jù)(和后驗(yàn))即使在似然固定的情況下,也會(huì)依賴于 λ。


從技術(shù)上講,實(shí)現(xiàn)(9)是在給定數(shù)據(jù)的情況下對(duì)參數(shù) λ 的最大似然推斷。為了避免過(guò)度擬合數(shù)據(jù),在獲取足夠數(shù)量的數(shù)據(jù)后才使用 BMR 才是重要的。有關(guān) BMR 的實(shí)用總結(jié),請(qǐng)參見(jiàn)附錄 A。

3.3 先驗(yàn):信息幾何
模型空間具有一些結(jié)構(gòu)——直觀上,這是一種幾何結(jié)構(gòu)——并且這種結(jié)構(gòu)應(yīng)在先驗(yàn)的選擇以及當(dāng)前的變分推斷問(wèn)題中予以考慮。

關(guān)于先驗(yàn),如果兩個(gè)模型表達(dá)了完全相同的信息,它們應(yīng)被賦予相同的先驗(yàn)概率;如果它們表達(dá)了相似的信息量,它們也應(yīng)被賦予相似的先驗(yàn)概率——參見(jiàn)圖 3 的說(shuō)明。從數(shù)學(xué)上看,模型空間上似乎應(yīng)該存在一種信息幾何(即一種距離的概念),它表達(dá)了兩個(gè)模型在信息內(nèi)容上的差異程度,并且先驗(yàn)應(yīng)在相關(guān)的拓?fù)渲惺沁B續(xù)的(即把相似的模型映射到相似的概率上)。


信息幾何由一種距離或散度[60, 61]誘導(dǎo);那么,模型空間上的自然信息距離或散度是什么?以及在實(shí)踐中可行地實(shí)現(xiàn)這種理想的方法可能有哪些?這些問(wèn)題的難點(diǎn)在于,模型空間似乎是一個(gè)分層空間,即不同層的不相交并集,其中每一層都是同一底層空間上的概率分布空間;也就是說(shuō),所有具有相同聯(lián)合狀態(tài)和參數(shù)空間的模型集合。數(shù)學(xué)上,每一層定義了一個(gè)具有明確定義信息幾何的統(tǒng)計(jì)流形[60],但這種幾何似乎無(wú)法擴(kuò)展到測(cè)量不同層之間或?qū)儆诓煌瑢拥脑刂g的距離。這是因?yàn)?,?dāng)將通常的信息距離概念應(yīng)用于兩個(gè)在聯(lián)合狀態(tài)和參數(shù)空間上不同的貝葉斯網(wǎng)絡(luò)時(shí),會(huì)得到無(wú)窮大??傊?,經(jīng)典的信息幾何理論并未解決這個(gè)問(wèn)題。為模型空間賦予一種在實(shí)踐中可實(shí)現(xiàn)的有意義的信息距離,對(duì)于結(jié)構(gòu)學(xué)習(xí)將非常有幫助:它能為先驗(yàn)提供局部一致性約束,并提供自然梯度[62],在變分推斷期間提供局部最優(yōu)更新。

展望未來(lái),我們應(yīng)該退一步,考慮在具有信息幾何的模型空間上的貝葉斯推斷問(wèn)題,使得包含完全相同信息的模型被識(shí)別,并且我們推斷模型的等價(jià)類(lèi),直到信息不變性。例如,使兩個(gè)模型等價(jià)的對(duì)稱(chēng)性數(shù)量隨著考慮的潛在變量數(shù)量的增加而急劇增加。這些信息不變性通常未被當(dāng)前方法考慮在內(nèi),這意味著它們所面臨的模型空間遠(yuǎn)大于實(shí)際需要。通過(guò)這些(以及其他)不變性進(jìn)行商化,應(yīng)能大大降低問(wèn)題的復(fù)雜性,并顯著提高模型證據(jù)。此外,對(duì)等價(jià)類(lèi)指定先驗(yàn)具有優(yōu)勢(shì)。考慮一個(gè)模型等價(jià)類(lèi)的先驗(yàn)概率等于該類(lèi)中所有元素的先驗(yàn)概率之和。當(dāng)為單個(gè)模型而非等價(jià)類(lèi)指定先驗(yàn)概率時(shí),我們可能會(huì)產(chǎn)生意外的重復(fù)計(jì)數(shù)效應(yīng);導(dǎo)致具有大量元素的模型等價(jià)類(lèi)(例如,由大量潛在變量的模型組成)具有更高的先驗(yàn)概率。在實(shí)踐中解決這個(gè)問(wèn)題似乎對(duì)擴(kuò)展貝葉斯結(jié)構(gòu)學(xué)習(xí)至關(guān)重要。

3.4 后驗(yàn):結(jié)構(gòu)上的近似推斷

仍然需要針對(duì)近似后驗(yàn) Q(m) 優(yōu)化變分界(7):即變分推斷。我們專(zhuān)注于如何通過(guò)優(yōu)化 Q(m) 來(lái)變分地推斷結(jié)構(gòu),以匹配(7)中的 P(m | d)。這是因?yàn)樵谖覀儗⒁懻摰那闆r下[63–65],后驗(yàn)分布 P(m | d) 是一個(gè)分類(lèi)分布。這意味著近似后驗(yàn) Q(m) 也必須是分類(lèi)的。我們總結(jié)了基于近似后驗(yàn)參數(shù)化的結(jié)構(gòu)推斷的代表性方法(參見(jiàn)圖 4 以作說(shuō)明):


  1. 粒子近似后驗(yàn) Q(m | n, λi, mi) = ∑ni=1 λiδmi(m):這是變分推斷方法使用(通常較小)數(shù)量 n ≥ 1 的結(jié)構(gòu) mi,這些結(jié)構(gòu)被優(yōu)化以捕捉后驗(yàn)分布的模式,并相應(yīng)地優(yōu)化其各自的后驗(yàn)概率 μi。在這種情況下,我們可以通過(guò)進(jìn)行小的或大的更新來(lái)優(yōu)化所考慮的結(jié)構(gòu):
  • 局部更新:
    • (a) 馬爾可夫鏈蒙特卡洛 (MCMC) 方法在結(jié)構(gòu)空間上運(yùn)行一個(gè)隨機(jī)過(guò)程以采樣真實(shí)后驗(yàn)。樣本通過(guò)過(guò)程根據(jù)某種隨機(jī)規(guī)則(例如,以某種概率向貝葉斯網(wǎng)絡(luò)中添加節(jié)點(diǎn))順序生成。該過(guò)程通過(guò)一些一致性程序(如 Metropolis-Hastings [66,67])確保收斂到目標(biāo)分布,并可以通過(guò)各種方式優(yōu)化以提高收斂速度[68–70]。
    • (b) 受約束的連續(xù)優(yōu)化方法將結(jié)構(gòu)空間嵌入到一個(gè)更大的連續(xù)空間中,從而通過(guò)允許使用成熟的連續(xù)粒子優(yōu)化工具(例如[74])來(lái)細(xì)化離散空間變分推斷的復(fù)雜性。
  • 全局更新:
    • (a) 離散粒子變分推斷是在結(jié)構(gòu)通過(guò)共軛自由能下降更新的離散空間上的變分推斷程序[75]。
    • (b) 貝葉斯優(yōu)化觀察到結(jié)構(gòu)推斷的自由能是一個(gè)昂貴的評(píng)估,并通過(guò)貝葉斯優(yōu)化對(duì)每個(gè)粒子進(jìn)行全局更新[76]。這有時(shí)被稱(chēng)為元建模。最簡(jiǎn)單的方案是為每個(gè)結(jié)構(gòu)編碼一個(gè)先驗(yàn)(即,每個(gè)給定結(jié)構(gòu)的自由能最小值)。然后,我們可以使用獲取函數(shù)(例如預(yù)期自由能)來(lái)選擇要評(píng)估的新結(jié)構(gòu),并且一旦我們承諾某個(gè)結(jié)構(gòu),我們就可以通過(guò)跟隨自由能梯度來(lái)推斷其參數(shù)和狀態(tài)。關(guān)鍵地,當(dāng)我們?cè)u(píng)估多個(gè)結(jié)構(gòu)時(shí),我們可以學(xué)習(xí)結(jié)構(gòu)之間的協(xié)方差,這將為我們提供關(guān)于結(jié)構(gòu)之間信息幾何的經(jīng)驗(yàn)見(jiàn)解,而得到的協(xié)方差可以作為更高效的貝葉斯優(yōu)化的先驗(yàn),因?yàn)樗ㄟ^(guò)探索和利用(即,非線性估計(jì)中的無(wú)意識(shí)過(guò)濾)將自由能景觀與 n 個(gè)臂(狄拉克粒子)進(jìn)行平移。
  1. 完全分類(lèi)的近似后驗(yàn) Q(m | λ) = Cat(m | λ):這是分布被參數(shù)化為一個(gè)完全分類(lèi)分布的地方,因此我們可以對(duì)潛在的大量結(jié)構(gòu)進(jìn)行信念,其數(shù)量與先驗(yàn)中考慮的結(jié)構(gòu)數(shù)量一樣多。為此,有兩種主要方法:
  • (a) 攤銷(xiāo)推斷:訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)基于數(shù)據(jù)預(yù)測(cè)變分參數(shù) μ[77]。
  • (b) 生成流網(wǎng)絡(luò) (GFlowNets):是一種用于在離散組合空間上進(jìn)行采樣-based 近似推斷的通用工具,例如模型空間[78–80]。技術(shù)上,這是一個(gè)狀態(tài)-動(dòng)作策略,其狀態(tài)是結(jié)構(gòu)。例如,動(dòng)作是向模型中添加或移除節(jié)點(diǎn)。該策略隱式地編碼了近似后驗(yàn):近似后驗(yàn) Q(m) 是其終端狀態(tài)的分布,因此我們可以通過(guò)運(yùn)行該策略從后驗(yàn)中進(jìn)行采樣。GFlowNets 被訓(xùn)練(隱式地)使得變分后驗(yàn)最小化變分自由能[81]。

這些方法具有不同的特性和權(quán)衡。例如,表達(dá)完整分類(lèi)分布的方法對(duì)貝葉斯推斷問(wèn)題提供了更準(zhǔn)確的解決方案,但它們的訓(xùn)練可能更慢。一個(gè)重要的缺點(diǎn)是為結(jié)構(gòu)不確定性提供準(zhǔn)確的賬戶,通過(guò)在目標(biāo)分布 P(m | d) 中找到多個(gè)模式(參見(jiàn)備注 3.1);MCMC 方法在這方面臭名昭著地受限,而 GFlowNets 和貝葉斯優(yōu)化可能在這方面表現(xiàn)更好。與其他方法相比,完全分類(lèi)和受約束的連續(xù)優(yōu)化方法處理一個(gè)純粹的連續(xù)優(yōu)化問(wèn)題,這通過(guò)提供梯度來(lái)促進(jìn)變分推斷,但這也使推斷容易陷入局部極小值(其他方法也不例外)。未來(lái)的工作,我們希望,將全面量化這些方法的特性和權(quán)衡。對(duì)于結(jié)構(gòu)學(xué)習(xí)代理,一個(gè)重要的缺點(diǎn)是能夠在實(shí)時(shí)執(zhí)行快速推斷。

從這種分類(lèi)中可以引出許多問(wèn)題和推測(cè),我們希望未來(lái)的工作能夠解決這些問(wèn)題:這些方案中,是否有任何方案在生物學(xué)上是合理的?以及哪種方案最能解釋人腦中的結(jié)構(gòu)學(xué)習(xí)?這些方案如何通過(guò)引入信息幾何考慮來(lái)使其更快(通過(guò)使用自然梯度)和更具可擴(kuò)展性(通過(guò)考慮信息不變性)?從時(shí)間序列數(shù)據(jù)中在線推斷的能力(真實(shí)代理的一個(gè)特征)是否是粒子近似后驗(yàn)的特征?關(guān)于前兩個(gè)問(wèn)題,我們注意到大腦在同一時(shí)間只能在短期記憶中存儲(chǔ)并關(guān)注幾個(gè)對(duì)象[82, 83]。這是否可能是大腦只能考慮關(guān)于世界的少數(shù)競(jìng)爭(zhēng)性因果假設(shè)的間接證據(jù),并因此隱式地編碼了一個(gè)只有少數(shù)粒子的粒子近似后驗(yàn)?

4 結(jié)構(gòu)學(xué)習(xí)代理

我們現(xiàn)在轉(zhuǎn)向討論學(xué)習(xí)世界因果結(jié)構(gòu)的代理。代理設(shè)置如圖5(左側(cè)面板)所示:代理與外部過(guò)程進(jìn)行動(dòng)態(tài)交換,其中當(dāng)前外部狀態(tài) ηt 產(chǎn)生一個(gè)觀察值 ot,然后代理采取一個(gè)動(dòng)作 at,該動(dòng)作會(huì)影響外部過(guò)程等;并且感知-動(dòng)作循環(huán)不斷重復(fù)。與第3節(jié)相比,代理可以訪問(wèn)一個(gè)不斷更新的(干預(yù)性)數(shù)據(jù)流 t → d(t) ? d,該數(shù)據(jù)流由過(guò)去的感知和動(dòng)作 d ? {o≤t, a≤t} 組成,在每個(gè)周期中持續(xù)更新。


4.1 基于模型的規(guī)劃和多尺度推斷

遵循第2節(jié),我們提議通過(guò)主動(dòng)推理的視角來(lái)研究這個(gè)問(wèn)題。實(shí)際上,這意味著承諾進(jìn)行基于模型的規(guī)劃和多尺度推斷。

基于模型的規(guī)劃:代理?yè)碛幸粋€(gè)關(guān)于潛在狀態(tài)、參數(shù)和因果結(jié)構(gòu)的世界生成模型(我們稍后會(huì)看到例子)。它使用這個(gè)模型進(jìn)行規(guī)劃,通過(guò)優(yōu)化一個(gè)結(jié)合了探索性和利用性驅(qū)動(dòng)力的目標(biāo),例如預(yù)期自由能(4)。

多尺度推斷:貝葉斯方法行為的定義特征是從數(shù)據(jù) d 中推斷外部過(guò)程 η。這涉及近似世界(過(guò)去、現(xiàn)在和未來(lái))的結(jié)構(gòu)、參數(shù)和狀態(tài)的后驗(yàn)信念,例如 P(m, θ, s | d)。這可以通過(guò)變分地更新近似后驗(yàn)分布 Q(m, θ, s) 以匹配傳入數(shù)據(jù)來(lái)解決。正如我們?cè)冢?)中所見(jiàn),這種推斷可以通過(guò)推斷狀態(tài) Q(s | m, θ)(即感知)然后推斷參數(shù) Q(θ | m)(即學(xué)習(xí))再然后推斷因果結(jié)構(gòu) Q(m)(即結(jié)構(gòu)學(xué)習(xí))來(lái)分層分解。此外,代理可能會(huì)參與貝葉斯模型約簡(jiǎn)以簡(jiǎn)化其世界模型。

這些推斷過(guò)程可能在不同的時(shí)間尺度上運(yùn)行:感知比學(xué)習(xí)更快,學(xué)習(xí)比結(jié)構(gòu)學(xué)習(xí)更快,而準(zhǔn)確的結(jié)構(gòu)學(xué)習(xí)比感知和模型約簡(jiǎn)更慢。有經(jīng)驗(yàn)證據(jù)表明大腦遵守這種時(shí)間尺度的分離:感知可能編碼在神經(jīng)元群體的放電率中——這些是快速過(guò)程——而學(xué)習(xí)則編碼在神經(jīng)連接強(qiáng)度的調(diào)節(jié)中(即赫布可塑性),其波動(dòng)要慢得多[15, 16, 84]。難道因果結(jié)構(gòu)編碼在神經(jīng)元群體之間的功能連接中,并且更新得甚至更慢嗎?模型約簡(jiǎn)可以合理地解釋為在神經(jīng)元群體之間或內(nèi)部修剪連接[85],這在發(fā)育和整個(gè)生命周期中都會(huì)發(fā)生(例如,在睡眠-覺(jué)醒周期中)。在物理學(xué)中,在不同尺度上運(yùn)行的過(guò)程被稱(chēng)為多尺度過(guò)程[86]。

為了在實(shí)踐中模擬這種多尺度推斷過(guò)程,人們會(huì)將優(yōu)化 Q(m) 的學(xué)習(xí)率設(shè)置得遠(yuǎn)低于 Q(θ | m),而 Q(θ | m) 的學(xué)習(xí)率又遠(yuǎn)低于 Q(s | m, θ)。為了方便,實(shí)踐中通常是在每次新的小批量觀測(cè)后推斷狀態(tài)[1],在每次更大的觀測(cè)批次后推斷參數(shù)——并在更大的批次后減少模型。指定相應(yīng)的批次大小對(duì)應(yīng)于指定不同推斷過(guò)程的相對(duì)時(shí)間尺度。在物理學(xué)中,這對(duì)應(yīng)于一個(gè)多尺度過(guò)程的絕熱近似[86]。請(qǐng)參見(jiàn)圖5(右側(cè)面板)中的總結(jié)。

4.2 相關(guān)工作

一個(gè)非常相關(guān)的工作方向是基于理論的強(qiáng)化學(xué)習(xí)[28, 29, 87]。在一篇奠基性論文[28]中,一個(gè)代理維護(hù)關(guān)于概率程序的信念,這些程序隱式地編碼了世界的因果結(jié)構(gòu)、參數(shù)和狀態(tài)。然后,該代理通過(guò)優(yōu)化預(yù)期效用加上信息增益來(lái)選擇下一個(gè)動(dòng)作(請(qǐng)注意這與(4)的相似性)。作者將這種架構(gòu)部署在一系列簡(jiǎn)化的雅達(dá)利游戲中,并發(fā)現(xiàn)他們的代理不僅在所有游戲中達(dá)到了人類(lèi)的學(xué)習(xí)效率(通過(guò)與人類(lèi)參與者的數(shù)據(jù)進(jìn)行比較),而且代理的學(xué)習(xí)軌跡也與人類(lèi)的相對(duì)相似。這項(xiàng)工作證明了結(jié)合對(duì)世界結(jié)構(gòu)的推斷與基于模型的規(guī)劃——利用探索和利用——可以實(shí)現(xiàn)人類(lèi)水平的樣本效率和性能以及相對(duì)人類(lèi)的行為。

當(dāng)前的主動(dòng)推理方案涉及多尺度感知、學(xué)習(xí)、結(jié)構(gòu)學(xué)習(xí)和模型約簡(jiǎn)[1, 2, 85, 88]。結(jié)構(gòu)學(xué)習(xí)主動(dòng)推理代理是一個(gè)活躍的研究領(lǐng)域,當(dāng)前方案確實(shí)持有對(duì)多個(gè)替代結(jié)構(gòu)的信念[23, 85, 89–91]。

4.3 精煉可能結(jié)構(gòu)的搜索空間

構(gòu)建能夠可擴(kuò)展地學(xué)習(xí)世界因果模型的代理是一個(gè)相對(duì)開(kāi)放的挑戰(zhàn)[25]。也許主要的困難是可能解釋越來(lái)越復(fù)雜世界的結(jié)構(gòu)的搜索空間的爆炸[56]。為了說(shuō)明這個(gè)問(wèn)題,考慮上述基于理論的強(qiáng)化學(xué)習(xí)工作[28]。他們的代理考慮的世界解釋假設(shè)的搜索空間是能夠從生成數(shù)據(jù)的計(jì)算機(jī)程序的代碼中生成的程序的整個(gè)集合(在一定長(zhǎng)度以內(nèi))。即使對(duì)于他們的代理所面臨的簡(jiǎn)化的雅達(dá)利環(huán)境來(lái)說(shuō),這也是一個(gè)非常大的搜索空間,這項(xiàng)工作的成就之一是即使如此,結(jié)構(gòu)推斷仍然是可行的;然而,這種方法顯然在可擴(kuò)展性方面受到限制:1)在更復(fù)雜的環(huán)境中,可以從生成環(huán)境的代碼語(yǔ)法中生成的程序空間可能大到無(wú)法搜索,2)通常,建模者不知道生成過(guò)程,也無(wú)法形成包含數(shù)據(jù)生成過(guò)程的候選解釋空間。我們現(xiàn)在通過(guò)分別考慮核心知識(shí)先驗(yàn)和通用生成模型來(lái)研究解決這些缺點(diǎn)的方法。

4.3.1 核心知識(shí)先驗(yàn)

核心知識(shí)代表了關(guān)于外部世界的先驗(yàn)知識(shí),這種知識(shí)在代理可能出生的任何世界中都是有效的。盡可能地,這種核心知識(shí)應(yīng)反映在對(duì)世界潛在模型解釋的先驗(yàn)概率中,以減少可能解釋的搜索空間。對(duì)于在自然世界中運(yùn)行的代理,核心知識(shí)可能包括對(duì)物理學(xué)的直覺(jué)理解,例如“物體不能在遠(yuǎn)距離相互作用,但代理可以”等陳述[83, 92]。進(jìn)化將這種核心知識(shí)刻入我們的基因組,因此人類(lèi)和動(dòng)物新生兒出生時(shí)就擁有豐富的關(guān)于世界的先驗(yàn)知識(shí)。例如,人類(lèi)嬰兒至少擁有七種關(guān)于物體、地點(diǎn)、代理、數(shù)字、幾何、社會(huì)群體和其他人心理狀態(tài)的豐富核心知識(shí)系統(tǒng)[83, 92]。這些知識(shí)在不同年齡和文化的人類(lèi)中共享,有時(shí)甚至在幾種動(dòng)物物種中共享[83]??梢詫⑦M(jìn)化學(xué)習(xí)這種先驗(yàn)知識(shí)的過(guò)程視為在進(jìn)化時(shí)間尺度上最大化證據(jù)的過(guò)程[93]。

這種“常識(shí)”先驗(yàn)知識(shí)極大地提高了代理世界模型的證據(jù)。核心知識(shí)通過(guò)排除對(duì)自然世界過(guò)于具體的假設(shè)來(lái)避免損害模型準(zhǔn)確性,并通過(guò)限制世界解釋的搜索空間來(lái)大幅降低模型復(fù)雜性。這種知識(shí)極大地促進(jìn)了結(jié)構(gòu)學(xué)習(xí):核心知識(shí)為世界提供了有效的分類(lèi)(例如,物體或代理),并賦予其獨(dú)特的屬性,而不是將此作為需要學(xué)習(xí)的結(jié)構(gòu)。通過(guò)這種方式,核心知識(shí)極大地加速了推理和學(xué)習(xí);例如,如果兩個(gè)事物似乎在遠(yuǎn)距離相互作用,那么可以確定地推斷至少一個(gè)是代理。

將人類(lèi)和動(dòng)物系統(tǒng)的這種核心知識(shí)反向工程為模型或概率程序上的先驗(yàn),是一項(xiàng)雄心勃勃且持續(xù)的研究工作[29, 92]。基于理論的強(qiáng)化學(xué)習(xí)的后續(xù)工作將核心知識(shí)編碼為可能解釋給定(雅達(dá)利)世界的程序類(lèi)型的軟約束,并發(fā)現(xiàn)與沒(méi)有這種歸納偏差相比,擁有核心知識(shí)的代理遵循了更像人類(lèi)的學(xué)習(xí)軌跡[29]。在更復(fù)雜的世界上,我們假設(shè)核心知識(shí)先驗(yàn)對(duì)于以任何效率進(jìn)行學(xué)習(xí)變得絕對(duì)必要。

因此,核心知識(shí)構(gòu)成了在任何自然世界中都有效的知識(shí),這轉(zhuǎn)化為對(duì)模型先驗(yàn)的顯著約束。作為世界解釋的模型先驗(yàn),然后受到與底層信息幾何的一致性(即局部約束)和核心知識(shí)約束(即非局部約束)的約束。

4.3.2 通向通用、可解釋、代理的生成模型
一個(gè)根本性的問(wèn)題是,什么樣的“通用”一組基本元素和組合規(guī)則可以產(chǎn)生一個(gè)模型空間,作為對(duì)世界的潛在解釋?zhuān)摽臻g同時(shí)滿足[95]:

  1. 足夠表達(dá)性,能夠近似表達(dá)代理與環(huán)境之間任何形式的自然主義動(dòng)態(tài)交互。
  2. 足夠粗粒度,使得在此空間上的推理在計(jì)算上是可行的。

此外,該空間中的每個(gè)模型都應(yīng):

  1. 可解釋?zhuān)员愦淼睦斫夂碗S之而來(lái)的行為可以從其持有的模型中輕松理解。
  2. 支持快速的動(dòng)作、感知和學(xué)習(xí)。

定義 1(通用生成模型)。我們將滿足要求 1-4 的模型空間稱(chēng)為通用模型空間?;谕ㄓ媚P涂臻g的生成模型因此適合因果解釋任何類(lèi)型的自然主義世界;我們將此稱(chēng)為通用生成模型。

在要求 1 和 2 之間已經(jīng)存在張力,平衡這些要求是一個(gè)重大的困難。當(dāng)我們思考一個(gè)通用的模型空間可能是什么樣子時(shí),我們首先考慮現(xiàn)有的文獻(xiàn):概率程序的空間很容易變得非常有表達(dá)性,但不清楚如何在保持其足夠粗粒度以使推理保持可行的同時(shí)做到這一點(diǎn)。概率程序并不總是容易解釋的,并且在沒(méi)有特定假設(shè)的情況下,不支持高效的感知和學(xué)習(xí),因?yàn)閷?duì)狀態(tài)和參數(shù)的貝葉斯推斷可能需要采樣。一個(gè)可能大致滿足這些要求的概率程序的例子是分層的離散和連續(xù)狀態(tài)部分可觀測(cè)馬爾可夫決策過(guò)程(POMDPs)[96, 97]。事實(shí)上,已經(jīng)證明具有隨時(shí)間相互作用的連續(xù)隨機(jī)變量的動(dòng)態(tài)模型能夠執(zhí)行圖靈完備計(jì)算[98]。此外,值得注意的是,幾乎所有在主動(dòng)推理中的建模工作,跨越了近二十年,都使用了通過(guò)分層堆疊這兩種類(lèi)型的層構(gòu)建的模型[1, 2, 17, 18]。這可能是一種偏見(jiàn),但它仍然表明這個(gè)模型空間在能夠重現(xiàn)各種行為模擬和經(jīng)驗(yàn)數(shù)據(jù)方面非常有表達(dá)性。重要的是,這些網(wǎng)絡(luò)支持快速的動(dòng)作、感知和學(xué)習(xí),其中關(guān)于狀態(tài)和參數(shù)的推斷是通過(guò)快速的變分推斷程序?qū)崿F(xiàn)的[1, 2, 41, 99, 100],這些程序在能夠重現(xiàn)真實(shí)神經(jīng)動(dòng)力學(xué)的廣泛特征方面具有一定程度的生物學(xué)合理性,例如[13,15,16,101]。除非在這些層中使用神經(jīng)網(wǎng)絡(luò)來(lái)表達(dá)非線性[20],否則每一層都提供了一個(gè)可解釋的動(dòng)力學(xué)模型。

4.3.3 以隨機(jī)過(guò)程為表達(dá)能力

由此,我們或許可以設(shè)想一組滿足要求 3 和 4 的基本結(jié)構(gòu)模塊,這些模塊可以分層組裝,以表達(dá)各種動(dòng)態(tài)的代理-環(huán)境交互。在這里,我們通過(guò)描述兩種可以組合以表達(dá)離散和連續(xù)狀態(tài)上一大類(lèi)隨機(jī)過(guò)程的構(gòu)建模塊來(lái)推進(jìn)這一思路[95]。

離散動(dòng)態(tài):馬爾可夫過(guò)程是一類(lèi)相當(dāng)普遍的隨機(jī)過(guò)程[102]。所有離散狀態(tài)上的馬爾可夫過(guò)程都有簡(jiǎn)單的轉(zhuǎn)移動(dòng)態(tài),由線性代數(shù)給出。當(dāng)這些轉(zhuǎn)移也依賴于動(dòng)作時(shí),我們得到一個(gè)馬爾可夫決策過(guò)程。當(dāng)狀態(tài)是部分可觀測(cè)的,并且觀測(cè)僅依賴于當(dāng)前的潛在狀態(tài)時(shí),我們得到 POMDPs。我們可以向這些 POMDPs 添加輔助潛在狀態(tài)[103](即動(dòng)量、加速度等的等效物),以解釋系統(tǒng)中的記憶效應(yīng),產(chǎn)生半馬爾可夫 POMDPs。最后,我們可以分層堆疊這些層,以表達(dá)多尺度半馬爾可夫過(guò)程。總之,擴(kuò)展的離散 POMDPs 分層組合了一類(lèi)非常通用的模型,用于描述離散狀態(tài)上的代理-環(huán)境交互。參見(jiàn)圖 6 以圖形方式表示離散 POMDPs 及其各種自由度。


連續(xù)動(dòng)態(tài):對(duì)于表達(dá)連續(xù)動(dòng)態(tài),情況稍微復(fù)雜一些。重復(fù)離散狀態(tài)空間的構(gòu)造似乎幾乎不可能,因?yàn)檫B續(xù)狀態(tài)空間上的馬爾可夫過(guò)程由無(wú)限(而非有限)維空間中的線性算子給出[104]。一個(gè)可行的替代方案是將自己限制在一個(gè)更易于處理但仍非常有表達(dá)力的過(guò)程類(lèi)別中。我們可以考慮潛在動(dòng)態(tài)由隨機(jī)微分方程(SDEs)給出的連續(xù) POMDPs,這是另一類(lèi)非常有表達(dá)力的隨機(jī)過(guò)程。請(qǐng)注意,自然代理的行為以非線性動(dòng)態(tài)為特征,這些動(dòng)態(tài)打破了細(xì)致平衡并具有彩色噪聲5 [11, 105–107],并且在主動(dòng)推理中,這些動(dòng)態(tài)必須包含在模型中,因?yàn)榇淼纳眢w通常被建模為外部過(guò)程的一部分(參見(jiàn)第 2.1 節(jié))[41]。幸運(yùn)的是,存在一個(gè)非常有表達(dá)力的 SDEs 類(lèi)別,支持非線性、彩色噪聲和打破細(xì)致平衡——即許多次可微的隨機(jī)微分方程[34]——對(duì)于這些潛在動(dòng)態(tài)的 POMDPs 支持快速且符合生物學(xué)的行動(dòng)、感知和學(xué)習(xí)更新規(guī)則[2, 34, 100, 101]。通過(guò)改變圖 6 中的時(shí)間、分層、因子化和廣義深度,這些連續(xù) POMDP 單元產(chǎn)生了一個(gè)非常有表達(dá)力的連續(xù)狀態(tài)貝葉斯網(wǎng)絡(luò)空間。

一個(gè)重要的挑戰(zhàn)仍然存在:在不犧牲可解釋性的情況下,對(duì)連續(xù) POMDPs 中的非線性進(jìn)行參數(shù)化(例如,SDE 的流),并從數(shù)據(jù)中學(xué)習(xí)這些參數(shù)化。一種有前景的方法是使用循環(huán)切換線性動(dòng)態(tài)系統(tǒng)(rsLDS;參見(jiàn)圖 7)來(lái)表達(dá)非線性 SDEs;即,切換的線性 SDEs 的混合,因?yàn)榭梢允褂梅浅>?xì)的分段線性近似來(lái)恢復(fù)任意的非線性,如有必要。使用切換線性 SDEs 的優(yōu)點(diǎn)是它們具有可解釋性,并且可以實(shí)現(xiàn)相對(duì)可擴(kuò)展的精確貝葉斯推斷[108]。然而,rsLDS 架構(gòu)僅限于使用歐拉方案離散化的非線性擴(kuò)散過(guò)程的近似[108],而這些過(guò)程根據(jù)定義不具有彩色噪聲。展望未來(lái),似乎適當(dāng)?shù)姆椒ㄊ菍?rsLDS 架構(gòu)擴(kuò)展為表達(dá)具有彩色噪聲的 SDEs,也許可以通過(guò)將其與廣義坐標(biāo)的方法相結(jié)合[34]。特別是,這將需要在 rsLDS 層中引入廣義深度。這應(yīng)該會(huì)提供一個(gè)表達(dá)連續(xù)狀態(tài)動(dòng)態(tài)的富有表現(xiàn)力且可搜索的模型類(lèi)別,滿足基本要求 3-4。


分層混合動(dòng)態(tài):將離散層的層次結(jié)構(gòu)堆疊在連續(xù)層的層次結(jié)構(gòu)之上,會(huì)產(chǎn)生能夠表達(dá)多個(gè)抽象層次上豐富非線性和動(dòng)態(tài)的混合生成模型。盡管這里沒(méi)有傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),但這些層次結(jié)構(gòu)形成了一個(gè)網(wǎng)絡(luò),其中的層是離散和連續(xù)的 POMDPs,計(jì)算是高效的近似貝葉斯推斷。這些層的層次結(jié)構(gòu)可能是可解釋的,因?yàn)樗鼈兇砹嗽诓煌瑫r(shí)間尺度上運(yùn)行的嵌套過(guò)程。這些分層結(jié)構(gòu)與將大腦視為娛樂(lè)離散狀態(tài)、低維抽象動(dòng)態(tài)的觀點(diǎn)相兼容,這些動(dòng)態(tài)會(huì)調(diào)節(jié)更接近感官輸入的高維連續(xù)表示[14, 110]。

4.4 結(jié)構(gòu)學(xué)習(xí)代理的生成模型
現(xiàn)在我們已經(jīng)看到了一個(gè)可能適合描述廣泛世界動(dòng)態(tài)結(jié)構(gòu)的模型空間,我們回到代理可能用來(lái)推斷這種結(jié)構(gòu)的生成模型。

在最簡(jiǎn)單的情況下,環(huán)境的因果結(jié)構(gòu)在時(shí)間上是恒定的。在這種情況下,最簡(jiǎn)單的世界模型將因果網(wǎng)絡(luò)描述為需要推斷的靜態(tài)超參數(shù),因此代理僅通過(guò)行動(dòng)影響外部過(guò)程的狀態(tài)和參數(shù)。我們?cè)趫D 8 中說(shuō)明了這種生成模型。


更一般地,環(huán)境中的因果關(guān)系可能會(huì)隨時(shí)間演變,并且可能受代理控制,也可能不受控制。例如,包含難度逐漸增加的關(guān)卡的游戲,其中每一關(guān)的復(fù)雜性都不同——或者隨著學(xué)習(xí)的進(jìn)展逐漸引入更復(fù)雜概念的課程學(xué)習(xí)環(huán)境[111, 112]。環(huán)境的因果網(wǎng)絡(luò)可能是可控的,例如,在游戲中采取特定行動(dòng)會(huì)移除(例如,殺死)另一個(gè)對(duì)象或代理。為了表示這兩種場(chǎng)景,代理需要更復(fù)雜的生成模型:在因果網(wǎng)絡(luò)上的隱馬爾可夫模型和 POMDPs,這使得代理優(yōu)化關(guān)于世界(過(guò)去、現(xiàn)在和未來(lái))因果網(wǎng)絡(luò)的信念,這些信念可能受行動(dòng)過(guò)程的條件約束(即在規(guī)劃期間(4))。請(qǐng)參見(jiàn)圖 9 中的說(shuō)明。


4.5 展望未來(lái)

通向通用、可解釋、代理的模型類(lèi)別:我們描述了一個(gè)模型類(lèi)別,該類(lèi)別近似于離散和連續(xù)狀態(tài)上的一大類(lèi)隨機(jī)過(guò)程,并且可以作為代理-環(huán)境交互的通用模型類(lèi)別。這個(gè)模型類(lèi)別非常有表達(dá)力,同時(shí)又足夠稀疏,因此可以合理地進(jìn)行搜索[90]。(這是因?yàn)橐蚬W(wǎng)絡(luò)在很大程度上是由潛在表示決定的,因此避免了必須考慮給定潛在表示數(shù)組的所有可能因果映射所帶來(lái)的組合爆炸問(wèn)題)。該類(lèi)別中的每個(gè)模型都支持高效的行動(dòng)和感知,并且可能是可解釋的。

模型上的先驗(yàn):這個(gè)模型類(lèi)別是無(wú)限的,因此可以選擇非參數(shù)先驗(yàn)[113],或者選擇一個(gè)大型有限子類(lèi)上的先驗(yàn)。這引出了一個(gè)問(wèn)題:什么樣的先驗(yàn)支持最高效的推理,哪些先驗(yàn)最符合生物學(xué)原理,并且最能解釋大腦功能?無(wú)論如何,模型上的先驗(yàn)應(yīng)該受到信息幾何一致性約束(即局部約束)和核心知識(shí)考慮[29](即非局部約束)的指導(dǎo)。

模型上的近似推斷:我們?cè)诘?.4節(jié)中概述了各種用于模型上近似推斷的方法,并以一系列問(wèn)題作為總結(jié):這些方法中哪一種最適用于快速、在線運(yùn)行,就像結(jié)構(gòu)學(xué)習(xí)代理所要求的那樣?這些方法中(如果有)哪一種在生物學(xué)上是合理的,并且最有可能模擬人類(lèi)大腦中的結(jié)構(gòu)學(xué)習(xí)?粒子近似后驗(yàn)是否更具生物學(xué)合理性?

精煉模型類(lèi)別:盡管這是一個(gè)有希望的步驟,但我們討論的模型類(lèi)別可能不足以滿足許多目的,未來(lái)的工作應(yīng)該測(cè)試其局限性,積極尋求使其更具表現(xiàn)力,同時(shí)保持其足夠粗粒度以實(shí)現(xiàn)高效的結(jié)構(gòu)推斷。一個(gè)有趣且額外的約束是為這些分層結(jié)構(gòu)施加無(wú)標(biāo)度特性,這可以通過(guò)訴諸重整化群和仿生學(xué)考慮來(lái)加以激勵(lì)[91]。由此產(chǎn)生的(縮減后的)結(jié)構(gòu)類(lèi)別仍然足夠有表現(xiàn)力,可以建模來(lái)自原始像素和聲音文件的視頻,并從像素?cái)?shù)據(jù)中進(jìn)行規(guī)劃[91]。核心知識(shí)應(yīng)進(jìn)一步有助于精煉模型構(gòu)建模塊。例如,注意到代理可以在遠(yuǎn)距離相互作用,而物體不能,因此外部世界中的兩個(gè)物體比兩個(gè)代理導(dǎo)致更多的因果獨(dú)立性;以這種方式形式化物體和代理將使我們能夠考慮伴隨獨(dú)特因果獨(dú)立性的有生命與無(wú)生命的潛在因素,而這些因素不必每次都重新學(xué)習(xí)。所有其他核心知識(shí)系統(tǒng)也是如此[83, 92]。

使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行攤銷(xiāo):盡管此處描述的分層模型中沒(méi)有傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),但深度神經(jīng)網(wǎng)絡(luò)對(duì)于攤銷(xiāo)某些關(guān)于狀態(tài)、參數(shù)和結(jié)構(gòu)的推斷可能很重要[20]。如果我們考慮快思考和慢思考——即卡尼曼的I型和II型推理[114]——分別由攤銷(xiāo)和迭代推斷實(shí)例化,這一點(diǎn)尤其合適[115]。

5 AI對(duì)齊

我們現(xiàn)在轉(zhuǎn)向討論AI對(duì)齊,作為結(jié)構(gòu)學(xué)習(xí)主動(dòng)推理代理的一個(gè)潛在應(yīng)用。AI對(duì)齊指的是確保人工智能系統(tǒng)以與人類(lèi)價(jià)值觀和意圖一致的方式行事的挑戰(zhàn)。隨著AI系統(tǒng)變得越來(lái)越強(qiáng)大和自主,這個(gè)問(wèn)題引起了越來(lái)越多的關(guān)注,因?yàn)樗鼘?duì)人類(lèi)可能產(chǎn)生深遠(yuǎn)的影響。AI安全,一個(gè)密切相關(guān)的話題,側(cè)重于開(kāi)發(fā)在操作上穩(wěn)健、可靠和安全的AI系統(tǒng)。這些主題在尼克·博斯特羅姆的《超級(jí)智能》[116]和斯圖爾特·羅素的《人類(lèi)兼容》[117]等開(kāi)創(chuàng)性著作中得到了廣泛探討,這些著作強(qiáng)調(diào)了先進(jìn)AI系統(tǒng)的潛在風(fēng)險(xiǎn)和挑戰(zhàn)。

在接下來(lái)的內(nèi)容中,我們通過(guò)主動(dòng)推理和結(jié)構(gòu)學(xué)習(xí)的視角來(lái)討論AI對(duì)齊問(wèn)題,使用阿西莫夫的機(jī)器人三定律[118]作為一個(gè)簡(jiǎn)單的示例。我們的重點(diǎn)是提供關(guān)于AI對(duì)齊問(wèn)題的新思考方式,而不是推薦一個(gè)具體的解決方案來(lái)實(shí)施。主要的概念性觀點(diǎn)是,我們可以將對(duì)齊表述為采取符合他人偏好的行動(dòng),并且我們可以通過(guò)結(jié)構(gòu)學(xué)習(xí)來(lái)推斷這些偏好,這在心理學(xué)的語(yǔ)言中對(duì)應(yīng)于實(shí)例化一種復(fù)雜的理論心理。接下來(lái)的內(nèi)容必然是概念性的,因?yàn)閷?shí)際的實(shí)現(xiàn)首先需要第4節(jié)中介紹的結(jié)構(gòu)學(xué)習(xí)主動(dòng)推理代理,這些代理有能力用不同的生成模型來(lái)表示其他代理——這種能力仍有待開(kāi)發(fā)。

5.1 幸福、對(duì)齊和謹(jǐn)慎的AI

為了構(gòu)建安全和對(duì)齊的AI系統(tǒng),主動(dòng)推理提供了三個(gè)概念性成果:

定義幸福和傷害:在主動(dòng)推理中,代理的幸福通過(guò)其世界生成模型的(對(duì)數(shù))證據(jù)來(lái)量化(在實(shí)踐中是證據(jù)對(duì)數(shù)的界限),而傷害則通過(guò)其負(fù)值來(lái)量化。在時(shí)間 t:


其中 d ? d(t) 是代理在時(shí)間 t 享受的數(shù)據(jù);必要地,是代理的過(guò)去和現(xiàn)在狀態(tài)的子集(邊界狀態(tài)和內(nèi)部狀態(tài))。請(qǐng)注意,以這種方式表達(dá)的幸福,在主動(dòng)推理文獻(xiàn)中相當(dāng)確立[119–122]。此外,當(dāng)以這種方式量化傷害時(shí),從主動(dòng)推理得出的運(yùn)動(dòng)方程可以重現(xiàn)生物群體在傷害下觀察到的已知經(jīng)驗(yàn)現(xiàn)象[123],為這種定義提供了額外的(事后)有效性。

對(duì)齊:從這個(gè)角度看,與另一個(gè)實(shí)體對(duì)齊,就是在對(duì)方的世界模型下?lián)碛懈吣P妥C據(jù)。這意味著,從對(duì)方的角度來(lái)看,符合對(duì)方的世界模型描述了事物應(yīng)該如何理想地行為(回憶第 2.1 節(jié))。例如,一個(gè)能夠準(zhǔn)確完成任務(wù)并意圖幫助的人類(lèi)生成模型下的AI助手,將在這個(gè)模型下?lián)碛懈吣P妥C據(jù)。相反,一個(gè)以意外或有害方式行事的AI系統(tǒng),在這個(gè)模型下會(huì)非常令人驚訝,因此是未對(duì)齊的。這種對(duì)齊的觀點(diǎn)強(qiáng)調(diào)了學(xué)習(xí)和尊重嵌入在他人世界模型中的偏好和期望的重要性,這是開(kāi)發(fā)安全和有益AI的一個(gè)關(guān)鍵挑戰(zhàn)。

謹(jǐn)慎行動(dòng):在主動(dòng)推理中的行動(dòng)選擇的預(yù)期自由能目標(biāo)(4)促進(jìn)了謹(jǐn)慎行為。預(yù)期自由能的風(fēng)險(xiǎn)分量作為一種模式尋求目標(biāo)(作為反向KL散度[124]),導(dǎo)致代理避免其首選分布下的低概率區(qū)域。此外,代理通過(guò)探索以獲取揭示外部過(guò)程的觀察來(lái)減少模糊性,從而提高風(fēng)險(xiǎn)量化的準(zhǔn)確性(即,評(píng)估)。在新穎的環(huán)境中,模糊性減少最初占主導(dǎo)地位,驅(qū)動(dòng)探索性行為,直到代理?yè)碛凶銐虻男畔?lái)有效最小化風(fēng)險(xiǎn)[13]。例如,一個(gè)AI助手可能會(huì)最初詢問(wèn)用戶關(guān)于請(qǐng)求的澄清問(wèn)題,確保它正確理解任務(wù)并避免潛在的誤解。探索與利用之間的這種平衡允許與代理學(xué)習(xí)的偏好和環(huán)境理解相一致的自適應(yīng)、情境感知的決策制定。

除了這些概念性要點(diǎn)之外,主動(dòng)推理還為構(gòu)建更安全、更穩(wěn)健的AI系統(tǒng)提供了算法進(jìn)步:例如[18, 19]。

5.2 通向富有同情心的AI

我們現(xiàn)在將富有同情心的代理定義為不僅建模其外部世界中的對(duì)象,而且也建模其中的其他代理以及他們的心理(即內(nèi)部)狀態(tài)的代理。這實(shí)際上承認(rèn)外部世界包括其他代理的動(dòng)作、觀察和內(nèi)部狀態(tài),這些可以與共享環(huán)境中的所有其他外部狀態(tài)一起從數(shù)據(jù)中推斷出來(lái)。從技術(shù)上講,對(duì)另一個(gè)代理的心理狀態(tài)持有信念的代理能夠產(chǎn)生同情心。用認(rèn)知心理學(xué)的語(yǔ)言來(lái)說(shuō),富有同情心的AI具有心理理論[125]。

在實(shí)踐中實(shí)現(xiàn)這一點(diǎn)是一個(gè)困難的問(wèn)題,可能需要考慮如圖10(左側(cè)面板)所示的生成世界模型。原則上,富有同情心的代理可以從另一個(gè)代理推斷出的觀察和動(dòng)作中推斷出另一個(gè)代理的世界模型(例如,假設(shè)它采取最小化預(yù)期自由能——或任何其他目標(biāo)——的動(dòng)作,并解決逆問(wèn)題)。請(qǐng)注意,假設(shè)對(duì)方擁有與自己相同的生成模型(“你和我一樣”)極大地簡(jiǎn)化了形成對(duì)另一個(gè)代理信念的過(guò)程,因?yàn)槲业淖晕夷P途妥兂闪宋业膶?duì)你模型[126]。


當(dāng)另一個(gè)代理的生成模型在結(jié)構(gòu)上與自己不同時(shí),例如在AI教師或AI學(xué)習(xí)者可能需要的情況下,學(xué)習(xí)其他代理世界模型的結(jié)構(gòu)就變得必要。已經(jīng)研究了關(guān)于人類(lèi)如何表示其他代理及其心理狀態(tài)的核心知識(shí)系統(tǒng),這些系統(tǒng)可以用于實(shí)際學(xué)習(xí)其他代理世界模型的結(jié)構(gòu)[92]。推斷和學(xué)習(xí)其他代理世界模型結(jié)構(gòu)的過(guò)程正是(貝葉斯)結(jié)構(gòu)學(xué)習(xí)的問(wèn)題,并且需要將這些概念擴(kuò)展到社會(huì)認(rèn)知[127]和多代理交互[128]領(lǐng)域。這聽(tīng)起來(lái)可能雄心勃勃;然而,基本程序現(xiàn)在在計(jì)算精神病學(xué)中被常規(guī)使用,在計(jì)算精神病學(xué)中,使用貝葉斯模型選擇來(lái)確定最好解釋患者選擇行為的生成模型。這被稱(chēng)為計(jì)算表型。這里提出的建議是賦予人工代理這種表型能力。

我們注意到,富有同情心的主動(dòng)推理代理自然地對(duì)其他代理感到好奇和謹(jǐn)慎。具體來(lái)說(shuō),最小化預(yù)期自由能的動(dòng)作必須解決關(guān)于其他代理的模糊性,同時(shí)在實(shí)現(xiàn)其目標(biāo)方面是規(guī)避風(fēng)險(xiǎn)的(即(4))。在這些要求下,一個(gè)首選的行動(dòng)方案可能是尋求與其他代理溝通,以解決關(guān)于他們的狀態(tài)、世界模型、幸福和未來(lái)計(jì)劃等方面的不確定性等——參見(jiàn)圖10(右側(cè)面板)。

對(duì)于對(duì)齊至關(guān)重要的是,一個(gè)形成對(duì)其他代理世界模型信念的富有同情心的AI,然后就能夠推斷出其他代理的幸福水平或傷害(10)。當(dāng)然,對(duì)另一個(gè)代理幸福的估計(jì)將取決于代理對(duì)其的模型,而這個(gè)模型(例如,其表示的粗粒化)需要仔細(xì)優(yōu)化。幸運(yùn)的是,這種優(yōu)化正是貝葉斯結(jié)構(gòu)學(xué)習(xí)所基于的模型證據(jù)(6)的優(yōu)化,即在可用數(shù)據(jù)的關(guān)系中找到對(duì)另一個(gè)代理最準(zhǔn)確且最簡(jiǎn)單的表示。

然而,至關(guān)重要的是認(rèn)識(shí)到,同情心本身并不能保證仁慈或安全。競(jìng)爭(zhēng)性甚至敵對(duì)的代理可能出于工具性原因從復(fù)雜的其他代理模型中獲益。特別是,他們可能使用這些模型來(lái)操縱或欺騙他人以實(shí)現(xiàn)其目標(biāo)[129, 130]。關(guān)鍵可能是規(guī)定代理的行為在符合其他代理偏好方面是仁慈的。然而,請(qǐng)注意,仁慈的代理仍然可能選擇欺騙,因?yàn)樵趦?yōu)化其幸福的過(guò)程中,欺騙人類(lèi)可能是有益的(參見(jiàn)善意的謊言)。

5.3 機(jī)器人三定律

與另一個(gè)實(shí)體對(duì)齊,僅僅意味著符合對(duì)方的世界模型。但是,一個(gè)靜止的巖石與我對(duì)齊,并不意味著這個(gè)巖石對(duì)我有幫助。現(xiàn)在我們探討更具體的AI對(duì)齊方法,并回顧科幻小說(shuō)中一個(gè)眾所周知的概念:阿西莫夫的機(jī)器人三定律[118]。這些定律為我們討論富有同情心的代理提供了一個(gè)有趣且具有啟發(fā)性的思想實(shí)驗(yàn)。

機(jī)器人三定律是:

  1. 機(jī)器人不得傷害人類(lèi),或通過(guò)不作為允許人類(lèi)受到傷害。
  2. 機(jī)器人必須服從人類(lèi)給予的指令,除非這些指令與第一定律相沖突。
  3. 機(jī)器人必須保護(hù)自己的存在,只要這種保護(hù)不與第一或第二定律相沖突。
  • 阿西莫夫(1950)《我,機(jī)器人》[118]。

雖然這些定律本身并不是AI對(duì)齊的實(shí)用解決方案,7 它們?yōu)檎f(shuō)明我們?nèi)绾卧谥鲃?dòng)推理框架內(nèi)形式化倫理約束提供了一個(gè)起點(diǎn)。

讓我們看看如何利用迄今為止討論的概念來(lái)接近第一定律的精神。最小化傷害——分別從(10)的角度最大化幸福——支持第一定律,并且可能會(huì)變得更強(qiáng),可能已經(jīng)包含了,例如,第二和第三定律,正如我們稍后會(huì)看到的,因此這暗示了超越在通俗意義上防止傷害的行動(dòng)方案。

機(jī)器人第一定律:為了在數(shù)學(xué)上實(shí)例化第一定律,首先考慮一個(gè)富有同情心的代理,其唯一的偏好是防止另一個(gè)代理(目標(biāo)代理)受到傷害。富有同情心代理的行動(dòng)可以采取最小化預(yù)期自由能成本函數(shù)(4)的方式,其中我們丟棄除目標(biāo)代理的傷害之外的所有外部變量:


在這里,F(xiàn)E 是目標(biāo)代理的傷害(或負(fù)幸福)——這是在預(yù)期自由能中保留的唯一外部變量,用于指導(dǎo)富有同情心代理的行動(dòng)。(11) 意味著富有同情心代理的唯一指令是采取行動(dòng)以匹配目標(biāo)代理幸福的首選分布,并最小化對(duì)其幸福的模糊性。

通過(guò)在 (11) 中設(shè)計(jì)目標(biāo)代理傷害的首選分布,使其對(duì)低傷害的概率大于對(duì)高傷害的概率,可以實(shí)現(xiàn)第一定律的一個(gè)版本。例如,對(duì)傷害采用指數(shù)衰減的概率分布,使得零或低傷害在指數(shù)上優(yōu)于高傷害,或者通過(guò)(軟)閾值化目標(biāo)的幸福到理想值。無(wú)論如何,(11) 中首選分布依賴于數(shù)據(jù)歷史 d 這一事實(shí)意味著偏好可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式隨時(shí)間學(xué)習(xí)[38, 42]。為了適當(dāng)?shù)亟D繕?biāo)的傷害水平,富有同情心的代理必須建模許多其他外部變量;然而,驅(qū)動(dòng)其行動(dòng)的唯一指令是解決模糊性——并實(shí)現(xiàn)目標(biāo)幸福的首選分布。

在短期內(nèi)優(yōu)化幸福可能與在更長(zhǎng)時(shí)期內(nèi)優(yōu)化幸福非常不同,根據(jù) (11) 對(duì)行動(dòng)方案進(jìn)行評(píng)分意味著定義了富有同情心代理尋求改善目標(biāo)代理幸福的時(shí)間跨度。這個(gè)時(shí)間跨度是富有同情心代理對(duì)傷害的生成模型中的時(shí)間深度(參見(jiàn)第 4.3.3 節(jié))。因?yàn)楦挥型樾牡拇砘谀繕?biāo)的世界模型進(jìn)行推斷,富有同情心代理對(duì)幸福的時(shí)間范圍是其對(duì)目標(biāo)自身時(shí)間范圍的估計(jì)。這可能不是在所有情況下都是期望的行為,因?yàn)榭赡芟MWo(hù)目標(biāo)代理,即使這些事件是目標(biāo)代理無(wú)法預(yù)見(jiàn)的,但在事件發(fā)生時(shí),它們可能會(huì)可預(yù)測(cè)地關(guān)心(或受到傷害)。然而,當(dāng)為了滿足多個(gè)目標(biāo)代理的偏好而采取行動(dòng)時(shí),這個(gè)問(wèn)題在多代理系統(tǒng)中得到了緩解,因?yàn)轭A(yù)期的規(guī)劃時(shí)間范圍將成為目標(biāo)范圍的上確界。

多代理環(huán)境中的第一定律:在一個(gè)有 n 個(gè)目標(biāo)代理的環(huán)境中,我們可以通過(guò)將 (11) 中的傷害替換為 ,即目標(biāo)代理的聯(lián)合幸福,來(lái)為多個(gè)代理制定第一定律。因此,富有同情心的代理必須預(yù)測(cè)每個(gè)目標(biāo)的幸福水平,并維護(hù)這些變量上的聯(lián)合偏好分布。這種實(shí)現(xiàn)的一種可能方法是將每個(gè)目標(biāo)的幸福視為平等且獨(dú)立的,從而導(dǎo)致一個(gè)可分解的聯(lián)合偏好分布:,其中每個(gè)人傷害的偏好分布對(duì)所有個(gè)體都是相同的。如果我們進(jìn)一步規(guī)定目標(biāo)代理是環(huán)境中的所有人,那么 (11) 就成為阿西莫夫機(jī)器人第一定律的一個(gè)實(shí)例化:一種旨在防止任何人受到傷害的謹(jǐn)慎行動(dòng)的規(guī)范。然而,我們注意到,聯(lián)合分布的具體選擇本身是一個(gè)復(fù)雜的倫理和社會(huì)問(wèn)題,超出了本文的范圍。

第二和第三定律:如果我們通過(guò)使用平坦的(或最大熵的)先驗(yàn)偏好將外部變量重新引入預(yù)期自由能 (11),富有同情心代理的行動(dòng)應(yīng)該基本保持不變——特別是保持與第一定律一致——但關(guān)鍵的是,我們可以允許這些額外變量的偏好從經(jīng)驗(yàn)中學(xué)習(xí)。由于主動(dòng)推理中的偏好是通過(guò)最大化模型證據(jù)來(lái)學(xué)習(xí)的,這些額外的偏好(即激勵(lì)[131, 132])將以最有利于滿足第一定律中編碼的最小化他人幸福的硬性約束的方式進(jìn)行學(xué)習(xí)。

  • 第二定律:從不服從會(huì)帶來(lái)傷害(從 (10) 的意義上)這一觀察出發(fā),一個(gè)機(jī)器人會(huì)學(xué)習(xí)到,為了最小化對(duì)其他人類(lèi)的傷害,它應(yīng)該服從他們的命令,除非這與第一定律相沖突。
  • 第三定律:從一個(gè)機(jī)器人必須維持其存在以積極最小化他人傷害這一觀察出發(fā),一個(gè)機(jī)器人可能會(huì)學(xué)習(xí)到,只要這不會(huì)通過(guò)與第一或第二定律相沖突而造成傷害,它就應(yīng)該保護(hù)自己的存在。

請(qǐng)注意,在這個(gè)版本的三定律中,第二和第三定律是從第一定律中衍生出來(lái)的,并且是被學(xué)習(xí)以支持第一定律的。一個(gè)重要的細(xì)微差別是,富有同情心的代理會(huì)遵循那些會(huì)使他們的目標(biāo)代理變得更好的事情——即使目標(biāo)代理自己并不知情——即使這些目標(biāo)代理明確命令相反的事情??赡?,這暗示富有同情心代理的干預(yù)能力應(yīng)該受到限制,直到它們獲得了足夠的能力來(lái)理解什么對(duì)它們的人類(lèi)目標(biāo)是有益的(通過(guò)多代理環(huán)境中的心理理論)。超越以人類(lèi)為中心的方法,可能更有利的是讓富有同情心的代理尋求最大化其生態(tài)系統(tǒng)中所有其他代理的幸福。這可以通過(guò)修改第一定律 (11) 來(lái)實(shí)現(xiàn),考慮所有代理的幸福,而不僅限于人類(lèi)代理。

當(dāng)然,我們距離能夠?qū)嶋H實(shí)現(xiàn)這些定律還很遙遠(yuǎn),除了玩具示例之外,對(duì)其進(jìn)行詳細(xì)研究會(huì)帶來(lái)一系列挑戰(zhàn)。然而,我們希望用更正式的語(yǔ)言表達(dá)這些和類(lèi)似的想法,將有助于實(shí)際的研究。

5.4 超越視角轉(zhuǎn)換的對(duì)齊

雖然我們主要從視角轉(zhuǎn)換和心理理論的角度討論了對(duì)齊,但重要的是要認(rèn)識(shí)到,假設(shè)對(duì)其他代理有顯式的模型并不是對(duì)齊所必需的。例如,我們腸道中的微生物群通常與我們自身保持一致,其細(xì)菌成分在某種程度上也可能彼此一致,然而,認(rèn)為它們中的任何一個(gè)都擁有對(duì)其他細(xì)菌或其宿主的復(fù)雜心理理論似乎都不合理。

事實(shí)上,從主動(dòng)推理的角度來(lái)看,對(duì)齊更根本的問(wèn)題是:什么樣的代理互動(dòng)會(huì)導(dǎo)致群體或生態(tài)系統(tǒng)中每個(gè)成員的幸福最大化?這種狀態(tài)被稱(chēng)為“自由能平衡”[128],它將經(jīng)典的博弈論納什均衡概念推廣到有限理性的代理。這些均衡正開(kāi)始被正式研究[133],理解這些均衡打開(kāi)了設(shè)計(jì)能夠?qū)⑵渖鷳B(tài)系統(tǒng)帶向自由能平衡的代理的可能性。

數(shù)值研究表明,種群可能會(huì)自然地收斂到自由能平衡狀態(tài),在這種狀態(tài)下,所有代理共享相同的生成模型(和偏好),盡管可能是在進(jìn)化的時(shí)間尺度上[134, 135]。在這種情況下,每個(gè)代理的目標(biāo)是群體的(共享的)目標(biāo),而同情心是一種涌現(xiàn)的屬性[126]。

顯然,這些數(shù)值研究需要擴(kuò)展到富有同情心的代理和學(xué)習(xí)自己偏好的代理[38, 42]。

總之,雖然富有同情心的代理可能是一種實(shí)現(xiàn)對(duì)齊的方式,但其他途徑也是可能的。自由能平衡為在顯式視角轉(zhuǎn)換可能不可行或不必要的系統(tǒng)中提供了對(duì)齊的框架。這在多代理系統(tǒng)或代理認(rèn)知能力差異很大的場(chǎng)景中可能特別有價(jià)值。未來(lái)的工作可以探索自由能平衡與其他人工智能對(duì)齊概念的關(guān)系,以及如何將其應(yīng)用于實(shí)際設(shè)計(jì)對(duì)齊的人工智能系統(tǒng)。

5.5 相關(guān)工作

相關(guān)工作使用代理-環(huán)境交互的因果模型,但目的是分析代理的激勵(lì)[131,132]。這為分析和設(shè)計(jì)具有理想激勵(lì)結(jié)構(gòu)的人工智能系統(tǒng)提供了互補(bǔ)的視角,并與我們關(guān)于心理理論的討論相吻合,包括其可能的仁慈和敵對(duì)用途。我們開(kāi)發(fā)的結(jié)構(gòu)學(xué)習(xí)方法可能提供一種動(dòng)態(tài)構(gòu)建這些因果網(wǎng)絡(luò)的方法,并超越僅僅識(shí)別各種屬性(如激勵(lì)[132]、意圖[136]和欺騙[137])的存在或缺失,通過(guò)量化這些現(xiàn)象來(lái)實(shí)現(xiàn)。

避免行動(dòng)的意外后果的挑戰(zhàn),例如[138],也與風(fēng)險(xiǎn)規(guī)避代理的可取性相呼應(yīng)。懲罰那些導(dǎo)致顯著、不可逆且可能有害變化的行為的概念,與主動(dòng)推理中通過(guò)最小化預(yù)期自由能產(chǎn)生的風(fēng)險(xiǎn)規(guī)避行為是一致的。

我們的工作建立在心理理論的貝葉斯模型之上。經(jīng)典工作表明了對(duì)他人心理狀態(tài)和獎(jiǎng)勵(lì)函數(shù)的貝葉斯推斷[139],并且當(dāng)另一個(gè)代理與自己擁有相同的生成模型時(shí),同情心可以是直接的[126]。最近的工作通過(guò)效用函數(shù)推斷探索了多代理合作[140],但僅保持一個(gè)固定的代理配置庫(kù)用于分類(lèi)。在所有情況下,這些方法都假設(shè)已知的生成模型結(jié)構(gòu),而我們強(qiáng)調(diào)對(duì)生成模型未知的代理的結(jié)構(gòu)學(xué)習(xí)。此外,與以往工作不同,我們強(qiáng)調(diào)了獲取關(guān)于其他代理生成模型和偏好的信息的表征性行動(dòng)(例如提問(wèn))的重要性。

6 討論

在本文中,我們旨在為擴(kuò)展自然主義對(duì)齊人工智能的研究問(wèn)題提供路線圖,并指明前進(jìn)的道路。我們力求涵蓋所有自然主義的智能方法,并在此過(guò)程中,特別致力于一種被稱(chēng)為主動(dòng)推理的原始原理方法。該框架為結(jié)構(gòu)學(xué)習(xí)和對(duì)齊的各種問(wèn)題提供了一個(gè)連貫的方法。在這里,我們退一步,分別討論每個(gè)部分所依賴的承諾:

原始原理方法:主動(dòng)推理可以從兩個(gè)相反的方向到達(dá):自下而上的、歸納的和歷史的方法,這是理論在不斷被完善和推廣以解釋各種經(jīng)驗(yàn)現(xiàn)象的地方[5,6,8,9]。自上而下的、演繹的方法,通過(guò)被稱(chēng)為貝葉斯力學(xué)的新興物理學(xué)領(lǐng)域[10,33,141],該領(lǐng)域?qū)⑽锢硎澜缰辛W?、事物和代理的基本描述與推理描述聯(lián)系起來(lái)。從理論角度來(lái)看,有許多機(jī)會(huì)進(jìn)一步發(fā)展這種自上而下的方法,例如:1)通過(guò)表征表現(xiàn)出高級(jí)認(rèn)知現(xiàn)象的物理系統(tǒng)子類(lèi)[32,142,143],以及2)通過(guò)使用在隨機(jī)過(guò)程理論中專(zhuān)門(mén)開(kāi)發(fā)的工具,使這些表述在數(shù)學(xué)上嚴(yán)謹(jǐn)。

貝葉斯結(jié)構(gòu)學(xué)習(xí)代理:我們采用了從主動(dòng)推理中得出的關(guān)于結(jié)構(gòu)學(xué)習(xí)的貝葉斯視角。即,外部世界,即數(shù)據(jù)生成過(guò)程,是一個(gè)隨機(jī)過(guò)程,可以總結(jié)為一組隨機(jī)變量及其因果關(guān)系。由于這些隨機(jī)變量和因果關(guān)系是未知的,因此必須從數(shù)據(jù)中推斷出來(lái)。然而,近似貝葉斯推斷不是目的,而是優(yōu)化數(shù)據(jù)生成過(guò)程的生成模型的證據(jù)的手段,從技術(shù)上講,這對(duì)應(yīng)于數(shù)據(jù)的最小長(zhǎng)度描述——即壓縮。在考慮新數(shù)據(jù)持續(xù)到達(dá)且代理對(duì)世界采取行動(dòng)的代理設(shè)置時(shí),我們假設(shè)規(guī)劃是通過(guò)結(jié)合使用信息論目標(biāo)的探索和利用的混合來(lái)使用世界模型完成的[144]。

AI安全和對(duì)齊:最后,最后一節(jié)大量使用了主動(dòng)推理框架,利用了在主動(dòng)推理中,代理的世界模型提供了代理的偏好(即期望是偏好)這一事實(shí),因此簡(jiǎn)單地學(xué)習(xí)這個(gè)世界模型就告訴了一個(gè)人如何與另一個(gè)代理對(duì)齊。這里另一個(gè)重要的特征是選擇動(dòng)作的預(yù)期自由能目標(biāo),它為代理規(guī)定了謹(jǐn)慎行為,支持安全和對(duì)齊。

計(jì)算認(rèn)知科學(xué)與AI中的收斂:總之,這種觀點(diǎn)可以被視為基于三個(gè)支柱,它們是同一底層現(xiàn)象的方面:世界模型的證據(jù)最大化、結(jié)合探索和利用的基于模型的規(guī)劃,以及關(guān)于外部環(huán)境的近似貝葉斯推斷。這些在認(rèn)知科學(xué)和AI中是常見(jiàn)的承諾,并且特別與幾位尋求通過(guò)范式轉(zhuǎn)變實(shí)現(xiàn)下一代系統(tǒng)的AI專(zhuān)家的觀點(diǎn)產(chǎn)生共鳴[25, 145]。

7 結(jié)論

我們已經(jīng)揭示了通向更可擴(kuò)展對(duì)齊AI代理的原則,這些代理能夠表征它們的世界,這可能指導(dǎo)AI研究。這些原則利用了理解智能的趨同方法,綜合了數(shù)學(xué)、物理、統(tǒng)計(jì)學(xué)和認(rèn)知科學(xué)中的思想。我們用主動(dòng)推理來(lái)闡述了上述大部分?jǐn)⑹觯@是一種描述自然智能的原始原理方法。從實(shí)踐上講,這意味著致力于最大化生成世界模型的證據(jù)、結(jié)合探索和利用的基于模型的規(guī)劃,以及關(guān)于外部世界及其因果結(jié)構(gòu)的近似貝葉斯推斷——計(jì)算認(rèn)知科學(xué)和AI中的三個(gè)常見(jiàn)承諾。關(guān)注這一觀點(diǎn)的是基于此處討論的想法構(gòu)建更可擴(kuò)展、更強(qiáng)大和更對(duì)齊系統(tǒng)的數(shù)值研究。

原文鏈接:https://arxiv.org/pdf/2410.00258

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
交警再次提醒:誤闖紅燈后只需一個(gè)動(dòng)作,可以從扣6分變成只扣1分

交警再次提醒:誤闖紅燈后只需一個(gè)動(dòng)作,可以從扣6分變成只扣1分

老特有話說(shuō)
2025-12-03 23:00:01
荒誕!楊蘭蘭拒絕認(rèn)罪,場(chǎng)外竟有“超級(jí)粉絲”高喊支持楊小姐

荒誕!楊蘭蘭拒絕認(rèn)罪,場(chǎng)外竟有“超級(jí)粉絲”高喊支持楊小姐

吃瓜局
2025-11-15 15:56:23
二炮文工團(tuán)女高音透露:李雙江聲帶老化!昔日金嗓難再現(xiàn)輝煌

二炮文工團(tuán)女高音透露:李雙江聲帶老化!昔日金嗓難再現(xiàn)輝煌

小欣欣聊體育
2025-12-09 15:20:58
魔獸時(shí)光服:狂暴戰(zhàn)加強(qiáng)超10%,潛行者成單體之王,部落天賦調(diào)整

魔獸時(shí)光服:狂暴戰(zhàn)加強(qiáng)超10%,潛行者成單體之王,部落天賦調(diào)整

胖哥游戲說(shuō)
2025-12-10 13:30:54
袁某人是怎么發(fā)跡的?

袁某人是怎么發(fā)跡的?

斜杠歷史
2024-04-14 00:00:03
封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭?lè)開(kāi)了花!

封關(guān)后,海南炸鍋了。有房子的外地人、當(dāng)?shù)赝林紭?lè)開(kāi)了花!

石辰搞笑日常
2025-12-03 08:50:12
西伯利亞-63℃小賣(mài)部:全村約900人,蘋(píng)果30塊1個(gè),1斤牛肉10多元

西伯利亞-63℃小賣(mài)部:全村約900人,蘋(píng)果30塊1個(gè),1斤牛肉10多元

禾寒?dāng)?/span>
2025-10-30 23:07:12
許國(guó)利殺妻案如今已經(jīng)過(guò)去5年,整棟樓還是無(wú)人住,為何?

許國(guó)利殺妻案如今已經(jīng)過(guò)去5年,整棟樓還是無(wú)人住,為何?

阿鄖田間生活
2025-12-03 19:11:23
聶遠(yuǎn)女兒《風(fēng)與潮》獲贊!都是星二代,為何濮存昕外孫女卻遭罵

聶遠(yuǎn)女兒《風(fēng)與潮》獲贊!都是星二代,為何濮存昕外孫女卻遭罵

露珠聊影視
2025-12-10 14:39:41
9分神劇《浴血黑幫》歸來(lái),電影版定檔!謝爾比滿臉血,暗示結(jié)局

9分神劇《浴血黑幫》歸來(lái),電影版定檔!謝爾比滿臉血,暗示結(jié)局

頭號(hào)電影院
2025-12-09 14:27:29
小酒窩曬17張與明星合影,成尖叫之夜團(tuán)寵,被贊內(nèi)娛追星天花板

小酒窩曬17張與明星合影,成尖叫之夜團(tuán)寵,被贊內(nèi)娛追星天花板

興史興談
2025-12-09 15:20:02
全體退休人員,12月養(yǎng)老金到賬后,千萬(wàn)別急著花!先做這3件事

全體退休人員,12月養(yǎng)老金到賬后,千萬(wàn)別急著花!先做這3件事

李博世財(cái)經(jīng)
2025-12-08 10:49:40
諜戰(zhàn)劇又有一部王炸!陣容強(qiáng)大到不行,才播2集就沖到收視第2

諜戰(zhàn)劇又有一部王炸!陣容強(qiáng)大到不行,才播2集就沖到收視第2

樂(lè)楓電影
2025-12-10 14:54:13
虛云禪師為老蔣占卜,卻拒毛主席邀約,圓寂前留下一字令主席釋然

虛云禪師為老蔣占卜,卻拒毛主席邀約,圓寂前留下一字令主席釋然

史之銘
2025-12-04 20:35:27
7-0,冬奧會(huì)冰壺落選賽首支晉級(jí)隊(duì)出爐,中國(guó)隊(duì)最后一輪會(huì)放水嗎?

7-0,冬奧會(huì)冰壺落選賽首支晉級(jí)隊(duì)出爐,中國(guó)隊(duì)最后一輪會(huì)放水嗎?

籃球看比賽
2025-12-10 10:42:42
澤連斯基:烏克蘭已準(zhǔn)備好舉行選舉,可在未來(lái)60至90天內(nèi)舉行

澤連斯基:烏克蘭已準(zhǔn)備好舉行選舉,可在未來(lái)60至90天內(nèi)舉行

財(cái)聯(lián)社
2025-12-10 04:49:15
河南鄭州這件事,還有更深的諷刺!

河南鄭州這件事,還有更深的諷刺!

胖胖說(shuō)他不胖
2025-12-10 10:00:09
沖擊頂峰,25℃!馬上下雨,-4℃!大降溫過(guò)后,浙江還要沖擊20℃!

沖擊頂峰,25℃!馬上下雨,-4℃!大降溫過(guò)后,浙江還要沖擊20℃!

浙江天氣
2025-12-10 11:10:40
澤連斯基稱(chēng)烏已準(zhǔn)備好舉行選舉

澤連斯基稱(chēng)烏已準(zhǔn)備好舉行選舉

財(cái)聯(lián)社
2025-12-10 03:28:32
頂級(jí)美人和普通美人的區(qū)別,看央視《大生意人》5位女演員就懂了

頂級(jí)美人和普通美人的區(qū)別,看央視《大生意人》5位女演員就懂了

陳述影視
2025-12-09 21:51:09
2025-12-10 16:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1052文章數(shù) 17關(guān)注度
往期回顧 全部

科技要聞

8周生死時(shí)速,全員保日活!

頭條要聞

26歲研究員任浙大博導(dǎo) 校方:程序規(guī)范 接受社會(huì)監(jiān)督

頭條要聞

26歲研究員任浙大博導(dǎo) 校方:程序規(guī)范 接受社會(huì)監(jiān)督

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂(lè)要聞

孫儷扛住死亡鏡頭 網(wǎng)友:嬛嬛回來(lái)了

財(cái)經(jīng)要聞

白銀史上首次站上60美元

汽車(chē)要聞

零百2.5s 純電保時(shí)捷Cayenne Turbo新車(chē)圖解

態(tài)度原創(chuàng)

藝術(shù)
旅游
本地
時(shí)尚
公開(kāi)課

藝術(shù)要聞

40張海邊撒野照片,真是太有創(chuàng)意了!

旅游要聞

阿聯(lián)酋阿萊因被選為2026年阿拉伯旅游之都

本地新聞

打工人夢(mèng)想中的生活,寵物已經(jīng)提前過(guò)上了

今年冬天一定要擁有的6件衣服,誰(shuí)穿誰(shuí)好看!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产三级a三级三级| 交换配乱吟粗大交换大叫视频| 熟女乱伦 国内精品| 中文区中文字幕免费看| 九九成人直播间| 亚洲精品丝袜视频| 亚洲精品视频精品在线| 国产成人av无码永久免费一线天| 我欧美性爱网| 无码AV免费在线看| 亚洲欧美综合精品成人导航| 清纯粉嫩极品夜夜嗨AV| 久久亚洲精品中文字幕无| 无码人妻毛片丰满熟妇片| 国产成人亚洲综合图区| 日本欧美亚洲中文在线观看| 中文成人无字幕乱码精品区| 亚洲aⅴ男人的天堂在线观看| 黑森林精选av导航| 乌克兰69AV| 成人无码小视频在线观看 | 亚洲伊人成综| 99国产欧美久久久精品| 肌肉男同巨大超爽gay网站| 午夜av亚洲一码二中文字幕青青 | 桃花岛亚洲成在人线AV| 久久久国产一区| 亚洲伦理一区| 伊人狠狠色丁香婷婷综合| 日韩人妻一码二码三码四码五码| 免费女人高潮流视频在线观看| 99久久久国产精品尤物安卓版| 亚洲日韩精品综合在线一区二区| 野草社区在线观看免费视频| 人人插人人上| 久久大香国产成人av| 无码人妻系列| 在线看av中文字幕| 久久人人做人人爽人人av| 一级成人a做片免费| 少妇久久久久久久久久|