夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

用貝葉斯心理理論演化出泛化合作

0
分享至

Evolving general cooperation with a Bayesian theory of mind

用貝葉斯心理理論演化出泛化合作

https://www.pnas.org/doi/epdf/10.1073/pnas.2400993122


通過互惠機(jī)制解釋合作行為的演化,闡明了如何使彼此無親緣關(guān)系的自利個體能夠共同達(dá)成單憑個體無法實(shí)現(xiàn)的成果。目前最主流的互惠理論——如“以牙還牙”(tit-for-tat)或“贏則留、輸則變”(win-stay-lose-shift)——均為缺乏“心理理論”(theory of mind)的刻板自動機(jī);而心理理論,即人類推斷他人隱藏心理狀態(tài)的能力。

本文提出一種具備心理理論的互惠模型:貝葉斯互惠者(Bayesian Reciprocator)。該模型在決策時,并非僅追求自身收益最大化,還同時重視他人的收益——但僅當(dāng)它相信對方也以相同方式合作時,才賦予他人收益以價值。為形成對他人的這種信念,貝葉斯互惠者采用概率性與生成式建模方法,通過對互動與觀察的持續(xù)經(jīng)驗(yàn),推斷他人潛在的偏好、信念與策略。

我們通過兩類設(shè)置評估貝葉斯互惠者:其一是一個能生成任意唯一互動情境的游戲生成器;其二是一些經(jīng)典環(huán)境,如重復(fù)囚徒困境(iterated prisoner’s dilemma)。結(jié)果表明:貝葉斯互惠者既能促進(jìn)直接互惠(當(dāng)游戲被重復(fù)進(jìn)行時),也能支持間接互惠(當(dāng)互動為一次性,但可被第三方觀察時)。在演化競爭中,貝葉斯互惠者勝過現(xiàn)有各類自動機(jī)策略,并能在更廣泛環(huán)境與噪聲水平下維持合作。本研究量化了在演化博弈論框架下,心理理論對于合作行為的促進(jìn)作用,并為構(gòu)建具備更類人學(xué)習(xí)機(jī)制、能在多變環(huán)境中實(shí)現(xiàn)合作的人工智能體指明了路徑。

關(guān)鍵詞:心理理論|合作|貝葉斯模型|演化博弈論|認(rèn)知科學(xué)

——意義
心理理論(Theory of mind)是指依據(jù)欲望、信念等心理狀態(tài)來理解他人行為的能力。許多學(xué)者推測,心理理論對于解釋人類合作在規(guī)模、范圍與復(fù)雜性上所展現(xiàn)出的獨(dú)特性至關(guān)重要。然而,心理理論究竟如何切實(shí)地促進(jìn)合作增強(qiáng),仍是一個懸而未決的問題。本文中,我們構(gòu)建了一個心理理論的計算模型,并基于此開發(fā)出一類智能體:該智能體僅對那些它推斷為“與自身同類”的其他智能體實(shí)施條件性合作。在演化博弈論的模擬中,該智能體能夠在更廣泛類型的博弈中促成合作的涌現(xiàn),并勝過那些缺乏心理理論、機(jī)制更簡陋的智能體。

解釋合作的演化——即自利個體如何甘愿付出代價以創(chuàng)造集體收益——數(shù)十年來一直是自然科學(xué)與社會科學(xué)的核心議題之一(1–6)。該領(lǐng)域一個關(guān)鍵結(jié)論是:互惠在人類合作中居于中心地位。演化博弈論模型表明:當(dāng)個體間互動可重復(fù)時,直接互惠(“你幫我,我才幫你”)即可成立(1, 2, 7–10);而當(dāng)一次性互動可被旁觀者觀察、且個體能追蹤他人聲譽(yù)時,間接互惠(“幫助那些幫助他人者”)亦可實(shí)現(xiàn)(11–17)。

令人驚訝的是,演化博弈中(如重復(fù)囚徒困境或捐贈博弈)那些極其簡單的自動機(jī)互惠模型,已為無親緣個體間條件性合作的涌現(xiàn)提供了優(yōu)雅解釋,并揭示出維系合作所必需的行為機(jī)制。例如,在重復(fù)博弈中,“以牙還牙”(TFT)與“贏則留、輸則變”(WSLS)(8)策略初始即展現(xiàn)合作意愿,但一旦遭遇背叛便予以報復(fù),從而懲罰并遏制那些企圖利用其他個體利他性的作弊者。

然而,此類模型的簡化性——不論就環(huán)境還是模型本身而言——嚴(yán)重限制了其普適性,尤其若將其視為對人類合作的解釋時,問題更為突出。

第一,人類互動幾乎無限多樣,并不局限于某一種固定參與者數(shù)量與決策選項(xiàng)的博弈(如囚徒困境中的2人2行動);而多數(shù)自動機(jī)僅針對單一類型(即使高度抽象、泛化)的特定博弈(如IPD)定義。對自動機(jī)而言,環(huán)境的微小變動——如噪聲程度(7, 9, 15)、收益結(jié)構(gòu)變化(18–21)、行動是同步還是序貫發(fā)生(22–25)、可選行動數(shù)量(26, 27),或玩家能否觀察他人行為(13, 14)——均需設(shè)計不同策略。然而,即便相同兩人在相同情境下反復(fù)互動,每次互動的收益結(jié)構(gòu)也從未完全相同;更廣泛地看,我們所參與的互動在參與者人數(shù)、個人可選方案及最終收益方面差異極大(且常不可預(yù)測)。鑒于此變化性,設(shè)想人類已習(xí)得或演化出針對每種可能博弈的專屬策略,既不合理,亦不現(xiàn)實(shí)。相較而言,人類認(rèn)知支持的是通用合作策略,可靈活應(yīng)用于各類情境(28–30)。

第二,與僅在行為層面運(yùn)作的標(biāo)準(zhǔn)自動機(jī)不同,人類會基于對他人行為背后潛在(不可觀測)意圖、動機(jī)與特質(zhì)的推斷,來預(yù)測其合作潛力(31, 32);考慮到可觀測行為可能僅是其真實(shí)意圖或特質(zhì)的含噪反映,此類推斷使我們能在復(fù)雜動態(tài)世界中穩(wěn)健應(yīng)對社會互動固有的不確定性(33)。人類通過整合長期互動歷史(包括自身經(jīng)歷與第三方觀察)來學(xué)習(xí)合作對象及其動機(jī),構(gòu)建關(guān)于他人的心理模型——而非如標(biāo)準(zhǔn)自動機(jī)僅依賴最近一次行為。在人類中,這種從稀疏且含噪的行為觀察中推斷潛在意圖與特質(zhì)的能力,構(gòu)成了我們“心理理論”的關(guān)鍵部分(34, 35)。心理理論被認(rèn)為存在于年幼兒童中,甚至在前語言期嬰兒中也有某種有限形式,對我們親社會規(guī)范與道德判斷的發(fā)展起著重要作用(36–39)。

本文提出的貝葉斯互惠者,是一種建模人類合作演化的進(jìn)路,強(qiáng)調(diào)理性心理理論推斷(即對他人隱狀態(tài)的貝葉斯推斷)在支撐個體于廣泛環(huán)境與設(shè)置中穩(wěn)健合作方面的價值。該進(jìn)路整合了認(rèn)知科學(xué)、經(jīng)濟(jì)學(xué)與計算機(jī)科學(xué)中極具影響力的核心思想:

  1. 主觀效用函數(shù)表達(dá)的是普遍偏好(而非針對特定博弈的行為規(guī)則),使決策具有泛化性,可靈活適應(yīng)新博弈的收益結(jié)構(gòu)與形式(40);
  2. 主體效用函數(shù)中納入對其他合作者所獲收益的重視,可產(chǎn)生泛化的合作與利他行為(41–43);
  3. 動態(tài)調(diào)整對他人收益的賦值權(quán)重——即依據(jù)自身對“對方是否以相同方式合作”的信念程度——實(shí)現(xiàn)了一種基于共享價值的強(qiáng)大互惠形式(44–46);
  4. 通過對他人隱含決策與學(xué)習(xí)過程的生成模型進(jìn)行貝葉斯推斷(即“貝葉斯心理理論”),使個體能在不確定與噪聲條件下快速穩(wěn)健地推斷他人效用函數(shù),從而識別出那些值得自己與之合作的“合作者”(47–51)。

簡言之,貝葉斯互惠者實(shí)施一種有條件的合作,其性質(zhì)接近德性倫理學(xué):其他參與者的聲譽(yù)(及其作為合作對象的資格),取決于其潛在效用函數(shù)——該函數(shù)通過其行為得以顯現(xiàn)(52, 53)。

最終,貝葉斯互惠者統(tǒng)一了已被證實(shí)對合作至關(guān)重要的諸多特征:互惠、聲譽(yù)、關(guān)系性、抗噪聲魯棒性、容錯性(對失誤的寬?。移溆嬎銠C(jī)制植根于人類最早出現(xiàn)、最具特異性的一些認(rèn)知操作:基于效用的決策、概率推斷,以及心理理論。

我們首先介紹貝葉斯互惠者(Bayesian Reciprocator),并闡述其學(xué)習(xí)與決策動態(tài)過程(見圖1與圖2)。



隨后,我們構(gòu)建一個用于研究合作演化的實(shí)驗(yàn)環(huán)境——游戲生成器(Game Generator),其中每一輪玩家間的互動均獨(dú)一無二,并在參與人數(shù)、可選行動數(shù)量及收益結(jié)構(gòu)等方面各不相同(見圖3)。


通過演化模擬,我們證明:貝葉斯互惠者能在該游戲生成器中,借助直接互惠間接互惠兩種機(jī)制,達(dá)成合作均衡(見圖4與圖5)。



最后,我們進(jìn)一步表明:在重復(fù)囚徒困境(IPD)中,貝葉斯互惠者能勝過常見的自動機(jī)策略,并拓展了該博弈中合作得以維持的參數(shù)范圍(見圖6)。


貝葉斯互惠者




在本研究中,我們考察的是抽象的資源分配與權(quán)衡博弈。然而,現(xiàn)實(shí)中的決策以及由此產(chǎn)生的現(xiàn)實(shí)效用函數(shù),不可避免地涉及在多種商品與貨幣之間進(jìn)行選擇。例如,玩家可能對食物、幽默、活動、工作等擁有任意偏好。雖然我們不會正式深入探討這種附加復(fù)雜性,但我們的意圖是:對效用函數(shù)的比較 ,僅包含效用函數(shù)中涉及他人福祉評估的部分。值得思考的是,若將個人偏好納入合作的前提條件,可能會導(dǎo)致道德化、內(nèi)/外群體效應(yīng)或極化現(xiàn)象。

我們將主要分析貝葉斯互惠者在另外兩種效用函數(shù)存在下的演化情況:一種是自私型玩家(Selfish player),其效用函數(shù)僅關(guān)注自身收益( U i = R i
);另一種是無條件利他型玩家(unconditionally Altruistic player),其效用函數(shù)將自身收益與所有其他玩家收益同等看待。所有玩家的效用函數(shù)始終是私有的,因此其他任何玩家都無法觀測到。因此,貝葉斯互惠者借助心理理論——即從行為中推斷驅(qū)動行動的潛在因果力量(在此情形下,即他人的效用函數(shù))的能力——實(shí)現(xiàn)其功能。

為實(shí)施這些推斷,我們采納如下理念:心理理論可被建模為針對另一智能體的生成模型所進(jìn)行的貝葉斯推斷。貝葉斯心理理論(BToM)已在廣泛情境中成功模擬人類對心理狀態(tài)的經(jīng)驗(yàn)判斷:包括在不確定性下歸因信念與欲望給單個決策者(56)、判斷某人是否正在幫助(或阻礙)他人(48)、判斷一個群體是在協(xié)作還是競爭(49–51),以及如何通過溝通實(shí)現(xiàn)協(xié)調(diào)(57)。

它在開發(fā)能夠理解其他智能體與人類行為的代理(agent)方面也具有重要影響(58–60)。



由于推斷對象自身也在進(jìn)行推斷,因此需要一種遞歸式心理理論(recursive theory of mind)。在兒童發(fā)展中,這類關(guān)于“他人如何思考他人”的高階推斷能力出現(xiàn)較早,并已被證明會影響其社會行為與道德判斷(62, 63)。

對于合作而言,最關(guān)鍵的是:若缺乏遞歸心理理論,玩家就無法區(qū)分兩種“不合作”行為——一種是正當(dāng)?shù)牟缓献?/strong>(例如,對背叛行為的互惠性回應(yīng)),另一種是非正當(dāng)?shù)?、純粹自私的不合?/strong>。這兩種行動之間的差別取決于對行動者信念的推斷:該行動者是否是一位貝葉斯互惠者,只是相信對方并非同類?抑或其本就是一位始終自私行事的自私型玩家?抑或其本是一位利他型玩家,只是因行動錯誤而未能成功合作?上述每種假設(shè)均可在不同程度上解釋該模糊行為,必須對其予以恰當(dāng)量化。

實(shí)現(xiàn)遞歸心理理論的一種途徑是讓每位玩家對其他人的信念進(jìn)行(無)限遞歸建模:每位玩家需追蹤“愛麗絲知道什么、鮑勃知道愛麗絲知道什么……”并無限延續(xù)下去(64)。實(shí)踐中,此類遞歸通常通過有限層數(shù)( K K)的嵌套模型來近似,最底層( K = 0
)為非學(xué)習(xí)型模型(65–67)。然而,作為近似模型,此類方法會導(dǎo)致信念不穩(wěn)定甚至發(fā)散,且計算開銷巨大(68)。即便可行,所需模型數(shù)量(及相應(yīng)的信念更新次數(shù))也呈指數(shù)級增長——例如,愛麗絲需建模鮑勃,而鮑勃又在建??枺栍衷诮埯惤z,如此往復(fù)。


游戲生成器

為檢驗(yàn)貝葉斯互惠者在多種博弈類型中的普適性,我們開發(fā)了一種博弈論環(huán)境,稱為“游戲生成器”(Game Generator)。游戲生成器是一個概率性生成過程,它利用一個通用的資源分配模板,創(chuàng)造出無限數(shù)量、各不相同的協(xié)作挑戰(zhàn)。該模板如圖 3 所示。

在每一次采樣中,會隨機(jī)選定一名“捐贈者”,該捐贈者可選擇將資源轉(zhuǎn)移給一個或多個“接收者”。這些轉(zhuǎn)移行為可能是有成本的,也可能是無成本的。許多熟悉的博弈——例如囚徒困境、利他型給予博弈(玩家可犧牲自身部分福利以幫助他人)、分配博弈(玩家可在分配不可分割資源時表現(xiàn)出偏好),甚至道德困境(玩家自身無需承擔(dān)任何個人成本,但需決定其他群體的命運(yùn))——均可被統(tǒng)一納入這一采樣過程之中。

游戲生成器可通過讓同一對玩家共同參與多次采樣(即“博弈長度”),從而生成重復(fù)博弈。其他參數(shù),如平均成本(C)、收益(B)、每次采樣中的行動數(shù)量、行動錯誤概率(ε)、行動可觀測性(ω)以及觀測誤差等,均為可調(diào)節(jié)的控制變量。

從游戲生成器中采樣的任意兩次互動,絕不會完全相同。行動被隨機(jī)排序且無語義標(biāo)簽,因此所有決策與推斷均必須基于所采樣的收益結(jié)構(gòu)(成本與收益)進(jìn)行。由于每次采樣所得博弈的收益結(jié)構(gòu)與行動數(shù)量均存在變化,傳統(tǒng)基于自動機(jī)的策略無法直接應(yīng)用于游戲生成器所生成的互動情境。

有關(guān)生成過程的詳細(xì)信息及若干生成實(shí)例,請參見圖 3 及 SI Appendix。

結(jié)果

游戲中的直接互惠性。我們首先研究在游戲生成器環(huán)境中,通過直接互惠性,貝葉斯互惠者、自私者和利他者玩家之間合作的演變。為了研究直接互惠性,我們使用游戲生成器生成玩家之間的不同重復(fù)互動,其中玩家之間的互動是私有的,即只有行動者和可能接收資源的玩家可以觀察到。

為了更好地理解貝葉斯互惠者在多次重復(fù)互動中的行為,我們首先分析了重復(fù)互動中信念動態(tài)。圖4A顯示了貝葉斯互惠者在與另一個貝葉斯互惠者、利他者玩家和自私者進(jìn)行20次重復(fù)互動后形成的平均信念。在重復(fù)互動的過程中,貝葉斯互惠者的信念更新以正確區(qū)分其他貝葉斯互惠者、利他者和自私者。重要的是,貝葉斯互惠者能夠迅速(通常在幾次互動后)識別出自私者,這對于有條件的合作是必要的。貝葉斯互惠者學(xué)會區(qū)分利他者和貝葉斯互惠者的速度更慢,因?yàn)閮烧咦畛醵际呛献鞯?。這些信念更新在一代人內(nèi)發(fā)生。

接下來,我們通過在莫蘭過程中描述玩家的穩(wěn)態(tài)分布來研究跨代的進(jìn)化成功(75, 76)。在莫蘭過程中,如果突變玩家類型是中性的甚至處于劣勢(77),它可以入侵。這些入侵行為作為不同玩家類型之間的踏腳石,可能導(dǎo)致種群組成的周期性變化(78, 79)。因此,我們展示了不同策略在穩(wěn)態(tài)下的相對豐度,而不僅僅是呈現(xiàn)最普遍的玩家類型。實(shí)驗(yàn)在10個玩家的種群中進(jìn)行,行動錯誤的概率很?。?。有關(guān)穩(wěn)態(tài)分布計算的詳細(xì)信息,請參見SI附錄。

圖4B顯示了游戲長度、游戲生成器中每對玩家玩的樣本數(shù)量與穩(wěn)態(tài)狀態(tài)分布之間的關(guān)系。當(dāng)每一代的游戲長度較短(<3)時,自私玩家的結(jié)果超過了貝葉斯互惠者和利他者玩家。隨著重復(fù)的概率增加(≥3),貝葉斯互惠者成為種群中最常見的策略。我們接下來分析了在九輪游戲中變化行動錯誤概率時的進(jìn)化穩(wěn)態(tài)。圖4C顯示,當(dāng)錯誤率<0.3時,貝葉斯互惠者對噪聲具有魯棒性,并在結(jié)果上超過自私玩家。

行動錯誤的概率越高,貝葉斯互惠者需要更長的游戲長度來實(shí)現(xiàn)合作(圖4D)。更高的錯誤率具有挑戰(zhàn)性,因?yàn)樗鼈儨p慢了學(xué)習(xí)速度,因此需要更長的游戲長度來識別他人的類型。圖4E顯示,貝葉斯互惠者實(shí)際上找到了一個合作均衡,與自私玩家相比,提高了種群的聯(lián)合收益。在貝葉斯互惠者在均衡中成為最普遍策略的參數(shù)區(qū)域,平均種群收益也很高。這些結(jié)果表明,貝葉斯互惠者形成了直接互惠關(guān)系,導(dǎo)致在嘈雜和可變環(huán)境中合作的演變。

最后,我們還展示了貝葉斯互惠者在重復(fù)游戲生成器中也優(yōu)于具有更復(fù)雜效用函數(shù)的玩家。除了自私和利他玩家外,該模型還克服了一個不平等平均玩家,該玩家試圖保持其累積收益與其合作伙伴的收益平衡(80)。有關(guān)結(jié)果和實(shí)施細(xì)節(jié),請參見SI附錄,圖S2。

游戲生成器中的間接互惠

在已確立直接互惠條件下合作演化的基礎(chǔ)后,我們接下來研究了在游戲生成器中、玩家彼此間從不重復(fù)配對(博弈長度 = 1)時的合作演化,這使得玩家無法與他人建立直接互惠關(guān)系。相反,我們調(diào)整了觀察概率(ω ≥ 0),使玩家即使未親自參與決策,也能觀察他人的行為。該設(shè)置使我們能夠研究通過間接互惠實(shí)現(xiàn)的合作演化。貝葉斯互惠者在此情境下無需對其結(jié)構(gòu)或參數(shù)進(jìn)行任何修改。從數(shù)學(xué)上講,從自身互動或觀察他人互動中進(jìn)行推斷,僅相當(dāng)于基于不同數(shù)據(jù)源進(jìn)行條件化處理。

如同之前一樣,我們首先研究了一個包含 10 名玩家的種群內(nèi)的代內(nèi)學(xué)習(xí)動態(tài):其中包含 4 名貝葉斯互惠者、3 名自私型玩家和 3 名利他型玩家。玩家之間最多僅互動一次,但所有互動均可被其余所有玩家觀測到(ω = 1)。圖 5A 顯示,貝葉斯互惠者能從稀疏的觀測中迅速學(xué)習(xí)每位玩家的真實(shí)類型。在所有情況下,信念均從初始先驗(yàn)(0 次觀測)向正確信念移動。當(dāng)將此處從觀察中學(xué)習(xí)的動態(tài)與從重復(fù)互動中學(xué)習(xí)的動態(tài)(圖 4A)進(jìn)行比較時,從觀察中學(xué)習(xí)能使貝葉斯互惠者更快速地區(qū)分自身與利他型玩家——因?yàn)槔屯婕視o條件地與已知的自私型玩家合作。

我們接著研究了在包含貝葉斯互惠者、自私型玩家與利他型玩家的游戲生成器環(huán)境中,通過間接互惠實(shí)現(xiàn)的合作演化。所有實(shí)驗(yàn)均采用與之前相同的參數(shù),但我們設(shè)定博弈長度為 1,并改變可觀測性(ω)。正如預(yù)期,當(dāng)觀察概率較低時,自私型玩家是最普遍的策略,因?yàn)榉呛献餍袨椴粫砗蠊?,且玩家無法可靠地學(xué)習(xí)他人的類型。隨著觀察概率增加,貝葉斯互惠者成為種群中最普遍的玩家(圖 5B)。這種從自私型向貝葉斯互惠者的轉(zhuǎn)變伴隨著種群總收益的躍升,表明貝葉斯互惠者推動了通過間接互惠實(shí)現(xiàn)的合作演化。

接下來,我們評估了在行動錯誤與觀察錯誤條件下,貝葉斯互惠者所驅(qū)動的間接互惠的魯棒性。與行動錯誤不同——在行動錯誤中,一個更具合作性的選擇可能被隨機(jī)替換為一個合作性更低的選擇(意外)——觀察錯誤更具挑戰(zhàn)性,因?yàn)橥婕遗紶枙佑|到不同的數(shù)據(jù),從而形成發(fā)散的信念,即使每位玩家都相信自己看到的數(shù)據(jù)與其他玩家相同(15, 81)。圖 5C 顯示,該模型對行動錯誤具有高度魯棒性。雖然更高的行動錯誤率要求更大比例的觀測數(shù)據(jù)對所有人可見,但合作仍可在錯誤率超過 0.20 的情況下得以維持。對于觀察錯誤,圖 5D 表明,由貝葉斯互惠者驅(qū)動的間接互惠對少量觀察錯誤(ω = 1 時)具有魯棒性。當(dāng)感知錯誤率上升至 0.075 及以上時,自私型玩家在穩(wěn)態(tài)下勝過所有其他類型。圖 5F 與 5G 顯示,只要貝葉斯互惠者在兩種錯誤模型的穩(wěn)態(tài)下均為最普遍的玩家,合作率(以總收益衡量)便保持高位。

最后,我們證明:無需任何修改,該模型即可整合重復(fù)互動與可觀測性,允許直接互惠與間接互惠共存。這是更貼近人類合作現(xiàn)實(shí)的情境,因?yàn)樵诂F(xiàn)實(shí)中這兩種力量通常同時存在。SI Appendix, Fig. S3A 展示了在同時變動觀察概率與博弈長度的情況下,貝葉斯互惠者在穩(wěn)態(tài)下的豐度。經(jīng)驗(yàn)上,我們發(fā)現(xiàn),在游戲生成器環(huán)境中,博弈長度與可觀測性之間大致呈線性關(guān)系,表明直接互惠與間接互惠可相互支持(SI Appendix, Fig. S3B)。然而,它們也可能以相互獨(dú)立的方式實(shí)現(xiàn)支持。

囚徒困境(PD)

盡管貝葉斯互惠者能夠在游戲生成器環(huán)境中促成穩(wěn)健的直接與間接互惠,但在該設(shè)置下,我們無法將智能體與經(jīng)典自動機(jī)策略進(jìn)行直接比較。經(jīng)典自動機(jī)策略要求博弈為雙行動游戲,且合作與非合作行動需有明確標(biāo)簽(這與動態(tài)的游戲生成器環(huán)境不同)。因此,我們在順序型與同步型重復(fù)囚徒困境(IPD)中考察了貝葉斯互惠者的性能——這些環(huán)境中已有被廣泛驗(yàn)證的成功策略。具體而言,我們將貝葉斯互惠者與 AllD、AllC、TFT(82)、寬容型 TFT(GTFT)(7)、WSLS(8)、Forgiver(24),以及近期發(fā)展出的勒索策略(83, 84)進(jìn)行比較(有關(guān)這些自動機(jī)的細(xì)節(jié),請參見 SI Appendix)。

在同步型 IPD 中,兩名玩家同時選擇合作或背叛,只有在雙方均做出選擇后,其行動才會被觀察到,并獲得相應(yīng)收益。在順序型 IPD 中,玩家依次做出選擇,且行動一旦做出即被立即觀察到。我們選擇研究同步型與順序型兩種版本的 IPD,是因?yàn)樵谶@兩種變體中,成功策略各不相同:在同步型 IPD 中,WSLS 最為普遍;而在順序型 IPD 中,F(xiàn)orgiver 最為普遍(24)。

我們提出的問題是:貝葉斯互惠者是否能在 AllD 勝過合作型自動機(jī)的參數(shù)區(qū)域中,仍使合作得以演化?為此,我們首先在模擬中不包含貝葉斯互惠者的情況下,在參數(shù)空間內(nèi)搜索合作均衡點(diǎn);然后,在包含貝葉斯互惠者的情況下重復(fù)同樣的搜索。我們首先在同步型(圖6 A 和 B)與順序型(圖6 E 和 F)IPD 中,變化執(zhí)行錯誤率并結(jié)合博弈長度進(jìn)行探索。當(dāng)錯誤率較高或博弈長度較短時,無論是否包含貝葉斯互惠者,AllD 均為最普遍策略(以紅色表示)。當(dāng)錯誤率較低且博弈長度較長時,僅靠自動機(jī)策略本身(同步型 IPD 中為 WSLS,黃色;順序型 IPD 中為 Forgiver,灰色)或與貝葉斯互惠者共同作用,均可達(dá)成合作均衡。但對于更高的錯誤率或更短的博弈長度,必須存在貝葉斯互惠者,合作均衡才能出現(xiàn)(藍(lán)色)。

當(dāng)我們改變同步型(圖6 C 和 D)與順序型(圖6 G 和 H)IPD 中的“收益/成本比”時,也發(fā)現(xiàn)了類似結(jié)果。在最低的收益/成本比和最短的博弈長度下,AllD 是最普遍策略(紅色)。在高收益/成本比下,僅靠自動機(jī)策略(同步型 IPD 中為 WSLS,黃色;順序型 IPD 中為 Forgiver,灰色)或與貝葉斯互惠者共同作用,均可產(chǎn)生合作均衡。然而,對于接近 1 的中等收益/成本比,必須存在貝葉斯互惠者,合作均衡才能出現(xiàn)(藍(lán)色)。在幾乎所有測試的參數(shù)組合中,當(dāng)貝葉斯互惠者與自動機(jī)策略共同參與時,穩(wěn)態(tài)下最普遍的策略均為貝葉斯互惠者(圖6 B、D、F 和 H)。

在每種情況下,對于貝葉斯互惠者成為最普遍玩家的參數(shù)區(qū)域,群體平均收益(即合作率)更高(圖7)。SI Appendix 圖 S4 展示了穩(wěn)態(tài)下各玩家類型的相對豐度。盡管某些自動機(jī)策略仍以少量形式存在,但貝葉斯互惠者主導(dǎo)了群體處于合作狀態(tài)的絕大部分時間。最后,即使允許所有確定性記憶-1 策略與貝葉斯互惠者競爭(24),上述結(jié)果依然成立。貝葉斯互惠者在更廣泛的參數(shù)設(shè)置下促成了更多合作行為,從而帶來更高的群體收益(SI Appendix, Fig. S5),且在群體處于合作狀態(tài)時,其在穩(wěn)態(tài)下是最普遍的策略(SI Appendix, Fig. S6)。


綜上所述,這些結(jié)果表明:在囚徒困境(IPD)中,相較于主流的自動機(jī)策略,貝葉斯互惠者顯著拓展了合作均衡所能存在的參數(shù)范圍。這一點(diǎn)在低收益/成本比與高錯誤率的環(huán)境中尤為明顯——而此類環(huán)境可能對合作行為的初始建立尤為關(guān)鍵。最后,盡管在同步型與順序型 IPD 中,穩(wěn)態(tài)下最普遍的合作型自動機(jī)策略各不相同,但完全相同的貝葉斯互惠者參數(shù)設(shè)定卻在兩種 IPD 變體中始終是最普遍的策略。不同于過去數(shù)十年間為 IPD 中的合作而專門手工設(shè)計的現(xiàn)有策略,貝葉斯互惠者是一種通用型合作者——它不僅在更具一般性的游戲生成器環(huán)境中表現(xiàn)出色,即便在 IPD 這一特例中亦能取得卓越性能。

我們提出了貝葉斯互惠者——一種基于人工智能洞見與人類社會認(rèn)知計算研究的合作演化模型。貝葉斯互惠者以遞歸方式對他人的收益賦予價值,其賦值比例取決于它對“他人正以相同方式合作”的信念程度。這些信念通過一種遞歸式貝葉斯心理理論模型,在與他人的互動及對其行為的觀察中不斷更新。

我們在一個遠(yuǎn)比通常研究所用博弈更為豐富的環(huán)境中驗(yàn)證了該方法的價值——即游戲生成器(Game Generator)。在該環(huán)境中,每一次決策均由生成模型采樣產(chǎn)生,因此玩家永遠(yuǎn)不會重復(fù)面對完全相同的決策情境;所有決策與判斷均須基于其結(jié)果及可選替代方案做出。通過演化模擬,我們證明:貝葉斯互惠者能在游戲生成器中促成合作的演化——當(dāng)互動可重復(fù)但僅限私密進(jìn)行時,其通過直接互惠實(shí)現(xiàn);當(dāng)互動為一次性但公開可觀察時,則通過間接互惠實(shí)現(xiàn)。最后,在囚徒困境(IPD)情境下,貝葉斯互惠者表現(xiàn)優(yōu)于現(xiàn)有自動機(jī)策略,并拓展了合作均衡的參數(shù)范圍。

綜合而言,這些結(jié)果揭示了認(rèn)知上高度復(fù)雜策略(尤其是心理理論)在實(shí)現(xiàn)穩(wěn)健合作方面的強(qiáng)大能力。更深層次地,本研究或許解釋了:合作所帶來的適應(yīng)性收益,本身可能驅(qū)動了心理理論的演化與涌現(xiàn)。心理理論闡明了普遍而穩(wěn)健的合作何以可能演化;反過來,合作本身或許也解釋了心理理論何以演化并成為人類認(rèn)知中如此關(guān)鍵的能力。沿襲“認(rèn)知生態(tài)位”與“文化生態(tài)位”對人類演化成功所作的解釋(28, 85),諸如心理理論等社會推理能力,可能與人類特有的其他社會性能力共同演化——包括普遍而靈活的合作能力、向他人進(jìn)行社會學(xué)習(xí)的能力,以及累積性文化能力(86)。我們的模擬量化表明:此類復(fù)雜的社交推理所能帶來的合作收益,超越了認(rèn)知靈活性較低的智能體所能實(shí)現(xiàn)的水平——因而可在演化中勝過更簡單的策略。

貝葉斯互惠者具備若干有利于條件性合作的理想特性,這些特性源于其遞歸依賴的效用函數(shù)以及玩家從他人行為中推斷其潛在效用函數(shù)的能力:

第一,該模型實(shí)現(xiàn)了一種復(fù)雜且符合現(xiàn)實(shí)的聲譽(yù)系統(tǒng):合作者會懲罰(通過拒絕合作)那些曾對他人背叛的玩家;會獎賞懲罰者——即與那些曾懲罰自私玩家的個體合作;并對“懲罰/不懲罰非懲罰者”的行為本身進(jìn)行獎賞或懲罰(17, 87)。

第二,通過建立基于效用的模型,我們的框架對博弈本身的收益結(jié)構(gòu)與形式具有敏感性。這使其可推廣至游戲生成器之外的更廣泛時空延展性互動場景,如電子游戲、人機(jī)交互,甚至人–機(jī)器人交互(49, 51, 88–90)。

第三,不同于既有的聲譽(yù)系統(tǒng)(如“領(lǐng)先八種規(guī)范”(leading eight)(14)),貝葉斯互惠者采用分級評價機(jī)制(graded evaluations):對某玩家過往合作或背叛行為的觀測越多,對該玩家屬于合作者(或利他者)抑或自私者(應(yīng)受懲罰)的證據(jù)就越充分。這種分級性的自然衍生結(jié)果是:當(dāng)貝葉斯互惠者對其正在與另一位貝葉斯互惠者互動的信念越強(qiáng)(即信念越接近 1)時,它就越愿意為集體收益承擔(dān)更高的相對成本(26, 91)。

與先前方法相比,貝葉斯互惠者的分級性(gradedness)是其實(shí)現(xiàn)對執(zhí)行錯誤魯棒性的關(guān)鍵所在。當(dāng)錯誤率超過 0.1 時,合作型自動機(jī)策略便完全失效;而貝葉斯互惠者在錯誤率高達(dá)其 2 至 3 倍時仍能勝過所有其他策略。其原理在于:貝葉斯互惠者以概率方式對錯誤進(jìn)行推理,將其視為一個標(biāo)準(zhǔn)的統(tǒng)計學(xué)習(xí)問題——通過多個時間步不斷累積證據(jù)。某一非合作行為應(yīng)在多大程度上被視作玩家的真實(shí)意圖、或應(yīng)被歸因?yàn)榕既诲e誤,這一權(quán)衡會通過概率性更新自動校準(zhǔn)。相應(yīng)地,當(dāng)貝葉斯互惠者對另一玩家屬“同類”的信念越來越強(qiáng)(即信念趨近于 1)時,它也就越傾向于寬恕該玩家的失誤。

這類似于人類對“第一印象”重要性的認(rèn)知:在信念尚未收斂的早期階段,貝葉斯互惠者較難寬恕錯誤;而在后期信念趨于穩(wěn)定時,則更易寬恕。此類符合常識的社會推理機(jī)制,在任何行為自動機(jī)的寬恕機(jī)制中均不存在——GTFT 以固定概率寬恕背叛;Forgiver 總是寬??;而 WSLS 雖具備某種誤差修正機(jī)制,但該機(jī)制也使其更難抵御背叛者(WSLS 與 AllD 對局時仍有 50% 的合作率)。

我們并非首次探討基于效用偏好的合作演化。然而,此前工作要么要求效用函數(shù)公開可觀察(92),要么要求配對過程存在類型聚類(assortment)才能達(dá)成合作均衡(42)。那些早期模型無需推斷機(jī)制,亦未發(fā)展出互惠機(jī)制。最后,相較于其他基于類型的合作者(type-based cooperators),貝葉斯互惠者無需另行設(shè)計一套信號系統(tǒng)(如標(biāo)簽或“綠胡子”標(biāo)記(93–95))來實(shí)現(xiàn)基于相似性的條件合作。對貝葉斯互惠者而言,效用函數(shù)本身既是他人條件合作的信號,又是玩家行為的因果決定因素。因此,貝葉斯互惠者的行為本身即是一種無法偽裝或模仿的條件合作信號——若無真正采納該效用函數(shù),便無法偽造其行為。當(dāng)然,貝葉斯互惠者亦可利用標(biāo)簽或其他能診斷類型的公開特征來加速合作進(jìn)程——例如,通過設(shè)置更高的初始先驗(yàn)概率。但此類信號僅影響先驗(yàn);一個“看似合作者”的虛假信號者一旦背叛數(shù)次,便會因信念更新而迅速被識別為欺騙者。

未來工作可借助本文所提出的建??蚣?,進(jìn)一步探究人類合作的諸多關(guān)鍵特征。例如:顯式懲罰——即玩家付出代價以降低他人收益,作為報復(fù)或教學(xué)信號(96, 97)——可通過在公式 [2] 中將他人收益項(xiàng)取負(fù)號來建模;其他影響合作結(jié)構(gòu)的相關(guān)要素,如公平性、伙伴選擇或規(guī)則約束等,亦可通過擴(kuò)展游戲生成器并修改效用函數(shù)納入本框架(98–101)。盡管本文研究中玩家的先驗(yàn)信念固定不變,但該先驗(yàn)本身可在與多個伙伴互動過程中分層學(xué)習(xí),或在代際間文化傳承(29, 61)。更高級的結(jié)構(gòu)學(xué)習(xí)者不僅能學(xué)習(xí)并傳遞不同類型間的權(quán)重,甚至能自行發(fā)現(xiàn)類型本身。非參數(shù)貝葉斯推斷(102)或程序?qū)W習(xí)(103)可用于隱式表征無限多的玩家類型。此類靈活的先驗(yàn)機(jī)制,使所表征類型的復(fù)雜性可隨數(shù)據(jù)復(fù)雜度動態(tài)增長。

盡管貝葉斯互惠者僅代表人類式合作得以穩(wěn)定運(yùn)作與涌現(xiàn)的一種可能解釋,但其所依據(jù)的原則、數(shù)學(xué)基礎(chǔ)與計算架構(gòu),對構(gòu)建更具合作性的 AI 系統(tǒng)具有普適價值。理想情況下,一個在人類世界中運(yùn)作的 AI 應(yīng)具備類人心理理論能力,借此理解、學(xué)習(xí)并協(xié)同人類開展合作。隨著 AI 在自動駕駛、公共政策等廣泛領(lǐng)域日益承擔(dān)決策或提供決策建議,這些系統(tǒng)將直面本文所研究的諸多社會挑戰(zhàn):識別他人的合作意圖(或其缺失)、通過互動與觀察推斷聲譽(yù)、按比例實(shí)施互惠,等等(90, 104, 105)。此類問題既出現(xiàn)在 AI 需理解人類主體間合作動態(tài)的場景中,也存在于人類–AI 或 AI–AI 新型合作可能涌現(xiàn)或被設(shè)計的情境中。在這些情境下,各智能體目標(biāo)未必一致,須既對他者意圖進(jìn)行推理,又需判斷應(yīng)與何者合作以實(shí)現(xiàn)互惠共贏。

更廣泛而言,對人類意圖與效用函數(shù)的推理能力,可能對實(shí)現(xiàn)AI 與人類價值觀對齊(AI alignment)至關(guān)重要(106, 107)。本文對遞歸式、自適應(yīng)加權(quán)效用函數(shù)及支撐普遍合作模式的貝葉斯心理理論推斷的分析,或?qū)⒊蔀檫@一對齊圖景中的核心組成部分。

前人曾推測:具備心理理論的玩家可抵御勒索及其他操縱手段;并最終得出結(jié)論:“正是演化——在以 DNA 為基礎(chǔ)的生命所展開的無比宏大的畫卷上——最終造就了 X,那位擁有心智的玩家?!?本文通過構(gòu)建貝葉斯互惠者——一種利用心理理論獲得獨(dú)特合作優(yōu)勢的合作演化模型——使該假說得以實(shí)現(xiàn)。我們在演化博弈論框架下對這一優(yōu)勢的量化表明:為何人類——這最精于合作的物種——亦同時擁有最精微的他心理解機(jī)制。

材料與方法

貝葉斯互惠者
在算法 1 中,我們給出了貝葉斯互惠者信念更新的偽代碼。其核心信念更新步驟位于第 22 至 30 行;其中第 28 行使用最新觀測數(shù)據(jù)更新對其他玩家類型的內(nèi)部模型。例如,若 m = TFT
,則 TFT 自動機(jī)的狀態(tài)將根據(jù)最新行動進(jìn)行更新。為清晰起見,模擬中采用的額外優(yōu)化措施在此省略,但已實(shí)現(xiàn)在源代碼中。我們利用了“觀察者子集構(gòu)成一個偏序集”這一事實(shí):這使得貝葉斯互惠者僅在某觀察者子集實(shí)際出現(xiàn)于博弈中時才對其進(jìn)行初始化;且當(dāng)存在更大的觀察者子集時,可從中導(dǎo)出并初始化當(dāng)前子集的信念。這些優(yōu)化顯著降低了在模擬多玩家群體時的計算與內(nèi)存開銷。


當(dāng)互動為私密時,觀察者子集的數(shù)量隨玩家總數(shù)線性增長——因?yàn)樨惾~斯互惠者需為每一對玩家存儲其相互之間的信念。當(dāng)所有互動完全可觀測時,其規(guī)模仍為線性——此時貝葉斯互惠者僅需維護(hù)一個對應(yīng)全體玩家共同信念的單一觀察者子集。當(dāng)觀察為部分可觀測時,貝葉斯互惠者必須追蹤每一個實(shí)際出現(xiàn)的獨(dú)特觀察者子集;在最壞情形下,所有可能的組合均會出現(xiàn),此時需表示觀察者集合的冪集,即最多需 2 N
個觀察者子集。



游戲生成器的演化分析

我們通過模擬一個演化選擇過程,使用有限種群莫蘭過程(finite population Moran Process)來計算每種策略在均衡狀態(tài)下的穩(wěn)態(tài)豐度。在莫蘭過程中,每一代隨機(jī)選擇一名玩家,該玩家以與其累積收益成比例的概率選擇另一名玩家(包括其自身),然后以概率 δ 復(fù)制該玩家的類型或突變?yōu)橐粋€隨機(jī)玩家類型(4, 75)。




IPD 的演化分析

IPD 的演化分析是在低突變極限(δ → 0)下、種群規(guī)模為 N = 100 名玩家、選擇強(qiáng)度 s = 1 的條件下進(jìn)行的,遵循文獻(xiàn) 109 和 110 中的計算方法。在低突變極限下,種群大部分時間處于僅含一種玩家類型的同質(zhì)狀態(tài)。新出現(xiàn)的玩家類型要么完全取代整個種群(固定),要么被淘汰消失。這使我們能夠僅計算策略類型對之間的轉(zhuǎn)移概率,而非所有組合情況。我們通過構(gòu)建一個 M × M 的轉(zhuǎn)移矩陣 ρ,根據(jù)每對玩家類型的期望收益,計算出 M 種玩家類型的穩(wěn)態(tài)分布——其中該矩陣描述的是不同同質(zhì)種群類型之間的轉(zhuǎn)移。于是,ρ?? 表示從類型 i 的同質(zhì)種群轉(zhuǎn)移到類型 j 的同質(zhì)種群的概率。


原文鏈接:https://www.pnas.org/doi/epdf/10.1073/pnas.2400993122

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
臺灣退役將領(lǐng)楊國強(qiáng)向大陸叫囂狂言:黃埔軍校的建立沒你中國的份

臺灣退役將領(lǐng)楊國強(qiáng)向大陸叫囂狂言:黃埔軍校的建立沒你中國的份

普覽
2025-12-09 15:39:04
高盛點(diǎn)名9家中國機(jī)器人龍頭,隱形冠軍撐起產(chǎn)業(yè)核心,潛力十足

高盛點(diǎn)名9家中國機(jī)器人龍頭,隱形冠軍撐起產(chǎn)業(yè)核心,潛力十足

娛樂督察中
2025-12-09 01:31:52
越來越多孩子得白血???醫(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

越來越多孩子得白血病?醫(yī)生坦言:家里4樣?xùn)|西是禍根,趁早扔了

DrX說
2025-11-19 14:42:09
一輛“政治正確”的電動車,為何被市場冷落?

一輛“政治正確”的電動車,為何被市場冷落?

易覽甘肅
2025-12-05 11:30:55
蔡依林“渣女站姿”火了! 腿縫幾乎沒間距,看得人眼睛都直了!

蔡依林“渣女站姿”火了! 腿縫幾乎沒間距,看得人眼睛都直了!

健身迷
2025-10-19 09:58:20
新加坡“媚日”史:早在二戰(zhàn)時,李光耀就給日本人當(dāng)過間諜?

新加坡“媚日”史:早在二戰(zhàn)時,李光耀就給日本人當(dāng)過間諜?

阿胡
2025-12-05 11:32:10
路易斯半場兩失良機(jī)!媒體人熱議:18般武藝都不精,1年斷崖下滑

路易斯半場兩失良機(jī)!媒體人熱議:18般武藝都不精,1年斷崖下滑

奧拜爾
2025-12-10 19:13:47
防守悍將+頂級扣將!恭喜東契奇迎好幫手?湖人可以達(dá)到一箭雙雕

防守悍將+頂級扣將!恭喜東契奇迎好幫手?湖人可以達(dá)到一箭雙雕

八零后小伙兒
2025-12-09 20:52:07
10號午評:三大指數(shù)集體下挫!所有人都注意,大盤后市或?qū)⑦@樣走

10號午評:三大指數(shù)集體下挫!所有人都注意,大盤后市或?qū)⑦@樣走

春江財富
2025-12-10 11:56:37
康熙微服出巡,問揚(yáng)州乞丐:當(dāng)今圣上如何?乞丐一句話得百兩黃金

康熙微服出巡,問揚(yáng)州乞丐:當(dāng)今圣上如何?乞丐一句話得百兩黃金

卡西莫多的故事
2025-11-11 10:59:19
阿尼西莫娃稱用十年贏了佩古拉,阿爾卡拉斯表演賽變成求婚大戰(zhàn)

阿尼西莫娃稱用十年贏了佩古拉,阿爾卡拉斯表演賽變成求婚大戰(zhàn)

網(wǎng)球之家
2025-12-10 14:43:32
烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

相思賦予誰a
2025-12-10 02:34:18
法國專家坦言:不知該怎么跟中國相處!被中國獨(dú)特的工業(yè)體系震驚

法國專家坦言:不知該怎么跟中國相處!被中國獨(dú)特的工業(yè)體系震驚

艾米手工作品
2025-12-05 16:05:16
中國還有哪些赫赫有名的通緝犯沒有被抓到?

中國還有哪些赫赫有名的通緝犯沒有被抓到?

X小賢吶
2023-12-23 19:57:08
德國博世壟斷車核心技術(shù),中國華為比亞迪聯(lián)手破局,制造業(yè)迎新機(jī)

德國博世壟斷車核心技術(shù),中國華為比亞迪聯(lián)手破局,制造業(yè)迎新機(jī)

瑛派兒老黃
2025-12-10 21:41:22
李澤楷被她迷得神魂顛倒,林丹為她不顧妻兒,她究竟有什么魅力?

李澤楷被她迷得神魂顛倒,林丹為她不顧妻兒,她究竟有什么魅力?

小馮聊體育
2025-12-09 14:03:18
白崇禧認(rèn)為林彪的軍事才能一般,最欣賞我軍另一悍將

白崇禧認(rèn)為林彪的軍事才能一般,最欣賞我軍另一悍將

聞識
2024-11-01 15:44:14
二戰(zhàn)老照片:光著身子的日本婦女,與男人一起挖礦,頂替男性崗位

二戰(zhàn)老照片:光著身子的日本婦女,與男人一起挖礦,頂替男性崗位

冰語歷史
2025-12-04 07:16:10
英特爾盤中跌幅擴(kuò)大至近4%

英特爾盤中跌幅擴(kuò)大至近4%

界面新聞
2025-12-10 22:38:43
朱孝天因不合群被F4踢出局,妻子受辱,言行終自食其果

朱孝天因不合群被F4踢出局,妻子受辱,言行終自食其果

孤城落日
2025-12-09 18:30:33
2025-12-11 03:31:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1053文章數(shù) 17關(guān)注度
往期回顧 全部

科技要聞

防"走私",英偉達(dá)被曝開發(fā)“芯片定位”技術(shù)

頭條要聞

男子被上海民警騙去"見面"結(jié)果毒檢陽性 被逼寫認(rèn)罪書

頭條要聞

男子被上海民警騙去"見面"結(jié)果毒檢陽性 被逼寫認(rèn)罪書

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂要聞

為何網(wǎng)友不再相信張柏芝的“故事”?

財經(jīng)要聞

對話陳志武:特朗普嚴(yán)重誤判中國!

汽車要聞

有動力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

態(tài)度原創(chuàng)

健康
藝術(shù)
時尚
公開課
軍事航空

甲狀腺結(jié)節(jié)到這個程度,該穿刺了!

藝術(shù)要聞

砸10億!80米!圓通在上海的總部大樓,酷似滿天星!

這些才是普通人都該學(xué)的冬季穿搭!不浮夸、不單薄,自然保暖

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中俄聯(lián)合空中戰(zhàn)略巡航引日本擔(dān)憂 國防部回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 大肉大捧一进一出好爽app| www.啊~啊嗯com| 国产成人亚洲综合无码99 | 丰腴闷骚老熟妇HD| 黄色的视频美女他妈的| 97国产精品视频在线观看| 狠狠躁夜夜躁人人爽天天爽| 日本丰满熟妇videossex一| 亚洲αⅴ无码乱码在线观看性色| 波多野结衣 内射| 亚洲欧美,国产精品| 久久精品国产亚洲av麻| 久久AV无码AV| 国产00高中生在线无套进入| 美女裸身裸乳无遮挡网站| 老色鬼在线精品视频| 午夜A级理论片在线播放琪琪| 九色蝌蚪PORNY精品| 色欲色欲日韩www在线观看| 老司机午夜免费精品视频| av中文字幕一区二区| 午夜福利50集在线看| 性videofree极品另类| 91国内外精品自在线播放| 亚洲日韩电影网| 久久久久久久久免费看无码| 国产97在线 | 亚洲| 天堂avv。| 农村一级AV| 欧美综合激情| 男人天堂久久久久久久久| 美女黄色视频免费观看| 男女18禁一区二区三区囗H毛片| 色av永久无码影院av| 亚洲三级成人a| 黑人巨茎大战俄罗斯美女| 国产精品高清一区二区三区| 国产精品久久久久久久久久久久午衣片| 久久人妻少妇嫩草av蜜桃| 亚洲综合色在线观看一区二区| 国产免费午夜a无码v视频重囗味|