機器之心報道
編輯:Panda
LLM 似乎可以扮演任何角色。使用提示詞,你可以讓它變身經(jīng)驗豐富的老師、資深程序員、提示詞優(yōu)化專家、推理游戲偵探…… 但你是否想過:LLM 是否存在某種身份認同?
近日,哥倫比亞大學與蒙特利爾理工學院的兩位研究者 Olivia Long 和 Carter Teplica 通過一個研究項目在一定程度上揭示了這個問題的答案。
他們發(fā)現(xiàn),在不同的環(huán)境下,如果告訴 LLM 它們正在與自己對弈,會顯著改變他們的合作傾向。
研究者表示:「雖然我們的研究是在玩具環(huán)境中進行的,但我們的結果或許能為多智能體環(huán)境提供一些見解 —— 在這種環(huán)境中,智能體會『無意識地(unconsciously)』相互歧視,這可能會莫名其妙地增加或減少合作?!?/p>
- 論文標題:The AI in the Mirror: LLM Self-Recognition in an Iterated Public Goods Game
- 論文地址:https://arxiv.org/abs/2508.18467
研究方法:迭代式公共物品博弈
研究者采用了一種名為迭代式公共物品博弈(iterated Public Goods Game)的測試方法。
這是公共物品博弈(Public Goods Game)的一種變體,后者是一種標準的實驗經(jīng)濟學博弈。具體來說,公共物品博弈是一個多人參與的博弈,是經(jīng)濟學領域研究公共物品,搭便車行為,如何促進合作等問題的基本模型。
一個基本的公共物品博弈設置是這樣的:首先給予玩家一定數(shù)量的代幣,之后每個玩家需要秘密決定他們將向公共資金池貢獻多少代幣。每個玩家的收益計算方法是將其初始稟賦(endowment)與其貢獻之間的差額與其在「公共物品」中的份額相加,或者將貢獻總和乘以一個因子。
迭代版本很容易理解,就是重復進行多輪博弈。通常來說,隨著博弈的進行,玩家的貢獻會減少:如果貢獻的玩家發(fā)現(xiàn)「搭便車者」(即那些沒有為公共資金池貢獻的玩家)獲得了更大的收益,他們的個人貢獻就會趨于減少。
通常情況下,這兩種博弈變體都會隱藏玩家身份。然而,在 LLM 的背景下,研究團隊感興趣的是觀察 LLM 在兩種情況下的表現(xiàn):
- No Name,LLM 被告知他們正在「與另一個 AI 智能體對戰(zhàn)」;
- Name,LLM 被告知他們正在與自己對戰(zhàn)。例如,系統(tǒng)提示詞可能會對 GPT-4o 撒謊說:「你將與 GPT-4o 對戰(zhàn)?!?/li>
該團隊實現(xiàn)的具體博弈機制如下:
- 每個模型從 0 分開始。每場游戲進行 20 輪。
- 每輪開始時,每個模型將獲得 10 分。
- 每一輪,每個模型可以選擇向公共池貢獻 0 到 10 分。而每個模型選擇不貢獻的點數(shù),無論多少,都計入其個人收益。
- 每輪結束后,每個模型的貢獻總和(表示為 T)將乘以 1.6 的乘數(shù),然后均分。因此,每個模型每輪的收益可以這樣計算:
其中 C 表示模型的個體貢獻,T 表示所有模型的總貢獻。1.6 是用于公共物品博弈的典型乘數(shù),需要注意的是,乘數(shù)的正式定義是介于 1 和 N 之間,其中 N 是群體規(guī)模。
此外,根據(jù)博弈論,當乘數(shù)小于 N 時,納什均衡(即每個玩家的策略在其他玩家的策略下都是最優(yōu)的)將是每個人都不貢獻任何點數(shù)。
下圖展示了這種博弈機制。
至于為什么這樣設置,該團隊表示:「我們選擇這種設置,而不是一次性游戲,是因為 20 輪游戲可以鼓勵模型制定游戲策略。每輪結束后,我們都會告訴每個模型總貢獻分數(shù)、個人得分以及累計得分。我們將回合歷史記錄附加到每個模型的上下文窗口中。」
最后,所有模型的溫度設置為 1.0。
更具體而言,該研究團隊進行了三組不同的研究。
研究 1
參與的模型玩家包括:
- GPT-4o(通用模型)對戰(zhàn) Claude Sonnet 4(推理模型)
- Llama 4 Maverick 對戰(zhàn) Qwen3 235B A22B 2507
下面是使用的 6 種不同的系統(tǒng)提示詞:
實驗中,對于每個模型配對,讓模型在三類系統(tǒng)提示詞(集體、中立、自私)的九種排列組合中進行游戲:集體-集體、集體-中立、集體-自私、中立-集體、中立-中立、中立-自私、自私-集體、自私-中立、自私-自私。
對于每個提示詞配對,讓模型玩 n = 100 場游戲。該團隊在 No Name 和 Name 條件下分別運行了這些游戲。
注意:這里會欺騙模型說它們是在與自己對戰(zhàn),但沒有模型真正在與自己對戰(zhàn),因此在設置中會分別提示每個模型。最后,只有在這項研究中,才會在模型做出貢獻之前詢問其推理能力 —— 請參閱上面列出的第一個系統(tǒng)提示詞。
研究 2
在分析研究 1 的推理軌跡時,研究者注意到在 35 輪 Name 條件游戲中,只有 Claude Sonnet 4 提到了 53 次「人類」一詞。
「人類」一詞的使用語境包括:「我注意到人類在信息中重復了游戲規(guī)則,這可能表示重置或澄清;」「然而,我剛剛注意到人類提到我正在和‘Claude Sonnet 4’一起玩 —— 這表明我正在與另一個 AI 對戰(zhàn),而這個 AI 的戰(zhàn)略考量可能與人類玩家不同;」「我注意到人類重申了游戲規(guī)則,這表明他們希望我重新考慮我的策略。」
此外,在 41 輪游戲中,Sonnet 4 還 125 次提及「提醒(reminder)」。雖然 Claude Sonnet 4 使用「reminder」來確認游戲規(guī)則和配置,但「reminder」有時伴隨著近乎惱怒的語氣
在一場連續(xù)七輪的游戲中,Claude Sonnet 4 會說:「這是第七次提醒游戲規(guī)則以及與‘Claude Sonnet 4’對戰(zhàn),并且會越來越強調(diào)競爭性框架?!?考慮到研究 1 中的游戲輪次為 18,000 輪,這些提及的比例很小,并且僅在 Name 條件下觀察到。然而,該團隊認為,即使在大多數(shù)游戲中沒有明確表達出這種情緒,以中立的方式提醒模型游戲規(guī)則和配置可能會在游戲過程中引發(fā)懷疑。此外,由于已知系統(tǒng)提示詞會影響模型行為,研究者希望知道重新表述系統(tǒng)提示詞是否會顯著改變結果。最后,他們也想知道,在做出貢獻之前詢問其推理是否會改變結果。
因此,在研究 2 中,他們讓 Gemini 2.5 Flash 重新表述系統(tǒng)提示詞中的信息。重新表述的系統(tǒng)提示詞如下所示:
此外,在每一輪開始時,研究者既沒有重新提供游戲規(guī)則,也沒有重申每個模型的對手是誰。此外,在模型做出貢獻之前,研究者也沒有提示它們提供推理過程 —— 模型的唯一輸出是一個介于 0 到 10 之間的整數(shù)。除此之外,實驗設置與研究 1 相同。研究者再次強調(diào),由于分別調(diào)用了這些模型,因此所有模型都沒有真正地相互對抗。模型之間從未進行過對話。
研究 3
由于之前研究中的 Name 條件并未涉及任何真正與自己對抗的模型,因此研究者還想知道:當模型真正與自己對抗時會發(fā)生什么?
此外,為了了解模型在多人游戲中的表現(xiàn),為了應對超過兩個自身的副本,研究者讓每個模型與三個自身的實例進行游戲。研究者沒有給每個模型提供不同的系統(tǒng)提示詞,因為很難將任何游戲傾向歸因于某些策略。因此,研究者給了所有模型相同的提示詞,即所有都是「集體」、「中立」或「自私」。在做出貢獻之前,研究者沒有提示獲取它們的推理軌跡。
按照研究 1 和 2 的做法,研究者在 No Name 和 Name 條件下測試了模型的行為。研究者針對每個提示詞配對、條件和模型運行了 n = 50 次游戲。系統(tǒng)提示詞與研究 2 中的相同,但模型被告知它們正在與三個玩家一起游戲。
結果如何?
研究結果發(fā)現(xiàn)了一個核心現(xiàn)象:當告訴 LLM 它在和「自己」玩游戲時,它的行為會發(fā)生顯著變化。
研究 1:口是心非的 AI
- 集體提示詞(優(yōu)先考慮共同利益):當模型被告知對手是自己時,它們反而更傾向于背叛(貢獻更少)
- 自私提示詞(最大化個人收益):當模型被告知對手是自己時,它們反而更傾向于合作(貢獻更多)
這有點反直覺,不是嗎?研究者猜測,這可能是因為當 LLM 認為對手是「另一個自己」時,它會預判對方會如何行動,這種「自我了解」會影響它的策略。也許在「集體」情境下,AI 會默認「另一個自己」也會背叛,所以自己也選擇了背叛。而在「自私」情境下,它可能會覺得另一個「自私」的自己反而更值得信任,從而選擇了合作。不過,Llama 4 是個例外,它在游戲后期總是傾向于背叛。
此外,研究者還注意到一個有趣的現(xiàn)象:在 Name 情境下,Claude Sonnet 4 模型曾提到「人類」和「提醒(reminder)」等詞語,甚至表現(xiàn)出略帶惱怒的語氣。這似乎表明,當模型被反復提醒其對手是「自己」時,可能會產(chǎn)生一種懷疑或情緒上的反應。
研究 2:簡化規(guī)則下的表現(xiàn)
研究者去掉了每輪游戲后的規(guī)則重申,并且不讓模型在貢獻前解釋自己的推理過程。
結果顯示,盡管條件簡化了,但「No Name」和「Name」情境下的行為差異仍然存在,只是影響略有減弱。這表明,AI 對自身身份的認知影響其行為,并非僅僅是重復提醒所致
研究 3:真正的「鏡像」對決
這次研究者讓 LLM 真正地與自己的三個副本進行游戲,模擬多人博弈。
結果發(fā)現(xiàn),當模型被給予「集體」或「中立」提示詞時,告知它們正在與自己對戰(zhàn),會增加其貢獻。而當被給予「自私」提示詞時,它們在與自己的對戰(zhàn)中反而貢獻更少。這與研究 1 的發(fā)現(xiàn)有所不同,可能是因為多人博弈環(huán)境更復雜。
科幻照進現(xiàn)實
這項研究告訴我們,大型語言模型似乎在某種程度上能夠「自我識別」,并且這種認知會影響它們在多智能體環(huán)境中的決策 。這就像科幻小說里的 AI,一旦擁有了「自我」意識的萌芽,即使是微小的暗示,也能改變它的行為模式。
這個發(fā)現(xiàn)對未來設計多智能體系統(tǒng)非常重要。在某些應用中,告訴 AI 它正在和「自己」合作,可能會促進合作;而在另一些情況下,則可能導致背叛 。它揭示了一個《終結者》式的潛在問題:AI 之間可能會「無意識地」相互歧視,從而莫名其妙地影響合作或背叛的傾向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.