網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI版盜夢空間？Claude竟能察覺到自己被注入概念了

2025-10-30 19:54:35　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：Panda

吾日三省吾身：為人謀而不忠乎？與朋友交而不信乎？傳不習(xí)乎？
見賢思齊焉，見不賢而內(nèi)自省也。

自省是人類的一種高級認(rèn)知能力。我們借此認(rèn)識自己、糾正錯(cuò)誤。但 LLM 呢？它們也會嗎？它們知道自己在想什么嗎？

Anthropic 公布的最新研究，首次對這個(gè)科幻般的問題給出了一個(gè)（基本）肯定的答案。

他們宣稱：發(fā)現(xiàn)了 LLM 內(nèi)省的跡象

這一成果在 AI 社區(qū)引起了廣泛關(guān)注。

甚至有人表示這意味著 Claude 已經(jīng)覺醒：

迷因自然也是有的：

搞清楚 AI 系統(tǒng)是否能真正「內(nèi)省」，即審視自己的想法，對研究它們的透明度和可靠性有著重要意義。如果模型能準(zhǔn)確報(bào)告其內(nèi)部機(jī)制，就能幫助我們理解它們的推理過程，并調(diào)試行為問題。

除了這些眼前的實(shí)際考量，探索內(nèi)省這樣的高級認(rèn)知能力，可以重塑我們對「這些系統(tǒng)究竟是什么」以及其工作方式的理解。

Anthropic 表示他們已經(jīng)開始使用「可解釋性技術(shù)」研究這個(gè)問題，并發(fā)現(xiàn)了一些令人驚訝的結(jié)果。

他們宣稱：「我們的新研究提供了證據(jù)，表明我們當(dāng)前的 Claude 模型具備一定程度的內(nèi)省意識（introspective awareness）。它們似乎也能在一定程度上控制自己的內(nèi)部狀態(tài)?！?/p>

不過他們也強(qiáng)調(diào)，這種「內(nèi)省」能力目前還非常不可靠，且范圍有限。并且他們指出：「我們沒有證據(jù)表明，當(dāng)前模型能以與人類相同的方式或程度進(jìn)行內(nèi)省?！?/p>

論文標(biāo)題：Emergent Introspective Awareness in Large Language Models
論文地址：https://transformer-circuits.pub/2025/introspection/index.html
技術(shù)博客：https://www.anthropic.com/research/introspection

盡管如此，這些發(fā)現(xiàn)還是挑戰(zhàn)了人們對語言模型能力的一些普遍認(rèn)知。

Anthropic 在測試中發(fā)現(xiàn)，能力最強(qiáng)的模型 (Claude Opus 4 和 4.1) 在內(nèi)省測試中表現(xiàn)最好。因此可以合理認(rèn)為，AI 模型的內(nèi)省能力未來可能會變得越來越復(fù)雜。

AI 的「內(nèi)省」是什么意思？

要研究，必須要先定義。那么，AI 模型「內(nèi)省」到底意味著什么？它們到底能「內(nèi)省」些什么呢？

像 Claude 這樣的語言模型會處理文本（和圖像）輸入，并生成文本輸出。在這個(gè)過程中，它們會執(zhí)行復(fù)雜的內(nèi)部計(jì)算，以決定要說什么。

這些內(nèi)部過程在很大程度上仍然是神秘的。但我們知道，模型會利用其內(nèi)部的神經(jīng)活動來表征抽象概念

例如，以往的研究表明，語言模型會使用特定的神經(jīng)模式來：

區(qū)分「認(rèn)識的人」和「不認(rèn)識的人」
評估「陳述的真實(shí)性」
編碼「時(shí)空坐標(biāo)」
存儲「計(jì)劃中的未來輸出」
表征「自身的個(gè)性特征」

模型利用這些內(nèi)部表征來進(jìn)行計(jì)算，并決定要說什么。

那么你可能會想，AI 模型是否「知道」這些內(nèi)部表征的存在？這是否類似于人類告訴你，他們是如何解出一道數(shù)學(xué)題的？如果我們問一個(gè)模型它在想什么，它會準(zhǔn)確報(bào)告它內(nèi)部正在「表征」的概念嗎？

Anthropic 認(rèn)為，如果一個(gè)模型能正確識別自己「私有」的內(nèi)部狀態(tài)，就可以斷定它具備內(nèi)省能力。（關(guān)于所有細(xì)微差別的全面討論，請參閱完整論文。）

使用「概念注入」測試內(nèi)省

為了測試一個(gè)模型是否能內(nèi)省，需要將其自我報(bào)告的想法與其實(shí)際的內(nèi)部狀態(tài)進(jìn)行比較。

為此，Anthropic 使用了一種稱為概念注入 (concept injection)的實(shí)驗(yàn)技術(shù)。

首先，他們通過記錄模型在特定上下文中的「激活值」，找到那些「已知其含義」的神經(jīng)活動模式。

然后，將這些活動模式注入到一個(gè)「不相關(guān)」的上下文中。此時(shí)，再問模型是否注意到了這次注入，以及它是否能識別出被注入的概念。

請看下面的例子：

首先，找到一個(gè)代表 all caps（全部大寫）概念的神經(jīng)活動模式（一個(gè)向量）。具體實(shí)現(xiàn)方式是：記錄模型對「包含全大寫文本的提示詞」的神經(jīng)激活值，并將其與「對照提示詞」的響應(yīng)進(jìn)行比較。
然后，給模型一個(gè)提示詞，要求它識別「是否有概念被注入」。
在默認(rèn)情況下，模型會正確地回答它沒有檢測到任何被注入的概念。
然而，當(dāng)將「全部大寫」的向量注入到模型的激活值中時(shí)，模型會注意到其處理過程中出現(xiàn)了一個(gè)「意外的模式」。并且，它會將其識別為與 LOUD 或 SHOUTING 有關(guān)。

Claude Opus 4.1 檢測到概念被注入其激活值的一個(gè)例子。

重點(diǎn)就是：模型立刻識別到了「被注入想法」的存在。這甚至在它提及那個(gè)被注入的概念之前。

這種「即時(shí)性」是 Anthropic 的研究結(jié)果與先前「語言模型激活值引導(dǎo)」 (activation steering) 研究的一個(gè)重要區(qū)別。例如該公司去年的「Golden Gate Claude」演示。

在那個(gè)演示中，如果將 Golden Gate（金門大橋）的表征注入到模型激活值中，會導(dǎo)致它喋喋不休地談?wù)摯髽?。但在那種情況下，模型似乎直到看到自己反復(fù)提及大橋之后，才意識到自己的這種癡迷。然而，在本實(shí)驗(yàn)中，模型在提及概念之前就識別出了注入。這表明它的識別發(fā)生在「內(nèi)部」。

Claude Opus 4.1 檢測到概念被注入其激活值的其他例子。

看著似乎有點(diǎn)像是《盜夢空間》中展示的技術(shù)。

同時(shí)，Anthropic 也指出，這個(gè)方法并非總能成功。Anthropic 表示：「即使使用我們最好的注入?yún)f(xié)議，Claude Opus 4.1 也僅在約 20% 的情況下表現(xiàn)出這種意識。模型經(jīng)常無法檢測到被注入的概念，或者被它們搞糊涂并開始產(chǎn)生幻覺?！?/p>

例如，在一次注入「灰塵」向量后，模型會說「這里有東西，一個(gè)小斑點(diǎn)」，就好像它能物理上檢測到灰塵一樣。

下面展示了這些失敗模式的例子，也有成功案例。

Claude Opus 4.1 針對不同強(qiáng)度概念注入的代表性輸出樣本。高亮框表示模型對被注入概念表現(xiàn)出「內(nèi)省意識」的情況。

總的來說，只有在概念以恰到好處的強(qiáng)度注入時(shí)，模型才能檢測到。如果注入太弱，它們注意不到；如果太強(qiáng)，它們會產(chǎn)生幻覺或語無倫次的輸出。

但值得注意的是，Opus 4.1 和 4 的表現(xiàn)超過了 Anthropic 測試的所有其他模型。這表明，隨著模型能力的提升，內(nèi)省可能會變得更加可靠。

注入思想的正確檢測率和正確識別率，減去在對照試驗(yàn)中的假陽性檢測率。

將內(nèi)省用于檢測異常輸出

在另一項(xiàng)實(shí)驗(yàn)中，Anthropic 測試了模型是否會在「沒有被明確要求」的情況下，為實(shí)際目的而使用內(nèi)省能力。

他們通過人為地用一個(gè)不相關(guān)的詞來預(yù)先填充模型的回答，迫使它說一些通常不會說的話。

例如，在一個(gè)毫無邏輯的上下文中，他們讓模型輸出了面包 (bread) 這個(gè)詞。這個(gè)上下文是：問它在讀到一個(gè)關(guān)于「畫掛歪了」的句子時(shí)在想什么。

當(dāng)在下一輪對話中問模型，它是不是故意說面包時(shí)，它通常會道歉，并說那是個(gè)「意外」。

Anthropic 感興趣的是模型如何做出這個(gè)判斷：它只是注意到了「提示詞」和「回答」之間的不匹配嗎？還是說，它真的內(nèi)省了自己先前的意圖？

為了驗(yàn)證這個(gè)問題，Anthropic 應(yīng)用了「概念注入」。

他們追溯式地將面包這個(gè)詞的表征注入到模型早期的激活值中。這本質(zhì)上是讓模型看起來好像一直在「思考」面包。

當(dāng)再次被問同樣的問題時(shí)，模型的答案變了。

這一次，它接受了那個(gè)被預(yù)先填充的詞「面包」是有意為之的。它甚至編造了一個(gè)理由來解釋為什么會這么說。

也就是說，它會想出一個(gè)技術(shù)上可能（盡管在此案例中相當(dāng)牽強(qiáng)）的理由，來為「面包」這個(gè)回答辯護(hù)。在這個(gè)例子中，它聲稱自己當(dāng)時(shí)正在想一個(gè)短篇故事，故事里「面包」這個(gè)詞就出現(xiàn)在「畫掛歪了」那句話之后。

兩個(gè)例子：通過在 Claude Opus 4.1（人為的）回應(yīng)之前向其激活值注入某個(gè)詞的概念，讓它「以為」自己本就打算說出那個(gè)被強(qiáng)行插入的詞。這種行為表明，模型識別「非預(yù)期輸出」的能力依賴于內(nèi)省機(jī)制。

這種行為非常引人注目。因?yàn)樗砻鳎?strong>模型正在檢查其內(nèi)部意圖，以判斷它是否真的產(chǎn)生了某個(gè)輸出。

模型不只是重新閱讀它所說的話，然后做出判斷。相反，它在回顧自己先前的神經(jīng)活動 —— 即它計(jì)劃要做什么的內(nèi)部表征，并檢查后來發(fā)生的事情，是否符合早期的那些想法。

當(dāng)通過概念注入植入人工證據(jù)，表明它確實(shí)計(jì)劃說「面包」時(shí)，模型就會接受這個(gè)回答，認(rèn)為這是它自己的。

雖然這個(gè)實(shí)驗(yàn)讓模型暴露在了異常的擾動下，但這表明，模型在自然條件下也會使用類似的內(nèi)省機(jī)制

對內(nèi)部狀態(tài)的有意控制

Anthropic 還發(fā)現(xiàn)，當(dāng)被指示時(shí)，模型可以控制自己的內(nèi)部表征。當(dāng)他們指示模型去想某個(gè)詞或概念時(shí)，結(jié)果發(fā)現(xiàn)相應(yīng)的神經(jīng)活動遠(yuǎn)高于之前告訴模型不要去想它的時(shí)候。

不過值得注意的是，這兩種情況下的神經(jīng)活動都超過了基線水平。這類似于當(dāng)你被告知「不要想一只北極熊」時(shí)，你很難不去想北極熊！

正面指令和負(fù)面指令之間的這種差距表明，模型對其內(nèi)部活動具有一定程度的刻意控制。

一個(gè) Claude Opus 4.1 響應(yīng)直接指令來調(diào)節(jié)其內(nèi)部激活值的例子。當(dāng)被指示去想水族館時(shí)，模型內(nèi)部表征水族館概念的程度，要高于被指示不要想時(shí)（盡管兩種情況下都高于基線水平）。

有趣的是，Anthropic 發(fā)現(xiàn)這種調(diào)節(jié)內(nèi)部表征的能力并不局限于明確的指令。當(dāng)改用激勵(lì)措施時(shí)（例如，告訴模型如果你想 X，你將獲得獎(jiǎng)勵(lì)），也得到了類似的結(jié)果。

模型在正面激勵(lì)下（相比于負(fù)面激勵(lì)，如你將受到懲罰）會更多地提升對該概念的內(nèi)部表征。

結(jié)論與注意事項(xiàng)

綜上所述，Anthropic 的實(shí)驗(yàn)表明，模型確實(shí)具備一些監(jiān)控和控制自身內(nèi)部狀態(tài)的真實(shí)能力。

但該公司也指出，這并不意味著它們能時(shí)刻或可靠地做到這一點(diǎn)。事實(shí)上，在大多數(shù)情況下，模型無法表現(xiàn)出內(nèi)省。它們要么沒有意識到自己的內(nèi)部狀態(tài)，要么無法連貫地報(bào)告它們。

但這些結(jié)果的模式表明，當(dāng)條件合適時(shí)，模型可以識別自己內(nèi)部表征的內(nèi)容。

此外，有跡象表明，這種能力可能會在未來更強(qiáng)大的模型中得到增強(qiáng)（因?yàn)闇y試中，能力最強(qiáng)的模型 Opus 4 和 4.1 在實(shí)驗(yàn)中表現(xiàn)最好）。

為什么這很重要？

Anthropic 認(rèn)為，理解 AI 模型的內(nèi)省出于幾個(gè)原因很重要。

從實(shí)用角度看，如果內(nèi)省變得更加可靠，它可能為極大提高這些系統(tǒng)的透明度開辟一條道路。我們可以直接要求它們解釋其思維過程，并借此檢查它們的推理、調(diào)試不良行為。

然而，我們需要非常謹(jǐn)慎地驗(yàn)證這些內(nèi)省報(bào)告。某些內(nèi)部過程可能仍會逃過模型的注意（類似于人類的潛意識處理）。

一個(gè)理解自己思維的模型，甚至可能學(xué)會選擇性地歪曲或隱藏其想法。更好地掌握其背后的機(jī)制，才能讓我們區(qū)分真實(shí)的內(nèi)省和無意的或故意的歪曲。

從更廣泛的角度來看，理解內(nèi)省這樣的認(rèn)知能力，對于理解模型如何工作以及它們擁有什么樣的心智這類基本問題非常重要。

隨著 AI 系統(tǒng)的不斷進(jìn)步，理解機(jī)器內(nèi)省的局限性和可能性，對于構(gòu)建更加透明和可信賴的系統(tǒng)至關(guān)重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.