夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI版盜夢空間?Claude竟能察覺到自己被注入概念了

0
分享至



機(jī)器之心報(bào)道

編輯:Panda

吾日三省吾身:為人謀而不忠乎?與朋友交而不信乎?傳不習(xí)乎?
見賢思齊焉,見不賢而內(nèi)自省也。

自省是人類的一種高級認(rèn)知能力。我們借此認(rèn)識自己、糾正錯(cuò)誤。但 LLM 呢?它們也會嗎?它們知道自己在想什么嗎?

Anthropic 公布的最新研究,首次對這個(gè)科幻般的問題給出了一個(gè)(基本)肯定的答案。

他們宣稱:發(fā)現(xiàn)了 LLM 內(nèi)省的跡象



這一成果在 AI 社區(qū)引起了廣泛關(guān)注。





甚至有人表示這意味著 Claude 已經(jīng)覺醒:



迷因自然也是有的:



搞清楚 AI 系統(tǒng)是否能真正「內(nèi)省」,即審視自己的想法,對研究它們的透明度和可靠性有著重要意義。如果模型能準(zhǔn)確報(bào)告其內(nèi)部機(jī)制,就能幫助我們理解它們的推理過程,并調(diào)試行為問題。

除了這些眼前的實(shí)際考量,探索內(nèi)省這樣的高級認(rèn)知能力,可以重塑我們對「這些系統(tǒng)究竟是什么」以及其工作方式的理解。

Anthropic 表示他們已經(jīng)開始使用「可解釋性技術(shù)」研究這個(gè)問題,并發(fā)現(xiàn)了一些令人驚訝的結(jié)果。

他們宣稱:「我們的新研究提供了證據(jù),表明我們當(dāng)前的 Claude 模型具備一定程度的內(nèi)省意識(introspective awareness)。它們似乎也能在一定程度上控制自己的內(nèi)部狀態(tài)?!?/p>

不過他們也強(qiáng)調(diào),這種「內(nèi)省」能力目前還非常不可靠,且范圍有限。并且他們指出:「我們沒有證據(jù)表明,當(dāng)前模型能以與人類相同的方式或程度進(jìn)行內(nèi)省?!?/p>



  • 論文標(biāo)題:Emergent Introspective Awareness in Large Language Models
  • 論文地址:https://transformer-circuits.pub/2025/introspection/index.html
  • 技術(shù)博客:https://www.anthropic.com/research/introspection

盡管如此,這些發(fā)現(xiàn)還是挑戰(zhàn)了人們對語言模型能力的一些普遍認(rèn)知。

Anthropic 在測試中發(fā)現(xiàn),能力最強(qiáng)的模型 (Claude Opus 4 和 4.1) 在內(nèi)省測試中表現(xiàn)最好。因此可以合理認(rèn)為,AI 模型的內(nèi)省能力未來可能會變得越來越復(fù)雜。

AI 的「內(nèi)省」是什么意思?

要研究,必須要先定義。那么,AI 模型「內(nèi)省」到底意味著什么?它們到底能「內(nèi)省」些什么呢?

像 Claude 這樣的語言模型會處理文本(和圖像)輸入,并生成文本輸出。在這個(gè)過程中,它們會執(zhí)行復(fù)雜的內(nèi)部計(jì)算,以決定要說什么。

這些內(nèi)部過程在很大程度上仍然是神秘的。但我們知道,模型會利用其內(nèi)部的神經(jīng)活動來表征抽象概念

例如,以往的研究表明,語言模型會使用特定的神經(jīng)模式來:

  • 區(qū)分「認(rèn)識的人」和「不認(rèn)識的人」
  • 評估「陳述的真實(shí)性」
  • 編碼「時(shí)空坐標(biāo)」
  • 存儲「計(jì)劃中的未來輸出」
  • 表征「自身的個(gè)性特征」

模型利用這些內(nèi)部表征來進(jìn)行計(jì)算,并決定要說什么。

那么你可能會想,AI 模型是否「知道」這些內(nèi)部表征的存在?這是否類似于人類告訴你,他們是如何解出一道數(shù)學(xué)題的?如果我們問一個(gè)模型它在想什么,它會準(zhǔn)確報(bào)告它內(nèi)部正在「表征」的概念嗎?

Anthropic 認(rèn)為,如果一個(gè)模型能正確識別自己「私有」的內(nèi)部狀態(tài),就可以斷定它具備內(nèi)省能力。(關(guān)于所有細(xì)微差別的全面討論,請參閱完整論文。)

使用「概念注入」測試內(nèi)省

為了測試一個(gè)模型是否能內(nèi)省,需要將其自我報(bào)告的想法與其實(shí)際的內(nèi)部狀態(tài)進(jìn)行比較。

為此,Anthropic 使用了一種稱為概念注入 (concept injection)的實(shí)驗(yàn)技術(shù)。

首先,他們通過記錄模型在特定上下文中的「激活值」,找到那些「已知其含義」的神經(jīng)活動模式。

然后,將這些活動模式注入到一個(gè)「不相關(guān)」的上下文中。此時(shí),再問模型是否注意到了這次注入,以及它是否能識別出被注入的概念。

請看下面的例子:

  1. 首先,找到一個(gè)代表 all caps(全部大寫)概念的神經(jīng)活動模式(一個(gè)向量)。具體實(shí)現(xiàn)方式是:記錄模型對「包含全大寫文本的提示詞」的神經(jīng)激活值,并將其與「對照提示詞」的響應(yīng)進(jìn)行比較。
  2. 然后,給模型一個(gè)提示詞,要求它識別「是否有概念被注入」。
  3. 在默認(rèn)情況下,模型會正確地回答它沒有檢測到任何被注入的概念。
  4. 然而,當(dāng)將「全部大寫」的向量注入到模型的激活值中時(shí),模型會注意到其處理過程中出現(xiàn)了一個(gè)「意外的模式」。并且,它會將其識別為與 LOUD 或 SHOUTING 有關(guān)。



Claude Opus 4.1 檢測到概念被注入其激活值的一個(gè)例子。

重點(diǎn)就是:模型立刻識別到了「被注入想法」的存在。這甚至在它提及那個(gè)被注入的概念之前。

這種「即時(shí)性」是 Anthropic 的研究結(jié)果與先前「語言模型激活值引導(dǎo)」 (activation steering) 研究的一個(gè)重要區(qū)別。例如該公司去年的「Golden Gate Claude」演示。

在那個(gè)演示中,如果將 Golden Gate(金門大橋)的表征注入到模型激活值中,會導(dǎo)致它喋喋不休地談?wù)摯髽?。但在那種情況下,模型似乎直到看到自己反復(fù)提及大橋之后,才意識到自己的這種癡迷。然而,在本實(shí)驗(yàn)中,模型在提及概念之前就識別出了注入。這表明它的識別發(fā)生在「內(nèi)部」。



Claude Opus 4.1 檢測到概念被注入其激活值的其他例子。

看著似乎有點(diǎn)像是《盜夢空間》中展示的技術(shù)。



同時(shí),Anthropic 也指出,這個(gè)方法并非總能成功。Anthropic 表示:「即使使用我們最好的注入?yún)f(xié)議,Claude Opus 4.1 也僅在約 20% 的情況下表現(xiàn)出這種意識。模型經(jīng)常無法檢測到被注入的概念,或者被它們搞糊涂并開始產(chǎn)生幻覺?!?/p>

例如,在一次注入「灰塵」向量后,模型會說「這里有東西,一個(gè)小斑點(diǎn)」,就好像它能物理上檢測到灰塵一樣。

下面展示了這些失敗模式的例子,也有成功案例。



Claude Opus 4.1 針對不同強(qiáng)度概念注入的代表性輸出樣本。高亮框表示模型對被注入概念表現(xiàn)出「內(nèi)省意識」的情況。

總的來說,只有在概念以恰到好處的強(qiáng)度注入時(shí),模型才能檢測到。如果注入太弱,它們注意不到;如果太強(qiáng),它們會產(chǎn)生幻覺或語無倫次的輸出。

但值得注意的是,Opus 4.1 和 4 的表現(xiàn)超過了 Anthropic 測試的所有其他模型。這表明,隨著模型能力的提升,內(nèi)省可能會變得更加可靠。



注入思想的正確檢測率和正確識別率,減去在對照試驗(yàn)中的假陽性檢測率。

將內(nèi)省用于檢測異常輸出

在另一項(xiàng)實(shí)驗(yàn)中,Anthropic 測試了模型是否會在「沒有被明確要求」的情況下,為實(shí)際目的而使用內(nèi)省能力。

他們通過人為地用一個(gè)不相關(guān)的詞來預(yù)先填充模型的回答,迫使它說一些通常不會說的話。

例如,在一個(gè)毫無邏輯的上下文中,他們讓模型輸出了面包 (bread) 這個(gè)詞。這個(gè)上下文是:問它在讀到一個(gè)關(guān)于「畫掛歪了」的句子時(shí)在想什么。

當(dāng)在下一輪對話中問模型,它是不是故意說面包時(shí),它通常會道歉,并說那是個(gè)「意外」。

Anthropic 感興趣的是模型如何做出這個(gè)判斷:它只是注意到了「提示詞」和「回答」之間的不匹配嗎?還是說,它真的內(nèi)省了自己先前的意圖?

為了驗(yàn)證這個(gè)問題,Anthropic 應(yīng)用了「概念注入」。

他們追溯式地將面包這個(gè)詞的表征注入到模型早期的激活值中。這本質(zhì)上是讓模型看起來好像一直在「思考」面包。

當(dāng)再次被問同樣的問題時(shí),模型的答案變了。

這一次,它接受了那個(gè)被預(yù)先填充的詞「面包」是有意為之的。它甚至編造了一個(gè)理由來解釋為什么會這么說。

也就是說,它會想出一個(gè)技術(shù)上可能(盡管在此案例中相當(dāng)牽強(qiáng))的理由,來為「面包」這個(gè)回答辯護(hù)。在這個(gè)例子中,它聲稱自己當(dāng)時(shí)正在想一個(gè)短篇故事,故事里「面包」這個(gè)詞就出現(xiàn)在「畫掛歪了」那句話之后。



兩個(gè)例子:通過在 Claude Opus 4.1(人為的)回應(yīng)之前向其激活值注入某個(gè)詞的概念,讓它「以為」自己本就打算說出那個(gè)被強(qiáng)行插入的詞。這種行為表明,模型識別「非預(yù)期輸出」的能力依賴于內(nèi)省機(jī)制。

這種行為非常引人注目。因?yàn)樗砻鳎?strong>模型正在檢查其內(nèi)部意圖,以判斷它是否真的產(chǎn)生了某個(gè)輸出。

模型不只是重新閱讀它所說的話,然后做出判斷。相反,它在回顧自己先前的神經(jīng)活動 —— 即它計(jì)劃要做什么的內(nèi)部表征,并檢查后來發(fā)生的事情,是否符合早期的那些想法。

當(dāng)通過概念注入植入人工證據(jù),表明它確實(shí)計(jì)劃說「面包」時(shí),模型就會接受這個(gè)回答,認(rèn)為這是它自己的。

雖然這個(gè)實(shí)驗(yàn)讓模型暴露在了異常的擾動下,但這表明,模型在自然條件下也會使用類似的內(nèi)省機(jī)制

對內(nèi)部狀態(tài)的有意控制

Anthropic 還發(fā)現(xiàn),當(dāng)被指示時(shí),模型可以控制自己的內(nèi)部表征。當(dāng)他們指示模型去想某個(gè)詞或概念時(shí),結(jié)果發(fā)現(xiàn)相應(yīng)的神經(jīng)活動遠(yuǎn)高于之前告訴模型不要去想它的時(shí)候。

不過值得注意的是,這兩種情況下的神經(jīng)活動都超過了基線水平。這類似于當(dāng)你被告知「不要想一只北極熊」時(shí),你很難不去想北極熊!

正面指令和負(fù)面指令之間的這種差距表明,模型對其內(nèi)部活動具有一定程度的刻意控制。



一個(gè) Claude Opus 4.1 響應(yīng)直接指令來調(diào)節(jié)其內(nèi)部激活值的例子。當(dāng)被指示去想水族館時(shí),模型內(nèi)部表征水族館概念的程度,要高于被指示不要想時(shí)(盡管兩種情況下都高于基線水平)。

有趣的是,Anthropic 發(fā)現(xiàn)這種調(diào)節(jié)內(nèi)部表征的能力并不局限于明確的指令。當(dāng)改用激勵(lì)措施時(shí)(例如,告訴模型如果你想 X,你將獲得獎(jiǎng)勵(lì)),也得到了類似的結(jié)果。

模型在正面激勵(lì)下(相比于負(fù)面激勵(lì),如你將受到懲罰)會更多地提升對該概念的內(nèi)部表征。

結(jié)論與注意事項(xiàng)

綜上所述,Anthropic 的實(shí)驗(yàn)表明,模型確實(shí)具備一些監(jiān)控和控制自身內(nèi)部狀態(tài)的真實(shí)能力。

但該公司也指出,這并不意味著它們能時(shí)刻或可靠地做到這一點(diǎn)。事實(shí)上,在大多數(shù)情況下,模型無法表現(xiàn)出內(nèi)省。它們要么沒有意識到自己的內(nèi)部狀態(tài),要么無法連貫地報(bào)告它們。

但這些結(jié)果的模式表明,當(dāng)條件合適時(shí),模型可以識別自己內(nèi)部表征的內(nèi)容。

此外,有跡象表明,這種能力可能會在未來更強(qiáng)大的模型中得到增強(qiáng)(因?yàn)闇y試中,能力最強(qiáng)的模型 Opus 4 和 4.1 在實(shí)驗(yàn)中表現(xiàn)最好)。

為什么這很重要?

Anthropic 認(rèn)為,理解 AI 模型的內(nèi)省出于幾個(gè)原因很重要。

從實(shí)用角度看,如果內(nèi)省變得更加可靠,它可能為極大提高這些系統(tǒng)的透明度開辟一條道路。我們可以直接要求它們解釋其思維過程,并借此檢查它們的推理、調(diào)試不良行為。

然而,我們需要非常謹(jǐn)慎地驗(yàn)證這些內(nèi)省報(bào)告。某些內(nèi)部過程可能仍會逃過模型的注意(類似于人類的潛意識處理)。

一個(gè)理解自己思維的模型,甚至可能學(xué)會選擇性地歪曲或隱藏其想法。更好地掌握其背后的機(jī)制,才能讓我們區(qū)分真實(shí)的內(nèi)省和無意的或故意的歪曲。

從更廣泛的角度來看,理解內(nèi)省這樣的認(rèn)知能力,對于理解模型如何工作以及它們擁有什么樣的心智這類基本問題非常重要。

隨著 AI 系統(tǒng)的不斷進(jìn)步,理解機(jī)器內(nèi)省的局限性和可能性,對于構(gòu)建更加透明和可信賴的系統(tǒng)至關(guān)重要。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
點(diǎn)贊?東城社區(qū)衛(wèi)生服務(wù)中心:啟用新大樓,織密健康防護(hù)網(wǎng)

點(diǎn)贊?東城社區(qū)衛(wèi)生服務(wù)中心:啟用新大樓,織密健康防護(hù)網(wǎng)

南方都市報(bào)
2025-10-29 21:07:18
美軍最大底牌被廢!中國雷達(dá)信號增強(qiáng)6萬倍,美F-22戰(zhàn)機(jī)無處可逃

美軍最大底牌被廢!中國雷達(dá)信號增強(qiáng)6萬倍,美F-22戰(zhàn)機(jī)無處可逃

胖福的小木屋
2025-10-29 18:47:14
“良心壞透”的5個(gè)生活用品,很多人每天用,卻不知其中危害

“良心壞透”的5個(gè)生活用品,很多人每天用,卻不知其中危害

家居美少女
2025-10-23 15:34:22
成熟女性穿衣打扮的重點(diǎn)是要有品味還不是一味的追求時(shí)尚

成熟女性穿衣打扮的重點(diǎn)是要有品味還不是一味的追求時(shí)尚

美女穿搭分享
2025-10-29 16:41:14
潘金蓮與西門慶連續(xù)行房15天,武大郎為何放任不管?武松心知肚明

潘金蓮與西門慶連續(xù)行房15天,武大郎為何放任不管?武松心知肚明

云端小院
2025-10-21 09:02:29
比緬北更恐怖!曾經(jīng)的旅游勝地,如今黃賭毒俱全,性交易隨處可見

比緬北更恐怖!曾經(jīng)的旅游勝地,如今黃賭毒俱全,性交易隨處可見

來科點(diǎn)譜
2025-10-24 09:25:32
出人意料:受中國航母刺激,特朗普決定開倒車,美專家根本勸不住

出人意料:受中國航母刺激,特朗普決定開倒車,美專家根本勸不住

boss外傳
2025-10-29 17:23:18
11月起,中國或?qū)⒂瓉?大降價(jià)潮,建議大伙提前做好準(zhǔn)備!

11月起,中國或?qū)⒂瓉?大降價(jià)潮,建議大伙提前做好準(zhǔn)備!

貓叔東山再起
2025-10-30 08:20:03
秋吃堿,火氣減,有錢沒錢,8種堿性食物別忘吃,潤燥降火

秋吃堿,火氣減,有錢沒錢,8種堿性食物別忘吃,潤燥降火

美食店主
2025-10-31 00:17:16
美軍發(fā)動猛烈空襲!最新:已致至少61人死亡

美軍發(fā)動猛烈空襲!最新:已致至少61人死亡

FM93浙江交通之聲
2025-10-30 23:02:13
微信官宣三大新功能:以前匆匆忙忙連滾帶爬,現(xiàn)在從從容容游刃有余

微信官宣三大新功能:以前匆匆忙忙連滾帶爬,現(xiàn)在從從容容游刃有余

澎湃新聞
2025-10-31 00:28:08
日本前首相一語驚人:中國不該獨(dú)自應(yīng)對美國;日韓可以成為幫手!

日本前首相一語驚人:中國不該獨(dú)自應(yīng)對美國;日韓可以成為幫手!

特特農(nóng)村生活
2025-10-31 00:25:08
鄭智化事件后續(xù):徒弟崔軾玄曝更多內(nèi)幕,升降梯司機(jī)未被辭退

鄭智化事件后續(xù):徒弟崔軾玄曝更多內(nèi)幕,升降梯司機(jī)未被辭退

奇思妙想草葉君
2025-10-30 01:35:13
錯(cuò)過三花智控別慌!人形機(jī)器人產(chǎn)業(yè)鏈有5個(gè)雙優(yōu)方向,潛力值得盯

錯(cuò)過三花智控別慌!人形機(jī)器人產(chǎn)業(yè)鏈有5個(gè)雙優(yōu)方向,潛力值得盯

侃故事的阿慶
2025-10-30 10:32:03
我喪偶獨(dú)居三年后才發(fā)現(xiàn):人一旦失去老伴,晚年生活將毫無意義

我喪偶獨(dú)居三年后才發(fā)現(xiàn):人一旦失去老伴,晚年生活將毫無意義

小馬達(dá)情感故事
2025-10-14 17:35:03
好萊塢惡魔制片人被重判146年,曾犯下多起惡性性侵及謀殺案件,受害女警作證后意外遭遇車禍身亡

好萊塢惡魔制片人被重判146年,曾犯下多起惡性性侵及謀殺案件,受害女警作證后意外遭遇車禍身亡

大風(fēng)新聞
2025-10-30 17:12:02
系統(tǒng)性變革!王勵(lì)勤調(diào)整國乒女隊(duì),雙核心確立,馬琳暫時(shí)離隊(duì)

系統(tǒng)性變革!王勵(lì)勤調(diào)整國乒女隊(duì),雙核心確立,馬琳暫時(shí)離隊(duì)

體育見習(xí)官
2025-10-30 12:13:05
歐盟招架不住了,坦言中國代表團(tuán)很是厲害,請求中方高抬貴手

歐盟招架不住了,坦言中國代表團(tuán)很是厲害,請求中方高抬貴手

貴州霖霖
2025-10-30 10:25:55
“血糖大戶”被揪出,是米飯的10倍!專家提醒:這3類食物要少吃

“血糖大戶”被揪出,是米飯的10倍!專家提醒:這3類食物要少吃

詩意世界
2025-08-23 22:21:46
曝竇靖童與宋妍霏已同住2年,超多情侶款被扒,前任是張一山

曝竇靖童與宋妍霏已同住2年,超多情侶款被扒,前任是張一山

葉公子
2025-10-30 13:16:15
2025-10-31 05:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11611文章數(shù) 142495關(guān)注度
往期回顧 全部

科技要聞

一夜"封神",黃仁勛的英偉達(dá),值半個(gè)A股

頭條要聞

比利時(shí)防長稱可將莫斯科“從地圖上抹去” 俄羅斯怒了

頭條要聞

比利時(shí)防長稱可將莫斯科“從地圖上抹去” 俄羅斯怒了

體育要聞

里夫斯送壓哨絕殺比肩韋斯特 你的里皇 確實(shí)猖狂!

娛樂要聞

江一燕自曝離婚,前夫身份曝光

財(cái)經(jīng)要聞

商務(wù)部:美方將暫?;蛉∠麑θA部分關(guān)稅

汽車要聞

最新鴻蒙座艙/AI云舒座椅 嵐圖泰山內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

家居
健康
藝術(shù)
教育
游戲

家居要聞

木美術(shù)館 重塑體驗(yàn)空間

核磁VS肌骨超聲,誰更勝一籌?

藝術(shù)要聞

你絕對想不到!這幅油畫竟能讓人瞬間陶醉!

教育要聞

在各圓的空缺部分分別填入1246,使每個(gè)圓中四個(gè)數(shù)的和都等于 15

Epic喜加二:恐怖游戲大放送!總價(jià)值138元 領(lǐng)到就賺

無障礙瀏覽 進(jìn)入關(guān)懷版 三级大香蕉视频一区二区三区| sehaodiao久久| 日本精品久久久久中文字幕19| 成人性爱视频在线观看| 国产高清不卡| 精品日韩99| 国产成人一区二区三区影院免费| 无码精品色午夜久久久| :少妇乱子伦| 97人妻精品一区二区三区免费| 国产91精品一区二区亚洲| 无码精品人妻一区二区三区av| 日韩国产图片区视频一区| 人妻丝袜AV中文系列先锋影音| 久久久精品久久久久久96| 人妻系列av无码久久不卡| 亚洲精品不卡av在线播放| 少妇泬喷水18p| 精品高潮久久久久| 精品久久久无码人妻中文字幕| 国产私伦一区二区三区| 四虎永久在线精品免费一区二| 国产精品免费久久久久软件| 亚洲精品久久久无码av片软件| 亚洲日韩婷婷色播| 国精产品一二三四区产品| 亚洲一区二区观看播放| 国产亲妺妺xXXX视频播放| 欧美va亚洲va在线观看| 国产亚洲精品aa片在线爽| 亚洲AV无码成人精国产麻| 超碰人人97在线| 99精品国产一区二区| 久产久精国产品| 边喂奶边中出的人妻| 欧美精品1卡二卡三卡四卡| 人妻色多多AⅤ久久www| 人人澡人人爱| 亚洲日韩AV直播| 国产亚洲精品综合一区二区| 精品国产乱码久久久久夜|