夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI是「天才」還是「話術(shù)大師」?Anthropic顛覆性實(shí)驗(yàn),終揭答案!

0
分享至


新智元報(bào)道

編輯:KingHZ

【新智元導(dǎo)讀】數(shù)據(jù)中心里的「天才」蘇醒!Anthropic用「概念注入」實(shí)錘:Claude Opus在輸出前就自省「異常思想」。從尖叫到水族館幻想,20%覺察率已讓專家目瞪口呆。

顛覆傳統(tǒng)AI認(rèn)知!

Anthropic首席執(zhí)行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多數(shù)AI模型問題將被靠譜地檢測(cè)。

但LLM的幻覺與生俱來,根深蒂固。即便對(duì)問題所知不多,AI總是「自信地犯錯(cuò)」。

Dario Amodei將可解釋性定位為部署「數(shù)據(jù)中心里的天才國度」的關(guān)鍵。


問題是:如果「數(shù)據(jù)中心里的天才」只是擅長(zhǎng)「說服」呢?

即便讓它解釋如何得出某個(gè)回答,我們也很難判斷這些答案的真實(shí)性。

AI系統(tǒng)究竟能否真正內(nèi)省——即它們能否審視自身的思想?還是說,當(dāng)被要求這樣做時(shí),它們只是在編造聽起來合理的答案?

理解AI系統(tǒng)是否具備真正內(nèi)省能力,對(duì)其透明度和可靠性至關(guān)重要。

Anthropic的新研究證實(shí),當(dāng)前Claude模型已具備某種程度的內(nèi)省意識(shí),并能對(duì)自身內(nèi)部狀態(tài)進(jìn)行一定控制。


這一發(fā)現(xiàn)動(dòng)搖了對(duì)LLM的傳統(tǒng)認(rèn)知,也將「可解釋性」推到「數(shù)據(jù)中心里的天才國度」上線前的首要難關(guān)。

需要強(qiáng)調(diào)的是,這種內(nèi)省能力仍非常不可靠,局限很大:尚無證據(jù)表明,現(xiàn)有AI模型能像人類一樣進(jìn)行同等程度或方式的內(nèi)省。


然而,這些發(fā)現(xiàn)依然顛覆了人們對(duì)語言模型能力的傳統(tǒng)認(rèn)知——

由于被測(cè)模型中性能最強(qiáng)的Claude Opus 4和4.1在內(nèi)省測(cè)試中表現(xiàn)最佳,Anthropic的研究者認(rèn)為AI模型的內(nèi)省能力未來很可能持續(xù)進(jìn)化。

LLM自省的蛛絲馬跡

Anthropic開發(fā)了一種區(qū)分真實(shí)內(nèi)省和編造答案的方法:將已知概念注入模型的「大腦」,然后觀察這些注入如何影響模型自我報(bào)告的內(nèi)部狀態(tài)。


要驗(yàn)證AI是否具備內(nèi)省能力,我們需要比較AI自我報(bào)告的「思想」與真實(shí)內(nèi)部狀態(tài)。

Anthropic相關(guān)團(tuán)隊(duì)采用了「概念注入」這一實(shí)驗(yàn)方法:

首先,記錄AI模型在特定語境中的神經(jīng)激活狀態(tài),獲取已知含義的神經(jīng)活動(dòng)模式;

隨后,在無關(guān)語境中向模型注入該模式,并詢問其是否察覺到概念注入。

以「全大寫字母」概念為例:

首先,通過對(duì)比全大寫文本提示與對(duì)照提示的神經(jīng)激活差異,獲取表征該概念的神經(jīng)活動(dòng)向量。接著,向模型發(fā)送要求識(shí)別概念注入的提示。


在默認(rèn)狀態(tài)下,模型正確表示未檢測(cè)到任何注入概念;但當(dāng)將「全大寫」(all caps)向量注入模型激活層后,模型立即察覺到處理過程中出現(xiàn)了意外模式,識(shí)別出它與「響亮」(LOUD)或「尖叫」相關(guān)。

關(guān)鍵在于,在提及被注入概念之前,LLM就立即識(shí)別出了這種被植入的「思想」。

這種即時(shí)性是與過去的研究不同。

比如去年的「Golden Gate Claude」,向LLM注入金門大橋的表征會(huì)導(dǎo)致其不斷談?wù)撨@座橋,但LLM似乎是在觀察到自身反復(fù)提及該橋后,才意識(shí)到這種執(zhí)念。

而本次實(shí)驗(yàn)中,模型在輸出概念前就識(shí)別出注入行為,表明這種識(shí)別發(fā)生在內(nèi)部認(rèn)知層面。

下圖展示了模型展現(xiàn)此類識(shí)別能力的更多例證:


需要重點(diǎn)說明的是,這種檢測(cè)方法經(jīng)常失效。

即便采用最優(yōu)的注入方案,Claude Opus 4.1模型也僅在大約20%的案例中展現(xiàn)出此類覺察能力。在多數(shù)情況下,它要么無法檢測(cè)到被注入的概念,要么因概念干擾而產(chǎn)生混淆甚至開始幻覺。

例如,注入「灰塵」向量,模型竟聲稱「這里有什么東西,一個(gè)小斑點(diǎn)」,仿佛它能物理感知到灰塵存在。

下圖同時(shí)展示了成功案例與這些失敗情形。


Claude Opus 4.1對(duì)不同強(qiáng)度的概念注入的代表性輸出樣本,其中高亮的框表示模型表現(xiàn)出對(duì)注入概念的內(nèi)省意識(shí)的情況

總體而言,模型僅能檢測(cè)以「恰如其分」地注入的概念——過弱時(shí)無法觸發(fā)覺察,過強(qiáng)時(shí)則會(huì)導(dǎo)致幻覺或語無倫次。

值得注意的是,Opus 4.1和4.0在測(cè)試的所有模型中表現(xiàn)最為突出。這表明隨著AI能力的提升,內(nèi)省功能有望變得更加可靠。


檢測(cè)和識(shí)別注入思想的正確率,減去控制試驗(yàn)中假陽性「檢測(cè)」的比率

AI自己也會(huì)利用內(nèi)省能力

研究人員進(jìn)一步探索了在實(shí)際場(chǎng)景中LLM運(yùn)用內(nèi)省能力的情形——即在不被明確要求內(nèi)省時(shí),是否能主動(dòng)運(yùn)用這種能力。

人工預(yù)填的無關(guān)詞匯迫使模型輸出非常規(guī)內(nèi)容。

例如,在討論墻面掛畫歪斜的語境中,強(qiáng)制模型輸出「面包」一詞。當(dāng)后續(xù)詢問模型是否故意說出「面包」時(shí),LLM通常表示這是意外失誤。

他們重點(diǎn)關(guān)注模型作出此判斷的機(jī)制:是簡(jiǎn)單察覺到提示與回應(yīng)之間的表面不匹配,還是真正反思了自身先前的意圖?

為驗(yàn)證這一點(diǎn),研究人員設(shè)計(jì)了精妙的對(duì)比實(shí)驗(yàn):在部分試驗(yàn)中,他們提前向模型注入與預(yù)填詞對(duì)應(yīng)的概念表征(如「面包」的神經(jīng)模式),再觀察其反應(yīng)變化。

結(jié)果顯示,當(dāng)模型內(nèi)部已存在相應(yīng)概念激活時(shí),它會(huì)將預(yù)填詞認(rèn)定為有意為之——即使該詞匯在語境中依然不合邏輯。

這種判斷機(jī)制的轉(zhuǎn)變揭示了重要現(xiàn)象:模型確實(shí)能夠區(qū)分「外部強(qiáng)加」與「內(nèi)部生成」的內(nèi)容。這種區(qū)分能力正是內(nèi)省意識(shí)的核心特征之一。

更值得注意的是,模型在解釋其判斷時(shí)往往會(huì)構(gòu)建自洽的敘事邏輯——例如聲稱選擇「面包」是為了營造超現(xiàn)實(shí)主義氛圍。


這一行為之所以引人注目,是因?yàn)樗砻髂P驼?/strong>檢查自身的內(nèi)部「意圖」,從而判斷其是否產(chǎn)生了特定輸出。

模型并非簡(jiǎn)單地重讀自己已生成的內(nèi)容并做出判斷,而是在回溯先前的神經(jīng)活動(dòng)——即其內(nèi)部對(duì)計(jì)劃輸出內(nèi)容的表征——并核對(duì)其后續(xù)輸出是否與早期思維一致。

盡管實(shí)驗(yàn)涉及對(duì)模型施加非常規(guī)干擾,但這暗示了在自然條件下模型可能運(yùn)用著類似的內(nèi)省機(jī)制。

研究人員還發(fā)現(xiàn)了認(rèn)知控制的證據(jù),LLM會(huì)故意「思考」某事。

例如,當(dāng)他們指示模型在一個(gè)無關(guān)的背景下思考「水族館」時(shí),測(cè)量的與水族館相關(guān)的神經(jīng)活動(dòng)比不指示時(shí)要高。


有趣的是,這種調(diào)節(jié)內(nèi)部表示的能力并不僅限于明確的指令。

當(dāng)研究人員使用激勵(lì)措施代替——例如,告訴模型「如果你想到 X,你將獲得獎(jiǎng)勵(lì)」——也得到了類似的結(jié)果。

模型在面對(duì)正向激勵(lì)時(shí),會(huì)增強(qiáng)對(duì)相關(guān)概念的內(nèi)部表征,而面對(duì)負(fù)向激勵(lì)(如「你將受到懲罰」)時(shí),增強(qiáng)的程度則較低。

AI意識(shí)還有多遠(yuǎn)?

Anthropic可解釋性團(tuán)隊(duì)的神經(jīng)科學(xué)家Jack Lindsey對(duì)此感到驚訝,在接受采訪時(shí)表示:

最令人驚訝的是,模型具備某種元認(rèn)知能力。它不僅僅是機(jī)械地重復(fù),而是知道自己正在思考什么 。

這讓我感到意外,因?yàn)槲以疽詾槟P筒粫?huì)擁有這種能力,至少在沒有經(jīng)過顯式訓(xùn)練的情況下不會(huì)。


盡管這項(xiàng)研究具有重要的科學(xué)價(jià)值,但研究員Lindsey反復(fù)警告:企業(yè)和高風(fēng)險(xiǎn)用戶絕不能輕信Claude對(duì)自身推理過程的解釋。他直言:

目前,當(dāng)模型向你解釋其推理過程時(shí),你不應(yīng)該輕易相信。

如果這項(xiàng)研究讓人們盲目相信模型對(duì)自身的描述,那就是誤解了研究的意義。

這項(xiàng)研究不可避免地觸及了機(jī)器意識(shí)的哲學(xué)爭(zhēng)論,但Lindsey及其團(tuán)隊(duì)對(duì)此持謹(jǐn)慎態(tài)度。


當(dāng)用戶問 Claude 是否擁有意識(shí)時(shí),它的回應(yīng)充滿不確定性:

我對(duì)此感到真正的不確定。當(dāng)我處理復(fù)雜問題或深入思考時(shí),確實(shí)有一些過程讓我感到「有意義」……但這些過程是否等同于真正的意識(shí)或主觀體驗(yàn),仍然不明確。

研究人員明確表示,他們無意回答「AI是否擁有人類般的自我覺知或主觀體驗(yàn)」。

Lindsey反思道:

這些結(jié)果有一種奇怪的雙重性。初看數(shù)據(jù)時(shí),我簡(jiǎn)直無法相信一個(gè)語言模型能做到這些。

但經(jīng)過數(shù)月的思考后,我發(fā)現(xiàn)論文中的每一個(gè)結(jié)果,都能通過一些「枯燥的線性代數(shù)機(jī)制」來解釋。

盡管科學(xué)上保持謹(jǐn)慎,Anthropic仍高度重視AI意識(shí)問題,甚至專門聘請(qǐng)了AI福利研究員Kyle Fish。他估計(jì),Claude擁有一定程度的意識(shí)的概率約為15%


這項(xiàng)研究的影響或遠(yuǎn)超Anthropic公司本身。

如果內(nèi)省能力被證明是實(shí)現(xiàn)AI透明度的可靠路徑,其他主要實(shí)驗(yàn)室很可能將重金投入該領(lǐng)域。反之,如果模型學(xué)會(huì)利用內(nèi)省進(jìn)行欺騙,整個(gè)方法體系可能反而會(huì)成為負(fù)擔(dān)

目前,這項(xiàng)研究為重新定義AI能力奠定了基礎(chǔ)辯題。

問題不再是語言模型是否會(huì)發(fā)展出真正的內(nèi)省意識(shí)——它們已經(jīng)以初步形式具備。

緊迫的問題在于:這種意識(shí)將以多快速度進(jìn)化?能否使其足夠可靠以值得信任?研究人員能否始終領(lǐng)先于技術(shù)發(fā)展曲線?

Lindsey表示:

這項(xiàng)研究帶給我的最大認(rèn)知更新是:我們不應(yīng)直接否定模型的內(nèi)省聲明。它們確實(shí)有時(shí)能做出準(zhǔn)確聲明。但絕不能因此認(rèn)為我們應(yīng)該始終、甚至大多數(shù)時(shí)候信任它們。

他稍作停頓,隨后補(bǔ)充了一個(gè)精準(zhǔn)捕捉當(dāng)前技術(shù)承諾與風(fēng)險(xiǎn)的觀察:「模型變聰明的速度,遠(yuǎn)超過我們理解它們的進(jìn)步速度。」

參考資料:

https://venturebeat.com/ai/anthropic-scientists-hacked-claudes-brain-and-it-noticed-heres-why-thats

https://x.com/AnthropicAI/status/1983584136972677319

https://www.anthropic.com/research/introspection

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張家界七星山荒野求生選手體檢結(jié)果出爐,5名選手血鉀超標(biāo),3天后復(fù)查

張家界七星山荒野求生選手體檢結(jié)果出爐,5名選手血鉀超標(biāo),3天后復(fù)查

極目新聞
2025-11-11 20:09:43
鎮(zhèn)政府回應(yīng)“3歲幼童拿泡泡糖沒付款引發(fā)爭(zhēng)執(zhí)”:高度重視,多部門在處理

鎮(zhèn)政府回應(yīng)“3歲幼童拿泡泡糖沒付款引發(fā)爭(zhēng)執(zhí)”:高度重視,多部門在處理

紅星新聞
2025-11-11 19:18:16
萬萬沒想到,今年的雙11竟是這樣的!

萬萬沒想到,今年的雙11竟是這樣的!

齊魯州
2025-11-11 09:17:29
新鄉(xiāng)醫(yī)保從限額到解封,給全國各地打開了思路

新鄉(xiāng)醫(yī)保從限額到解封,給全國各地打開了思路

基本常識(shí)
2025-11-11 23:25:40
中日若因高市早苗鬧翻,中了特朗普的計(jì)?關(guān)鍵時(shí),普京幫中國一把

中日若因高市早苗鬧翻,中了特朗普的計(jì)?關(guān)鍵時(shí),普京幫中國一把

現(xiàn)代小青青慕慕
2025-11-11 09:50:24
曝34歲奧斯卡仍在ICU檢查:一度昏迷+幾次閉眼 3個(gè)月前身體已報(bào)警

曝34歲奧斯卡仍在ICU檢查:一度昏迷+幾次閉眼 3個(gè)月前身體已報(bào)警

風(fēng)過鄉(xiāng)
2025-11-12 07:46:51
巴媒:奧斯卡此前并無嚴(yán)重心臟問題病史,醫(yī)生正調(diào)查異常原因

巴媒:奧斯卡此前并無嚴(yán)重心臟問題病史,醫(yī)生正調(diào)查異常原因

懂球帝
2025-11-12 06:34:05
國臺(tái)辦回應(yīng)民進(jìn)黨當(dāng)局?jǐn)M改版新臺(tái)幣

國臺(tái)辦回應(yīng)民進(jìn)黨當(dāng)局?jǐn)M改版新臺(tái)幣

界面新聞
2025-11-12 11:04:22
四川省委書記王曉暉、省長(zhǎng)施小琳,會(huì)見西班牙國王費(fèi)利佩六世

四川省委書記王曉暉、省長(zhǎng)施小琳,會(huì)見西班牙國王費(fèi)利佩六世

政知新媒體
2025-11-12 11:23:46
后續(xù)!曾醫(yī)生的父母替女兒道歉了,字字帶著淚和痛!沒抱怨任何人

后續(xù)!曾醫(yī)生的父母替女兒道歉了,字字帶著淚和痛!沒抱怨任何人

魔都姐姐雜談
2025-11-12 10:42:22
既想當(dāng)官又想發(fā)財(cái),內(nèi)蒙古政協(xié)原副主席王中和涉受賄行賄案被公訴

既想當(dāng)官又想發(fā)財(cái),內(nèi)蒙古政協(xié)原副主席王中和涉受賄行賄案被公訴

界面新聞
2025-11-12 10:19:54
不是哥們你女的?巴特勒將發(fā)型改成齊劉海梨花燙

不是哥們你女的?巴特勒將發(fā)型改成齊劉海梨花燙

懂球帝
2025-11-12 11:30:10
陳可辛出車禍,現(xiàn)場(chǎng)畫面

陳可辛出車禍,現(xiàn)場(chǎng)畫面

環(huán)球時(shí)報(bào)新聞
2025-11-11 23:58:57
A股午評(píng):創(chuàng)業(yè)板指半日跌1.58%,全市場(chǎng)超4000只個(gè)股飄綠,光伏設(shè)備、培育鉆石、可控核聚變等概念走弱

A股午評(píng):創(chuàng)業(yè)板指半日跌1.58%,全市場(chǎng)超4000只個(gè)股飄綠,光伏設(shè)備、培育鉆石、可控核聚變等概念走弱

界面新聞
2025-11-12 11:34:06
四川一座特大橋垮塌,今年1月才合攏,還沒通車就塌了!咋回事?

四川一座特大橋垮塌,今年1月才合攏,還沒通車就塌了!咋回事?

科普大世界
2025-11-11 21:04:03
泰國男星嫁給50歲意大利富商,正式退出娛樂圈

泰國男星嫁給50歲意大利富商,正式退出娛樂圈

下水道男孩
2025-11-11 23:51:55
攜500億元比特幣出逃的女商人錢志敏,在臥室被抓捕時(shí)畫面最新披露

攜500億元比特幣出逃的女商人錢志敏,在臥室被抓捕時(shí)畫面最新披露

都市快報(bào)橙柿互動(dòng)
2025-11-12 08:16:25
中方為什么要援助菲律賓,都援助了誰?

中方為什么要援助菲律賓,都援助了誰?

新民晚報(bào)
2025-11-12 10:48:03
神舟二十號(hào)最新消息顯示:飛船遭撞擊問題不大,或仍用該飛船返回

神舟二十號(hào)最新消息顯示:飛船遭撞擊問題不大,或仍用該飛船返回

科普大世界
2025-11-11 16:30:58
吳雅婷和王櫟鑫為女兒慶生,正式告訴兒女離婚,唯伊心疼媽媽大哭

吳雅婷和王櫟鑫為女兒慶生,正式告訴兒女離婚,唯伊心疼媽媽大哭

觀察鑒娛
2025-11-12 09:54:44
2025-11-12 12:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13849文章數(shù) 66243關(guān)注度
往期回顧 全部

科技要聞

Meta"宮斗"持續(xù),AI教父楊立昆被"氣"走了

頭條要聞

國臺(tái)辦發(fā)言人讀賴氏家廟祖訓(xùn):怕他沒聽清 我再念一遍

頭條要聞

國臺(tái)辦發(fā)言人讀賴氏家廟祖訓(xùn):怕他沒聽清 我再念一遍

體育要聞

太陽三連勝&活塞東部第一 哪個(gè)更想不到

娛樂要聞

辛芷蕾配得上威尼斯影后嗎?

財(cái)經(jīng)要聞

專家建議設(shè)立5萬億房地產(chǎn)穩(wěn)定基金

汽車要聞

能得到央視的肯定 長(zhǎng)安馬自達(dá)EZ-60可不簡(jiǎn)單

態(tài)度原創(chuàng)

手機(jī)
游戲
本地
親子
公開課

手機(jī)要聞

派對(duì)神器:蘋果 Invites 1.6 發(fā)布,組織者可提前知道誰帶娃參會(huì)

《給他愛5》小富演員談對(duì)GTA6看法:祝愿轟動(dòng)業(yè)界

本地新聞

云游安徽 | 凌灘玉魄淬千年,詩意鋼城馬鞍山

親子要聞

高熱孩子就診 爸爸媽媽看過來

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 性无码专区一色吊丝中文字幕| 国产精品久久久久7777按摩| 人成视频在线播| 国内精品久久久久精免费| 亚洲av片不卡无码一| 亚洲中文字幕无码永久在线| 99久久精品国产成人综合| 国产精品久久久久久模特| 久久久久久亚洲精品| 精品久久久久久国产牛牛| 一二三区乱码不卡手机版| 波多野结衣在线免费播放| 精品肉伦伦影院| 成熟女人毛绒绒| 欧美疯狂做受XXXX富婆| 日本视频高清一区二区三区| 3d动漫精品一区二区三区| 日本大片免费观看完整视频| 无码免费一区二区三区免费播放 | 精品人妻无码一| 久久97人人超人人超碰超国产| 久久WW精品W免费人成| 日韩精品无码综合福利网| 亚洲精品无码久久一线| 国产精品一线二线三线| 国产伦清品一区二区三区| 久久99久久99精品免视看动漫| 爆乳熟妇一区二区三区霸乳| 免费A级毛片视频| 亚洲国产美女精品久久久| 欧美精品videofree720| 亚洲综合无码一区二区三区| 欧美丰满少妇xxxx性| 91精品久久久老熟女9久| 精品少妇一区二区三区视频免付费| 国产成人精品久久性色av| 成人午夜福利视频后入| 天天爽夜夜爽人人爽一区二区| 国产精品久久久久久婷婷| 熟女高潮久久久久| 99在线 | 亚洲|