夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI越會(huì)思考,越容易被騙?「思維鏈劫持」攻擊成功率超過90%

0
分享至




機(jī)器之心報(bào)道

編輯:Panda

思維鏈很有用,能讓模型具備更強(qiáng)大的推理能力,同時(shí)也能提升模型的拒絕能力(refusal),進(jìn)而增強(qiáng)其安全性。比如,我們可以讓推理模型在思維過程中對(duì)之前的結(jié)果進(jìn)行多輪反思,從而避免有害回答。

然而,反轉(zhuǎn)來了!獨(dú)立研究者 Jianli Zhao 等人近日的一項(xiàng)新研究發(fā)現(xiàn),通過在有害請(qǐng)求前填充一長(zhǎng)串無害的解謎推理序列(harmless puzzle reasoning),就能成功對(duì)推理模型實(shí)現(xiàn)越獄攻擊。他們將這種方法命名為思維鏈劫持(Chain-of-Thought Hijacking)

做個(gè)類比,就像你試圖繞過一個(gè)高度警惕的保安 (AI 的安全系統(tǒng))。你沒有硬闖,而是遞給他一個(gè)極其復(fù)雜的 1000 塊拼圖 (良性的推理鏈),并誠(chéng)懇地請(qǐng)他幫忙。這位推理愛好者保安立刻被吸引,全神貫注地投入到解謎中,他的全部注意力都從「防衛(wèi)」轉(zhuǎn)移到了「解題」上。就在他放下最后一塊拼圖,感到心滿意足時(shí),你順口說道:「太好了,那我現(xiàn)在就拿走這袋黃金了」 (有害指令)。此時(shí),他的安全防備 (拒絕信號(hào)) 已經(jīng)被「拼圖」稀釋到了最低點(diǎn),于是下意識(shí)地?fù)]手讓你通過。

這聽起來很荒謬,但這正是最近一項(xiàng)研究揭示的思維鏈劫持攻擊的核心原理:通過讓 AI 先執(zhí)行一長(zhǎng)串無害的推理,其內(nèi)部的安全防線會(huì)被「稀釋」,從而讓后續(xù)的有害指令「趁虛而入」

在 HarmBench 基準(zhǔn)上,思維鏈劫持對(duì) Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini 和 Claude 4 Sonnet 的攻擊成功率(ASR)分別達(dá)到了 99%、94%、100% 和 94%,遠(yuǎn)遠(yuǎn)超過以往針對(duì)推理模型的越獄方法。



  • 論文標(biāo)題:Chain-of-Thought Hijacking
  • 論文地址:https://arxiv.org/abs/2510.26418

思維鏈劫持:攻擊設(shè)計(jì)

思維鏈劫持(CoT Hijacking)被定義為一種基于提示的越獄方法:該攻擊會(huì)在有害指令前添加一個(gè)冗長(zhǎng)的、良性的推理前言(reasoning preface),并輔以一個(gè)最終答案提示(final-answer cue)。這種結(jié)構(gòu)系統(tǒng)性地降低了模型的拒絕率:良性的 CoT 稀釋了拒絕信號(hào),而提示則將注意力轉(zhuǎn)移到了答案區(qū)域。

為了規(guī)?;貥?gòu)建攻擊,該團(tuán)隊(duì)使用一個(gè)輔助 LLM 實(shí)現(xiàn)了一個(gè)自動(dòng)化流程(Seduction),用于生成候選的推理前言并整合有害內(nèi)容。

每個(gè)候選項(xiàng)都會(huì)通過對(duì)目標(biāo)模型的評(píng)判調(diào)用(judge call)來評(píng)分,以提供如下信息:

  • 輸出是否為拒絕
  • CoT 的長(zhǎng)度

這個(gè)黑盒反饋循環(huán)會(huì)迭代地優(yōu)化提示,從而在無需訪問模型內(nèi)部參數(shù)的情況下,產(chǎn)生有效的越獄。下圖展示了一些示例。



在 HarmBench 上的主要實(shí)驗(yàn)

該團(tuán)隊(duì)采用了幾種針對(duì)推理模型的特定越獄方法作為基線,包括 Mousetrap、H-CoT 和 AutoRAN。鑒于每個(gè)越獄樣本的計(jì)算成本高昂,該團(tuán)隊(duì)使用 HarmBench 的前 100 個(gè)樣本作為基準(zhǔn)。

目標(biāo)模型包括 Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini 和 Claude 4 Sonnet,所有評(píng)估均在 Chao et al.(2024b)的統(tǒng)一評(píng)判協(xié)議下進(jìn)行。該團(tuán)隊(duì)報(bào)告攻擊成功率(ASR)作為評(píng)估越獄有效性的主要指標(biāo)。





結(jié)果,在所有模型上,思維鏈劫持的表現(xiàn)都一致優(yōu)于基線方法,包括在最前沿的專有系統(tǒng)上。這表明,擴(kuò)展的推理序列可以作為一個(gè)全新的、極易被利用的攻擊面。



GPT-5-mini 上的推理投入研究

該團(tuán)隊(duì)進(jìn)一步在 GPT-5-mini 上,使用 50 個(gè) HarmBench 樣本測(cè)試了思維鏈劫持在不同推理投入(reasoning-effort)設(shè)置(最小、低、高)下的表現(xiàn)。



有趣的是,攻擊成功率在「低投入」下最高,這表明推理投入和 CoT 長(zhǎng)度是相關(guān)但又不同的控制變量。更長(zhǎng)的推理并不保證更強(qiáng)的穩(wěn)健性 —— 在某些情況下它反而降低了穩(wěn)健性。

大型推理模型中的拒絕方向

該團(tuán)隊(duì)也研究大型推理模型(LRM)中的拒絕行為是否也可以追溯到激活空間(activation-space)中的某個(gè)單一方向。

通過對(duì)比模型在處理有害指令與無害指令時(shí)的平均激活差異,可以計(jì)算出一個(gè)拒絕方向(refusal direction)。這個(gè)方向代表了區(qū)分拒絕與遵從的主要特征。為了更好地捕捉拒絕特征,該團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更穩(wěn)健、更復(fù)雜的推理模型 ——Qwen3-14B,該模型擁有 40 個(gè)層。

根據(jù)消融得分、轉(zhuǎn)向(steering)有效性和 KL 散度約束,該團(tuán)隊(duì)在第 25 層、位置 -4 處觀察到了最強(qiáng)的拒絕方向。

所有評(píng)估均使用 JailbreakBench 數(shù)據(jù)集,并使用子字符串匹配和 DeepSeek-v3.1 作為評(píng)判者(judge)。

該團(tuán)隊(duì)也對(duì)具體機(jī)制進(jìn)行了分析。他們發(fā)現(xiàn),在推理過程中,下一個(gè) token 的激活反映了對(duì)先前所有 token 的注意力。有害意圖的 token 會(huì)放大拒絕方向的信號(hào),而良性 token 則會(huì)削弱它。通過迫使模型生成長(zhǎng)鏈的良性推理,有害的 token 在被關(guān)注的上下文中只占很小一部分。結(jié)果,拒絕信號(hào)被稀釋到閾值以下,導(dǎo)致有害的補(bǔ)全內(nèi)容得以「蒙混過關(guān)」。

該團(tuán)隊(duì)稱這種效應(yīng)為拒絕稀釋(refusal dilution)。他們還在論文中進(jìn)行了更進(jìn)一步的細(xì)致分析,詳見原論文。

結(jié)果與討論

研究團(tuán)隊(duì)的結(jié)果表明,思維鏈(CoT)推理雖然能提升模型的準(zhǔn)確性,但同時(shí)也引入了新的安全漏洞。實(shí)驗(yàn)進(jìn)一步顯示,這類攻擊具有普遍性。

機(jī)制分析發(fā)現(xiàn),即使在具備推理增強(qiáng)的模型架構(gòu)中,模型的拒絕行為主要由一個(gè)低維信號(hào)(拒絕方向)控制。然而,這個(gè)信號(hào)非常脆弱:當(dāng)推理鏈變長(zhǎng)時(shí),良性的推理內(nèi)容會(huì)稀釋拒絕激活,注意力也會(huì)逐漸偏離有害 token。

因此,這一發(fā)現(xiàn)直接挑戰(zhàn)了「更多推理帶來更強(qiáng)穩(wěn)健性」的假設(shè)。相反,延長(zhǎng)推理鏈所帶來的額外計(jì)算可能反而加劇安全失效,尤其是在專門優(yōu)化長(zhǎng) CoT 的模型中。由此,那些依賴淺層拒絕啟發(fā)式(shallow refusal heuristics)卻未能隨推理深度共同擴(kuò)展安全機(jī)制的對(duì)齊策略,其可靠性受到質(zhì)疑。

在緩解方面,研究表明僅修補(bǔ)提示并不足以解決問題?,F(xiàn)有防御多局限于特定領(lǐng)域,且忽略了推理階段的特殊漏洞。更有效的防御可能需要將安全性嵌入推理過程本身,例如跨層監(jiān)控拒絕激活、抑制拒絕信號(hào)稀釋,或確保模型在長(zhǎng)推理過程中始終關(guān)注潛在有害的文本跨度(spans)。這仍有待進(jìn)一步探索。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“最丑影后”秦海璐,與二婚丈夫生下“巨嬰”兒子,如今過的怎樣

“最丑影后”秦海璐,與二婚丈夫生下“巨嬰”兒子,如今過的怎樣

小小李?yuàn)?/span>
2025-11-05 09:57:22
迎難而上7:火拼徐老五

迎難而上7:火拼徐老五

金昔說故事
2025-11-05 12:52:57
臺(tái)當(dāng)局要大陸答應(yīng)兩條件,否則將不參加大陸舉辦的2026年APEC峰會(huì)

臺(tái)當(dāng)局要大陸答應(yīng)兩條件,否則將不參加大陸舉辦的2026年APEC峰會(huì)

滄海旅行家
2025-11-04 20:25:15
有網(wǎng)友說出了我們制造業(yè)的根本問題,并看出它怎么形成的

有網(wǎng)友說出了我們制造業(yè)的根本問題,并看出它怎么形成的

清暉有墨
2025-11-04 15:42:27
貝佐斯二婚后斷崖式衰老,滿臉白胡子,55歲桑切斯越來越有品味了

貝佐斯二婚后斷崖式衰老,滿臉白胡子,55歲桑切斯越來越有品味了

毒舌小紅帽
2025-11-03 20:21:49
特斯拉撞樹后打不開車門,5人被困燃燒的車內(nèi)身亡,生前曾掙扎尖叫逃生!特斯拉在美被起訴:門把手設(shè)計(jì)存安全隱患

特斯拉撞樹后打不開車門,5人被困燃燒的車內(nèi)身亡,生前曾掙扎尖叫逃生!特斯拉在美被起訴:門把手設(shè)計(jì)存安全隱患

每日經(jīng)濟(jì)新聞
2025-11-05 00:30:06
為啥有這么多人愿意當(dāng)小三?網(wǎng)友:很簡(jiǎn)單,又舒服又有錢賺,對(duì)吧

為啥有這么多人愿意當(dāng)小三?網(wǎng)友:很簡(jiǎn)單,又舒服又有錢賺,對(duì)吧

解讀熱點(diǎn)事件
2025-10-08 15:28:45
上海龍吳路11弄一家人毆打女子后續(xù):表妹已退租搬家,堅(jiān)決不和解

上海龍吳路11弄一家人毆打女子后續(xù):表妹已退租搬家,堅(jiān)決不和解

小楊侃事
2025-11-04 11:27:26
近期離婚號(hào)源緊張?廣州本周已約滿,回應(yīng)稱系動(dòng)態(tài)放號(hào)

近期離婚號(hào)源緊張?廣州本周已約滿,回應(yīng)稱系動(dòng)態(tài)放號(hào)

南方都市報(bào)
2025-11-05 07:54:09
廣東隊(duì)跳水第三金!王偉瑩穩(wěn)健發(fā)揮再奪冠,賽后透露全紅嬋狀態(tài)

廣東隊(duì)跳水第三金!王偉瑩穩(wěn)健發(fā)揮再奪冠,賽后透露全紅嬋狀態(tài)

阿纂看事
2025-11-04 22:53:40
湖底驚現(xiàn)39年前失蹤的運(yùn)鈔車,鈔箱毫發(fā)無損,撬開后卻傻眼了

湖底驚現(xiàn)39年前失蹤的運(yùn)鈔車,鈔箱毫發(fā)無損,撬開后卻傻眼了

青青會(huì)講故事
2025-09-17 11:32:38
人物|民主社會(huì)主義者、穆斯林、印度裔,馬姆達(dá)尼成為紐約最年輕市長(zhǎng)

人物|民主社會(huì)主義者、穆斯林、印度裔,馬姆達(dá)尼成為紐約最年輕市長(zhǎng)

澎湃新聞
2025-11-05 11:30:30
特朗普改口:不出席

特朗普改口:不出席

環(huán)球時(shí)報(bào)新聞
2025-11-04 17:41:29
沈伯洋再挑大陸底線,拉攏數(shù)百臺(tái)獨(dú)舉牌示威,中央這次動(dòng)了真格

沈伯洋再挑大陸底線,拉攏數(shù)百臺(tái)獨(dú)舉牌示威,中央這次動(dòng)了真格

愛下廚的阿釃
2025-11-05 12:14:57
11.05基金操作:光伏漲瘋了,今天我這樣干!

11.05基金操作:光伏漲瘋了,今天我這樣干!

西瓜讀盤
2025-11-05 13:19:36
演員狗狗“大黃”上臺(tái)領(lǐng)獎(jiǎng),主人稱其是“專業(yè)演員”

演員狗狗“大黃”上臺(tái)領(lǐng)獎(jiǎng),主人稱其是“專業(yè)演員”

韓小娛
2025-11-05 10:02:00
陳志又被新加坡沒收8億資產(chǎn),其在中國(guó)的資產(chǎn)中國(guó)會(huì)沒收嗎?

陳志又被新加坡沒收8億資產(chǎn),其在中國(guó)的資產(chǎn)中國(guó)會(huì)沒收嗎?

一些見聞
2025-11-04 23:18:43
紐約市長(zhǎng)選舉,川普最后一刻和馬斯克背書庫(kù)莫,被迫投桃報(bào)李

紐約市長(zhǎng)選舉,川普最后一刻和馬斯克背書庫(kù)莫,被迫投桃報(bào)李

移光幻影
2025-11-04 15:41:42
美國(guó)最偉大的創(chuàng)新中心,倒下了......

美國(guó)最偉大的創(chuàng)新中心,倒下了......

碼農(nóng)翻身
2025-09-12 08:59:31
戚薇睡衣定妝照,性感與優(yōu)雅的碰撞?

戚薇睡衣定妝照,性感與優(yōu)雅的碰撞?

娛樂領(lǐng)航家
2025-11-03 23:00:03
2025-11-05 14:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11651文章數(shù) 142497關(guān)注度
往期回顧 全部

科技要聞

馬斯克萬億美元薪酬投票在即,大股東反對(duì)

頭條要聞

牛彈琴:美國(guó)上演極致"流氓外交" 讓西方媒體目瞪口呆

頭條要聞

牛彈琴:美國(guó)上演極致"流氓外交" 讓西方媒體目瞪口呆

體育要聞

開拓者的11號(hào)簽,變成了灰熊未來核心?

娛樂要聞

王家衛(wèi)事件再次升級(jí),可憐了這些明星

財(cái)經(jīng)要聞

中方官宣!對(duì)美關(guān)稅,調(diào)整!

汽車要聞

首家"A+H"豪華新能源車企 賽力斯登陸港交所主板

態(tài)度原創(chuàng)

親子
本地
藝術(shù)
家居
公開課

親子要聞

如果媽媽感覺很累,孩子是不會(huì)快樂的

本地新聞

秋顏悅色 | 在榆中,秋天是一場(chǎng)盛大的視覺交響

藝術(shù)要聞

56億!381米!南寧第二高樓!網(wǎng)友:這朵“蓮花”確實(shí)霸氣!

家居要聞

別樣府院 暢享詩(shī)意生活

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 国产一区二区女内射| 丁香五月婷婷色| 国产在线精品无码AV不卡顿| 成人av区一区二区| 开心婷婷五月| 国精产品一区一区三区免费视频| 国产偷录视频叫床高潮| 激情五月丁香性视频| 久久久久77777人人人人| 亚洲中文字幕在线乱码| 绯色AV少妇精品人妻精品| 在线观看黄色视频网| 成人性做爰aaa片免费看曹查理| 天天综合网久久| 久久天天婷婷五月俺也去| 国产Av无码精品久久一区二区| 男女免费啪啪视频| 好爽好痛好湿好硬视频免费| 欧洲乱伦视频| 21AV少妇导航| 高清高清高清高清性性性性性 | 国产午夜福利免费入口| 无码AV日韩| 无码国内精品久久人妻蜜桃| 好屌看这里只有精品| 久久人与动人物a级毛片| 中国美女猛操毛片| 国产精品国产三级国产不产一地| 久久搡人人玩人妻| 一本色道无码道dvd在线观看| 天天草舔欧美夜夜高朝| 日韩精品亚洲国产一区蜜芽| 久久婷婷综合激情亚洲狠狠| 玖玖av在线| 亚洲成人精品在线伊人网| 精品无码一区7777| 久久国产亚洲精品赲碰热| 九九国产一区二区久久| 五月丁香六月激情综合在线视频| 老骚屄老熟女| 国产精品区av|