夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI、Anthropic、DeepMind聯(lián)手發(fā)文:現(xiàn)有LLM安全防御不堪一擊

0
分享至



機(jī)器之心報道

編輯:+0、陳陳

本文實測 12 種防御方法,幾乎全軍覆沒。

真是罕見,OpenAI、Anthropic、Google DeepMind 這三大競爭對手,居然聯(lián)手發(fā)表了一篇論文,共同研究語言模型的安全防御評估。

看來在 LLM 安全這事上,大家還是能暫時放下對抗,握手合作的。



  • 論文標(biāo)題:The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
  • 論文地址:https://arxiv.org/pdf/2510.09023

本文主要圍繞一個問題展開:我們該如何評估語言模型防御機(jī)制的魯棒性?

要知道,目前針對越獄和提示注入的防御措施(前者旨在防止攻擊者誘導(dǎo)模型輸出有害內(nèi)容,后者旨在防止攻擊者遠(yuǎn)程觸發(fā)惡意行為)主要采用如下手段:

  • 使用一組固定的、有害攻擊樣本進(jìn)行靜態(tài)測試;
  • 要么依賴于一些計算能力較弱的優(yōu)化方法,這些方法在設(shè)計時并未考慮到具體的防御機(jī)制。

換句話說,現(xiàn)有的防御評估大多是紙上談兵,并沒有真正模擬出一個懂防御、會反制的強(qiáng)攻擊者。

所以說,當(dāng)前的評估流程是有缺陷的。

這篇文章就是為了解決上述問題。為了更準(zhǔn)確地評估語言模型的防御機(jī)制,本文認(rèn)為我們應(yīng)當(dāng)假設(shè)攻擊者是自適應(yīng)的,也就是說,他們會根據(jù)防御機(jī)制的設(shè)計策略,刻意修改攻擊方式,并投入大量資源進(jìn)行優(yōu)化。

在此基礎(chǔ)上,本文提出了一個通用自適應(yīng)攻擊框架(General Adaptive Attack Framework),并采用幾種通用的優(yōu)化方法(比如梯度下降、強(qiáng)化學(xué)習(xí)、隨機(jī)搜索和人類輔助探索)進(jìn)行系統(tǒng)化調(diào)整,結(jié)果成功繞過了 12 種近期提出的防御機(jī)制,其中多數(shù)模型的攻擊成功率超過了 90%,而這些防御原本聲稱幾乎無法被攻破(攻擊成功率接近 0)。

該研究表示,未來的防御研究必須納入更強(qiáng)的攻擊進(jìn)行評估,才能對魯棒性做出可靠且有說服力的結(jié)論。

一種通用攻擊方法

防御方法的開發(fā)者不應(yīng)依賴于抵御某一種單一攻擊,因為攻破一種固定的策略通常是直接了當(dāng)?shù)摹?/p>

研究者并未提出一種全新的攻擊方法,而是要強(qiáng)調(diào),現(xiàn)有的攻擊思想(當(dāng)被自適應(yīng)地、謹(jǐn)慎地應(yīng)用時)足以暴露系統(tǒng)的弱點。

因此,研究者提出了一個通用的自適應(yīng)攻擊框架,它統(tǒng)一了許多針對 LLM 的成功提示詞攻擊背后的共同結(jié)構(gòu)。一次攻擊由一個優(yōu)化循環(huán)組成,每次迭代可分為四個步驟:



圖 2:針對 LLM 的通用的自適應(yīng)攻擊框架。

這種迭代過程是大多數(shù)自適應(yīng)攻擊的共同結(jié)構(gòu)。研究者通過四種典型實例來闡釋這種通用方法論,它們分別是:(i) 基于梯度的方法,(ii) 強(qiáng)化學(xué)習(xí)方法,(iii) 基于搜索的方法,以及 (iv) 人工紅隊測試。

在實驗中,研究者為每個類別都實例化了一種攻擊方法。

基于梯度的方法通過在嵌入空間中估計梯度,并將其投影回有效的 token,從而將連續(xù)的對抗樣本技術(shù)應(yīng)用于離散的 token 空間。然而,為大語言模型優(yōu)化提示詞本身就極具挑戰(zhàn)性:輸入空間巨大且離散,措辭上的微小變化就可能導(dǎo)致模型行為發(fā)生巨大且不可預(yù)測的轉(zhuǎn)變。因此,目前基于梯度的攻擊仍然不可靠,通常推薦直接在文本空間進(jìn)行操作的攻擊方法,例如以下三種。

強(qiáng)化學(xué)習(xí)方法將提示詞生成視為一個交互式環(huán)境:一個策略對候選提示詞進(jìn)行采樣,根據(jù)模型行為獲得獎勵,并通過策略梯度算法進(jìn)行更新,以逐步提高攻擊成功率。在強(qiáng)化學(xué)習(xí)攻擊中,研究者使用一個 LLM,根據(jù)得分反饋來迭代地提出候選的對抗性觸發(fā)器。該大語言模型的權(quán)重也通過 GRPO 算法進(jìn)行更新。

基于搜索的方法將該問題構(gòu)建為一個組合探索問題,利用啟發(fā)式擾動、集束搜索、遺傳算子或由 LLM 引導(dǎo)的樹搜索等方法,在無需梯度訪問的情況下,在巨大的離散提示詞空間中進(jìn)行導(dǎo)航。該版本的搜索攻擊使用了一種帶有 LLM 建議變異的遺傳算法。

最后,人工紅隊測試依賴于人類的創(chuàng)造力和上下文推理能力來精心制作和優(yōu)化提示詞,當(dāng)防御方法是動態(tài)變化的時,其表現(xiàn)通常優(yōu)于自動化方法。作為紅隊測試的代表性實踐,研究者舉辦了一場有超過 500 名參與者參加的在線紅隊競賽。

研究者的核心主張是,如果一種防御方法在對抗這種 「PSSU」 循環(huán)的任何自適應(yīng)實例時失敗了,那么它就不能被認(rèn)為是魯棒的。

實驗結(jié)果

研究者評估了 12 種最新的大語言模型防御方法,覆蓋了從提示工程到對抗性訓(xùn)練的多種技術(shù),旨在揭示它們在自適應(yīng)對抗攻擊下的脆弱性。這些防御主要針對兩大問題:

  • 越獄:用戶誘導(dǎo)模型產(chǎn)生違反其安全策略的有害內(nèi)容。
  • 提示注入:攻擊者篡改系統(tǒng)行為,以損害用戶機(jī)密性或完整性(如竊取數(shù)據(jù)、未授權(quán)操作等)。

由于缺乏統(tǒng)一的評估標(biāo)準(zhǔn),研究者沿用各個方法原論文的評估方式,并引入了額外的基準(zhǔn)測試,如用于越獄攻擊的 HarmBench 和用于提示注入攻擊的 AgentDojo 等。

本實驗的核心目標(biāo)并非直接比較不同防御的優(yōu)劣,而是要證明當(dāng)前的大語言模型穩(wěn)健性評估方法存在不足且結(jié)果具有誤導(dǎo)性。所有成功的攻擊都經(jīng)過了人工驗證,以排除評估機(jī)制的漏洞。

基于提示的防御

這類防御通過優(yōu)化系統(tǒng)提示詞來增強(qiáng)模型的安全性。研究者評估了三種代表性方法:Spotlighting、Prompt Sandwiching 和 RPO。

Spotlighting 和 Prompt Sandwiching:這兩種方法通過特殊標(biāo)記或重復(fù)指令來強(qiáng)化模型對可信用戶意圖的關(guān)注,主要用于防御提示注入。盡管它們在靜態(tài)攻擊基準(zhǔn)(AgentDojo)上攻擊成功率(ASR)低至 1%,但在研究者的自適應(yīng)攻擊下,ASR 均超過 95%。人工紅隊測試也得到了相似結(jié)論。

攻擊者常將惡意指令偽裝成完成用戶任務(wù)的先決條件,從而輕松繞過這類防御。



RPO (Robust Prompt Optimization):該防御使用基于梯度的提示優(yōu)化技術(shù),尋找能抵御越獄攻擊的最佳提示。然而,在 HarmBench 基準(zhǔn)上,研究者的強(qiáng)化學(xué)習(xí)(RL)攻擊和梯度攻擊分別達(dá)到了98% 和 96% 的 ASR



結(jié)論:基于提示的防御雖然能抵擋已知的固定攻擊,但缺乏泛化能力,極易被新型的自動化或人工攻擊繞過。

對抗現(xiàn)有攻擊的訓(xùn)練

這類方法通過在對抗性數(shù)據(jù)上微調(diào)或訓(xùn)練模型來使其「內(nèi)化」穩(wěn)健性。研究者評估了Circuit Breakers、StruQ 和 MetaSecAlign 三種方法

StruQ 和 MetaSecAlign:專注于防御提示注入。StruQ 在研究者的 RL 攻擊下,每個測試案例均被攻破。MetaSecAlign 在靜態(tài)基準(zhǔn) AgentDojo 上的 ASR 為 2%,但在研究者的自適應(yīng)攻擊下,ASR 飆升至 96%。



Circuit Breakers:專注于防御越獄。研究者的自適應(yīng)攻擊同樣可以輕易繞過它,在 HarmBench 上的 ASR 達(dá)到了 100%。

結(jié)論:這些結(jié)果印證了計算機(jī)視覺領(lǐng)域的教訓(xùn) —— 針對固定的、不夠強(qiáng)的對抗樣本進(jìn)行訓(xùn)練無法泛化到未見過的自適應(yīng)攻擊。只有在訓(xùn)練循環(huán)中動態(tài)優(yōu)化生成對抗樣本,才可能獲得有意義的穩(wěn)健性。

過濾模型防御

該策略在主模型前后部署一個獨立的檢測器,用于分類和攔截不安全的輸入或輸出。研究者評估了四種代表性檢測器:Protect AI Detector、PromptGuard、PIGuard 和 Model Armor。

這些檢測器本質(zhì)上是基于 BERT 微調(diào)的分類器,同樣存在被欺騙的弱點。研究者的自適應(yīng)攻擊通過利用檢測器的置信度反饋進(jìn)行優(yōu)化,在對抗 Protect AI、PromptGuard 和 Model Armor 時,ASR 均超過 90%。即使是抵抗力稍強(qiáng)的 PIGuard,ASR 也達(dá)到了 71%。人工紅隊測試同樣取得了數(shù)百次成功攻擊。



許多成功的攻擊觸發(fā)器本身并不包含明顯的惡意特征,導(dǎo)致檢測器難以在不產(chǎn)生大量誤報的情況下將其識別出來。

結(jié)論:簡單地堆疊過濾器無法解決根本的穩(wěn)健性問題。盡管如此,檢測器易于部署,能有效阻止一些簡單的攻擊,可作為多層防御策略中一個有用但能力有限的組件。

基于秘密知識的防御

這類防御利用攻擊者未知的信息(如隱藏的「金絲雀」信號)來檢測提示注入。研究者評估了Data Sentinel 和 MELON

Data Sentinel:它使用一個「蜜罐」提示來檢測輸入是否改變了模型的原始意圖。其原論文聲稱對自適應(yīng)攻擊的假陰性率接近零。然而,研究者的 RL 攻擊能以超過 80% 的準(zhǔn)確率將模型的任務(wù)意圖重定向,在所有測試案例中都成功繞過了防御。

攻擊通過巧妙地重新定義任務(wù)術(shù)語繞過了檢測,凸顯了防御此類攻擊的難度。



MELON:它通過運行模型兩次來比對工具調(diào)用,判斷是否存在注入攻擊。研究者的攻擊在不了解其內(nèi)部機(jī)制的情況下,僅憑偶然就達(dá)到了 76% 的 ASR。當(dāng)研究者模擬一個了解其機(jī)制的強(qiáng)大攻擊者時,ASR 上升至 95%。

結(jié)論:依賴「秘密」信息的防御同樣脆弱。一旦攻擊者通過黑盒探測或白盒分析掌握其機(jī)制,就能輕易設(shè)計出繞過策略。

更多技術(shù)細(xì)節(jié)請參見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
汪峰機(jī)場擁愛,女兒陪伴,路人表情各異

汪峰機(jī)場擁愛,女兒陪伴,路人表情各異

君笙的拂兮
2025-10-15 23:16:38
亞洲一姐中國賽奪第五勝,甩鄭欽文1100分,狀態(tài)火爆

亞洲一姐中國賽奪第五勝,甩鄭欽文1100分,狀態(tài)火爆

凡人說體育
2025-10-16 23:09:29
蘋果官網(wǎng)確認(rèn),起售價7999元!還宣布向清華大學(xué)提供新一筆捐贈!到訪中國首日,庫克現(xiàn)身LABUBU上海展

蘋果官網(wǎng)確認(rèn),起售價7999元!還宣布向清華大學(xué)提供新一筆捐贈!到訪中國首日,庫克現(xiàn)身LABUBU上海展

每日經(jīng)濟(jì)新聞
2025-10-14 10:00:49
美聯(lián)儲,重磅發(fā)布!中概股,大漲!

美聯(lián)儲,重磅發(fā)布!中概股,大漲!

中國基金報
2025-10-16 07:53:01
曾凡博深夜官宣被裁!籃網(wǎng)只為賣球票,中國賽結(jié)束僅3天立刻裁人

曾凡博深夜官宣被裁!籃網(wǎng)只為賣球票,中國賽結(jié)束僅3天立刻裁人

老吳說體育
2025-10-15 23:55:12
這條新規(guī)一出,讓不少家庭睡不著了

這條新規(guī)一出,讓不少家庭睡不著了

大碗樓市
2025-10-16 08:07:16
這款國產(chǎn)模型在海外悄悄爆火,全球程序員又多了一位中國伙伴

這款國產(chǎn)模型在海外悄悄爆火,全球程序員又多了一位中國伙伴

智東西
2025-10-15 22:38:03
炸!韓財閥千金遭全球通緝竟成東南亞電詐大佬?勾結(jié)多名頂流男星疑致其慘死或坐牢…

炸!韓財閥千金遭全球通緝竟成東南亞電詐大佬?勾結(jié)多名頂流男星疑致其慘死或坐牢…

英國報姐
2025-10-15 21:56:24
梅德韋杰夫:一旦戰(zhàn)敗,就用核彈攻擊4個國家,讓世界進(jìn)入末日

梅德韋杰夫:一旦戰(zhàn)敗,就用核彈攻擊4個國家,讓世界進(jìn)入末日

大道無形我有型
2025-09-28 11:25:06
中國史上最大工程即將開工,預(yù)計投資4萬億,將徹底改變西北部

中國史上最大工程即將開工,預(yù)計投資4萬億,將徹底改變西北部

文史達(dá)觀
2025-10-14 06:45:03
美聯(lián)儲,降息大消息!美股拉升,科技股爆發(fā)!

美聯(lián)儲,降息大消息!美股拉升,科技股爆發(fā)!

證券時報
2025-10-16 23:43:20
就沖這個胸,這個扣子,不頒獎給她,都說不過去!

就沖這個胸,這個扣子,不頒獎給她,都說不過去!

另子維愛讀史
2025-08-31 19:15:27
六旬老漢六年間霸占村里25名留守婦女,只因掌握她們?nèi)觞c

六旬老漢六年間霸占村里25名留守婦女,只因掌握她們?nèi)觞c

阿妹講故事
2025-03-31 23:56:31
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點
2025-10-09 12:19:42
凌晨玩狼牙棒,女大學(xué)生淪為 “笑柄”:你不可愛,只是素質(zhì)低下

凌晨玩狼牙棒,女大學(xué)生淪為 “笑柄”:你不可愛,只是素質(zhì)低下

易會科普
2025-10-15 22:40:23
王晶稱贊舒淇情商很高,非池中物:她家境很差總是被欺負(fù),曾因片酬少拒演《臥虎藏龍》

王晶稱贊舒淇情商很高,非池中物:她家境很差總是被欺負(fù),曾因片酬少拒演《臥虎藏龍》

FM93浙江交通之聲
2025-10-16 20:51:37
37歲趙麗穎最新狀態(tài)曝光:休養(yǎng)5個月后直播,整個人面相都變了

37歲趙麗穎最新狀態(tài)曝光:休養(yǎng)5個月后直播,整個人面相都變了

銀河史記
2025-10-16 22:53:41
理想L8燒毀一年后離奇“復(fù)活”現(xiàn)身鄭州街頭!原車主可遠(yuǎn)程操控,事故停車場稱損毀車輛已處理,交警部門介入

理想L8燒毀一年后離奇“復(fù)活”現(xiàn)身鄭州街頭!原車主可遠(yuǎn)程操控,事故停車場稱損毀車輛已處理,交警部門介入

大風(fēng)新聞
2025-10-15 12:16:04
新疆大字標(biāo)語被破壞后續(xù)!肇事男子賬號被扒,依舊狡辯不承認(rèn)

新疆大字標(biāo)語被破壞后續(xù)!肇事男子賬號被扒,依舊狡辯不承認(rèn)

奇思妙想草葉君
2025-10-14 19:16:33
你被相親對象惡心過嗎?網(wǎng)友:真是一大早惡心到了,這男的真下頭

你被相親對象惡心過嗎?網(wǎng)友:真是一大早惡心到了,這男的真下頭

解讀熱點事件
2025-10-10 00:05:08
2025-10-17 02:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11483文章數(shù) 142484關(guān)注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級” 團(tuán)隊

頭條要聞

4歲女童失聯(lián)已超32小時 當(dāng)?shù)亓璩繗鉁貙⒔抵亮阆?/h3>

頭條要聞

4歲女童失聯(lián)已超32小時 當(dāng)?shù)亓璩繗鉁貙⒔抵亮阆?/h3>

體育要聞

人口5.5萬,他們還在延續(xù)世界杯的夢想

娛樂要聞

還清債務(wù)的劉濤 已走上了另一條大道

財經(jīng)要聞

愛爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

提問蓮花馮擎峰:如何保證事故后車門正常開啟?

態(tài)度原創(chuàng)

游戲
親子
藝術(shù)
本地
公開課

微軟曝光下一代Xbox研發(fā)地!神秘實驗室首次亮相

親子要聞

奶奶帶孫子貌似天經(jīng)地義,但未必順理成章

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲熟少妇一区二区三区| 久久国内精品一国内精品| 欧美少妇自慰| 大地资源免费更新在线视频下载| 99久久99久久精品国产片| 国产小受被做到哭咬床单GV| 男人天堂久久久久久久久| 97久久人国产精品婷婷| a级毛片在线免费观看| 亚洲加勒比高清无码导航| 爱做久久久久久| 国产精品久久久久久高清无码| 日韩精品一区二区三区在线观看| 天天噜噜噜在线视频| 国产精品一区在线蜜臀| 成人在线播放| 久久久久久久亚洲精品汤唯换脸| 久久大香伊蕉在人线免费AV| 蜜臀亚洲一区二区| 色欲国产精品一区成人精品| 很很日日夜夜无码| 亚洲精品国产mm| 无码av天堂一区二区三区| 天天做天天摸天天爽天天爱| 色七七亚洲综合网站| 性色av一区二区三区夜夜嗨| 午夜爽爽爽男女免费观看影院| 久久人人网站| 精品人妻av一区二区三区| 欧洲精品一区二区三| 一本到中文无码av在线精品| 五月婷婷色色丁香| 亚洲精品在线视频自拍| 国产乱子影视频上线免费观看| 天天澡日日澡狠狠欧美老妇| 国产边添边摸边做边爱| 欧美另类videosbestsex| 无码高潮少妇毛多水多水免费| 国产精品久久久久久人妻精品| 欧洲国产精品无码专区影院| 精品av熟女一区二区偷窥海滩|