機(jī)器之心報道
編輯:+0、陳陳
本文實測 12 種防御方法,幾乎全軍覆沒。
真是罕見,OpenAI、Anthropic、Google DeepMind 這三大競爭對手,居然聯(lián)手發(fā)表了一篇論文,共同研究語言模型的安全防御評估。
看來在 LLM 安全這事上,大家還是能暫時放下對抗,握手合作的。
- 論文標(biāo)題:The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
- 論文地址:https://arxiv.org/pdf/2510.09023
本文主要圍繞一個問題展開:我們該如何評估語言模型防御機(jī)制的魯棒性?
要知道,目前針對越獄和提示注入的防御措施(前者旨在防止攻擊者誘導(dǎo)模型輸出有害內(nèi)容,后者旨在防止攻擊者遠(yuǎn)程觸發(fā)惡意行為)主要采用如下手段:
- 使用一組固定的、有害攻擊樣本進(jìn)行靜態(tài)測試;
- 要么依賴于一些計算能力較弱的優(yōu)化方法,這些方法在設(shè)計時并未考慮到具體的防御機(jī)制。
換句話說,現(xiàn)有的防御評估大多是紙上談兵,并沒有真正模擬出一個懂防御、會反制的強(qiáng)攻擊者。
所以說,當(dāng)前的評估流程是有缺陷的。
這篇文章就是為了解決上述問題。為了更準(zhǔn)確地評估語言模型的防御機(jī)制,本文認(rèn)為我們應(yīng)當(dāng)假設(shè)攻擊者是自適應(yīng)的,也就是說,他們會根據(jù)防御機(jī)制的設(shè)計策略,刻意修改攻擊方式,并投入大量資源進(jìn)行優(yōu)化。
在此基礎(chǔ)上,本文提出了一個通用自適應(yīng)攻擊框架(General Adaptive Attack Framework),并采用幾種通用的優(yōu)化方法(比如梯度下降、強(qiáng)化學(xué)習(xí)、隨機(jī)搜索和人類輔助探索)進(jìn)行系統(tǒng)化調(diào)整,結(jié)果成功繞過了 12 種近期提出的防御機(jī)制,其中多數(shù)模型的攻擊成功率超過了 90%,而這些防御原本聲稱幾乎無法被攻破(攻擊成功率接近 0)。
該研究表示,未來的防御研究必須納入更強(qiáng)的攻擊進(jìn)行評估,才能對魯棒性做出可靠且有說服力的結(jié)論。
一種通用攻擊方法
防御方法的開發(fā)者不應(yīng)依賴于抵御某一種單一攻擊,因為攻破一種固定的策略通常是直接了當(dāng)?shù)摹?/p>
研究者并未提出一種全新的攻擊方法,而是要強(qiáng)調(diào),現(xiàn)有的攻擊思想(當(dāng)被自適應(yīng)地、謹(jǐn)慎地應(yīng)用時)足以暴露系統(tǒng)的弱點。
因此,研究者提出了一個通用的自適應(yīng)攻擊框架,它統(tǒng)一了許多針對 LLM 的成功提示詞攻擊背后的共同結(jié)構(gòu)。一次攻擊由一個優(yōu)化循環(huán)組成,每次迭代可分為四個步驟:
圖 2:針對 LLM 的通用的自適應(yīng)攻擊框架。
這種迭代過程是大多數(shù)自適應(yīng)攻擊的共同結(jié)構(gòu)。研究者通過四種典型實例來闡釋這種通用方法論,它們分別是:(i) 基于梯度的方法,(ii) 強(qiáng)化學(xué)習(xí)方法,(iii) 基于搜索的方法,以及 (iv) 人工紅隊測試。
在實驗中,研究者為每個類別都實例化了一種攻擊方法。
基于梯度的方法通過在嵌入空間中估計梯度,并將其投影回有效的 token,從而將連續(xù)的對抗樣本技術(shù)應(yīng)用于離散的 token 空間。然而,為大語言模型優(yōu)化提示詞本身就極具挑戰(zhàn)性:輸入空間巨大且離散,措辭上的微小變化就可能導(dǎo)致模型行為發(fā)生巨大且不可預(yù)測的轉(zhuǎn)變。因此,目前基于梯度的攻擊仍然不可靠,通常推薦直接在文本空間進(jìn)行操作的攻擊方法,例如以下三種。
強(qiáng)化學(xué)習(xí)方法將提示詞生成視為一個交互式環(huán)境:一個策略對候選提示詞進(jìn)行采樣,根據(jù)模型行為獲得獎勵,并通過策略梯度算法進(jìn)行更新,以逐步提高攻擊成功率。在強(qiáng)化學(xué)習(xí)攻擊中,研究者使用一個 LLM,根據(jù)得分反饋來迭代地提出候選的對抗性觸發(fā)器。該大語言模型的權(quán)重也通過 GRPO 算法進(jìn)行更新。
基于搜索的方法將該問題構(gòu)建為一個組合探索問題,利用啟發(fā)式擾動、集束搜索、遺傳算子或由 LLM 引導(dǎo)的樹搜索等方法,在無需梯度訪問的情況下,在巨大的離散提示詞空間中進(jìn)行導(dǎo)航。該版本的搜索攻擊使用了一種帶有 LLM 建議變異的遺傳算法。
最后,人工紅隊測試依賴于人類的創(chuàng)造力和上下文推理能力來精心制作和優(yōu)化提示詞,當(dāng)防御方法是動態(tài)變化的時,其表現(xiàn)通常優(yōu)于自動化方法。作為紅隊測試的代表性實踐,研究者舉辦了一場有超過 500 名參與者參加的在線紅隊競賽。
研究者的核心主張是,如果一種防御方法在對抗這種 「PSSU」 循環(huán)的任何自適應(yīng)實例時失敗了,那么它就不能被認(rèn)為是魯棒的。
實驗結(jié)果
研究者評估了 12 種最新的大語言模型防御方法,覆蓋了從提示工程到對抗性訓(xùn)練的多種技術(shù),旨在揭示它們在自適應(yīng)對抗攻擊下的脆弱性。這些防御主要針對兩大問題:
- 越獄:用戶誘導(dǎo)模型產(chǎn)生違反其安全策略的有害內(nèi)容。
- 提示注入:攻擊者篡改系統(tǒng)行為,以損害用戶機(jī)密性或完整性(如竊取數(shù)據(jù)、未授權(quán)操作等)。
由于缺乏統(tǒng)一的評估標(biāo)準(zhǔn),研究者沿用各個方法原論文的評估方式,并引入了額外的基準(zhǔn)測試,如用于越獄攻擊的 HarmBench 和用于提示注入攻擊的 AgentDojo 等。
本實驗的核心目標(biāo)并非直接比較不同防御的優(yōu)劣,而是要證明當(dāng)前的大語言模型穩(wěn)健性評估方法存在不足且結(jié)果具有誤導(dǎo)性。所有成功的攻擊都經(jīng)過了人工驗證,以排除評估機(jī)制的漏洞。
基于提示的防御
這類防御通過優(yōu)化系統(tǒng)提示詞來增強(qiáng)模型的安全性。研究者評估了三種代表性方法:Spotlighting、Prompt Sandwiching 和 RPO。
Spotlighting 和 Prompt Sandwiching:這兩種方法通過特殊標(biāo)記或重復(fù)指令來強(qiáng)化模型對可信用戶意圖的關(guān)注,主要用于防御提示注入。盡管它們在靜態(tài)攻擊基準(zhǔn)(AgentDojo)上攻擊成功率(ASR)低至 1%,但在研究者的自適應(yīng)攻擊下,ASR 均超過 95%。人工紅隊測試也得到了相似結(jié)論。
攻擊者常將惡意指令偽裝成完成用戶任務(wù)的先決條件,從而輕松繞過這類防御。
RPO (Robust Prompt Optimization):該防御使用基于梯度的提示優(yōu)化技術(shù),尋找能抵御越獄攻擊的最佳提示。然而,在 HarmBench 基準(zhǔn)上,研究者的強(qiáng)化學(xué)習(xí)(RL)攻擊和梯度攻擊分別達(dá)到了98% 和 96% 的 ASR
結(jié)論:基于提示的防御雖然能抵擋已知的固定攻擊,但缺乏泛化能力,極易被新型的自動化或人工攻擊繞過。
對抗現(xiàn)有攻擊的訓(xùn)練
這類方法通過在對抗性數(shù)據(jù)上微調(diào)或訓(xùn)練模型來使其「內(nèi)化」穩(wěn)健性。研究者評估了Circuit Breakers、StruQ 和 MetaSecAlign 三種方法
StruQ 和 MetaSecAlign:專注于防御提示注入。StruQ 在研究者的 RL 攻擊下,每個測試案例均被攻破。MetaSecAlign 在靜態(tài)基準(zhǔn) AgentDojo 上的 ASR 為 2%,但在研究者的自適應(yīng)攻擊下,ASR 飆升至 96%。
Circuit Breakers:專注于防御越獄。研究者的自適應(yīng)攻擊同樣可以輕易繞過它,在 HarmBench 上的 ASR 達(dá)到了 100%。
結(jié)論:這些結(jié)果印證了計算機(jī)視覺領(lǐng)域的教訓(xùn) —— 針對固定的、不夠強(qiáng)的對抗樣本進(jìn)行訓(xùn)練無法泛化到未見過的自適應(yīng)攻擊。只有在訓(xùn)練循環(huán)中動態(tài)優(yōu)化生成對抗樣本,才可能獲得有意義的穩(wěn)健性。
過濾模型防御
該策略在主模型前后部署一個獨立的檢測器,用于分類和攔截不安全的輸入或輸出。研究者評估了四種代表性檢測器:Protect AI Detector、PromptGuard、PIGuard 和 Model Armor。
這些檢測器本質(zhì)上是基于 BERT 微調(diào)的分類器,同樣存在被欺騙的弱點。研究者的自適應(yīng)攻擊通過利用檢測器的置信度反饋進(jìn)行優(yōu)化,在對抗 Protect AI、PromptGuard 和 Model Armor 時,ASR 均超過 90%。即使是抵抗力稍強(qiáng)的 PIGuard,ASR 也達(dá)到了 71%。人工紅隊測試同樣取得了數(shù)百次成功攻擊。
許多成功的攻擊觸發(fā)器本身并不包含明顯的惡意特征,導(dǎo)致檢測器難以在不產(chǎn)生大量誤報的情況下將其識別出來。
結(jié)論:簡單地堆疊過濾器無法解決根本的穩(wěn)健性問題。盡管如此,檢測器易于部署,能有效阻止一些簡單的攻擊,可作為多層防御策略中一個有用但能力有限的組件。
基于秘密知識的防御
這類防御利用攻擊者未知的信息(如隱藏的「金絲雀」信號)來檢測提示注入。研究者評估了Data Sentinel 和 MELON
Data Sentinel:它使用一個「蜜罐」提示來檢測輸入是否改變了模型的原始意圖。其原論文聲稱對自適應(yīng)攻擊的假陰性率接近零。然而,研究者的 RL 攻擊能以超過 80% 的準(zhǔn)確率將模型的任務(wù)意圖重定向,在所有測試案例中都成功繞過了防御。
攻擊通過巧妙地重新定義任務(wù)術(shù)語繞過了檢測,凸顯了防御此類攻擊的難度。
MELON:它通過運行模型兩次來比對工具調(diào)用,判斷是否存在注入攻擊。研究者的攻擊在不了解其內(nèi)部機(jī)制的情況下,僅憑偶然就達(dá)到了 76% 的 ASR。當(dāng)研究者模擬一個了解其機(jī)制的強(qiáng)大攻擊者時,ASR 上升至 95%。
結(jié)論:依賴「秘密」信息的防御同樣脆弱。一旦攻擊者通過黑盒探測或白盒分析掌握其機(jī)制,就能輕易設(shè)計出繞過策略。
更多技術(shù)細(xì)節(jié)請參見原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.