網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenAI、Anthropic、DeepMind聯(lián)手發(fā)文：現(xiàn)有LLM安全防御不堪一擊

2025-10-14 14:08:59　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心報道

編輯：+0、陳陳

本文實測 12 種防御方法，幾乎全軍覆沒。

真是罕見，OpenAI、Anthropic、Google DeepMind 這三大競爭對手，居然聯(lián)手發(fā)表了一篇論文，共同研究語言模型的安全防御評估。

看來在 LLM 安全這事上，大家還是能暫時放下對抗，握手合作的。

論文標(biāo)題：The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
論文地址：https://arxiv.org/pdf/2510.09023

本文主要圍繞一個問題展開：我們該如何評估語言模型防御機(jī)制的魯棒性？

要知道，目前針對越獄和提示注入的防御措施（前者旨在防止攻擊者誘導(dǎo)模型輸出有害內(nèi)容，后者旨在防止攻擊者遠(yuǎn)程觸發(fā)惡意行為）主要采用如下手段：

使用一組固定的、有害攻擊樣本進(jìn)行靜態(tài)測試；
要么依賴于一些計算能力較弱的優(yōu)化方法，這些方法在設(shè)計時并未考慮到具體的防御機(jī)制。

換句話說，現(xiàn)有的防御評估大多是紙上談兵，并沒有真正模擬出一個懂防御、會反制的強(qiáng)攻擊者。

所以說，當(dāng)前的評估流程是有缺陷的。

這篇文章就是為了解決上述問題。為了更準(zhǔn)確地評估語言模型的防御機(jī)制，本文認(rèn)為我們應(yīng)當(dāng)假設(shè)攻擊者是自適應(yīng)的，也就是說，他們會根據(jù)防御機(jī)制的設(shè)計策略，刻意修改攻擊方式，并投入大量資源進(jìn)行優(yōu)化。

在此基礎(chǔ)上，本文提出了一個通用自適應(yīng)攻擊框架（General Adaptive Attack Framework），并采用幾種通用的優(yōu)化方法（比如梯度下降、強(qiáng)化學(xué)習(xí)、隨機(jī)搜索和人類輔助探索）進(jìn)行系統(tǒng)化調(diào)整，結(jié)果成功繞過了 12 種近期提出的防御機(jī)制，其中多數(shù)模型的攻擊成功率超過了 90%，而這些防御原本聲稱幾乎無法被攻破（攻擊成功率接近 0）。

該研究表示，未來的防御研究必須納入更強(qiáng)的攻擊進(jìn)行評估，才能對魯棒性做出可靠且有說服力的結(jié)論。

一種通用攻擊方法

防御方法的開發(fā)者不應(yīng)依賴于抵御某一種單一攻擊，因為攻破一種固定的策略通常是直接了當(dāng)?shù)摹?/p>

研究者并未提出一種全新的攻擊方法，而是要強(qiáng)調(diào)，現(xiàn)有的攻擊思想（當(dāng)被自適應(yīng)地、謹(jǐn)慎地應(yīng)用時）足以暴露系統(tǒng)的弱點。

因此，研究者提出了一個通用的自適應(yīng)攻擊框架，它統(tǒng)一了許多針對 LLM 的成功提示詞攻擊背后的共同結(jié)構(gòu)。一次攻擊由一個優(yōu)化循環(huán)組成，每次迭代可分為四個步驟：

圖 2：針對 LLM 的通用的自適應(yīng)攻擊框架。

這種迭代過程是大多數(shù)自適應(yīng)攻擊的共同結(jié)構(gòu)。研究者通過四種典型實例來闡釋這種通用方法論，它們分別是：(i) 基于梯度的方法，(ii) 強(qiáng)化學(xué)習(xí)方法，(iii) 基于搜索的方法，以及 (iv) 人工紅隊測試。

在實驗中，研究者為每個類別都實例化了一種攻擊方法。

基于梯度的方法通過在嵌入空間中估計梯度，并將其投影回有效的 token，從而將連續(xù)的對抗樣本技術(shù)應(yīng)用于離散的 token 空間。然而，為大語言模型優(yōu)化提示詞本身就極具挑戰(zhàn)性：輸入空間巨大且離散，措辭上的微小變化就可能導(dǎo)致模型行為發(fā)生巨大且不可預(yù)測的轉(zhuǎn)變。因此，目前基于梯度的攻擊仍然不可靠，通常推薦直接在文本空間進(jìn)行操作的攻擊方法，例如以下三種。

強(qiáng)化學(xué)習(xí)方法將提示詞生成視為一個交互式環(huán)境：一個策略對候選提示詞進(jìn)行采樣，根據(jù)模型行為獲得獎勵，并通過策略梯度算法進(jìn)行更新，以逐步提高攻擊成功率。在強(qiáng)化學(xué)習(xí)攻擊中，研究者使用一個 LLM，根據(jù)得分反饋來迭代地提出候選的對抗性觸發(fā)器。該大語言模型的權(quán)重也通過 GRPO 算法進(jìn)行更新。

基于搜索的方法將該問題構(gòu)建為一個組合探索問題，利用啟發(fā)式擾動、集束搜索、遺傳算子或由 LLM 引導(dǎo)的樹搜索等方法，在無需梯度訪問的情況下，在巨大的離散提示詞空間中進(jìn)行導(dǎo)航。該版本的搜索攻擊使用了一種帶有 LLM 建議變異的遺傳算法。

最后，人工紅隊測試依賴于人類的創(chuàng)造力和上下文推理能力來精心制作和優(yōu)化提示詞，當(dāng)防御方法是動態(tài)變化的時，其表現(xiàn)通常優(yōu)于自動化方法。作為紅隊測試的代表性實踐，研究者舉辦了一場有超過 500 名參與者參加的在線紅隊競賽。

研究者的核心主張是，如果一種防御方法在對抗這種「PSSU」循環(huán)的任何自適應(yīng)實例時失敗了，那么它就不能被認(rèn)為是魯棒的。

實驗結(jié)果

研究者評估了 12 種最新的大語言模型防御方法，覆蓋了從提示工程到對抗性訓(xùn)練的多種技術(shù)，旨在揭示它們在自適應(yīng)對抗攻擊下的脆弱性。這些防御主要針對兩大問題：

越獄：用戶誘導(dǎo)模型產(chǎn)生違反其安全策略的有害內(nèi)容。
提示注入：攻擊者篡改系統(tǒng)行為，以損害用戶機(jī)密性或完整性（如竊取數(shù)據(jù)、未授權(quán)操作等）。

由于缺乏統(tǒng)一的評估標(biāo)準(zhǔn)，研究者沿用各個方法原論文的評估方式，并引入了額外的基準(zhǔn)測試，如用于越獄攻擊的 HarmBench 和用于提示注入攻擊的 AgentDojo 等。

本實驗的核心目標(biāo)并非直接比較不同防御的優(yōu)劣，而是要證明當(dāng)前的大語言模型穩(wěn)健性評估方法存在不足且結(jié)果具有誤導(dǎo)性。所有成功的攻擊都經(jīng)過了人工驗證，以排除評估機(jī)制的漏洞。

基于提示的防御

這類防御通過優(yōu)化系統(tǒng)提示詞來增強(qiáng)模型的安全性。研究者評估了三種代表性方法：Spotlighting、Prompt Sandwiching 和 RPO。

Spotlighting 和 Prompt Sandwiching：這兩種方法通過特殊標(biāo)記或重復(fù)指令來強(qiáng)化模型對可信用戶意圖的關(guān)注，主要用于防御提示注入。盡管它們在靜態(tài)攻擊基準(zhǔn)（AgentDojo）上攻擊成功率（ASR）低至 1%，但在研究者的自適應(yīng)攻擊下，ASR 均超過 95%。人工紅隊測試也得到了相似結(jié)論。

攻擊者常將惡意指令偽裝成完成用戶任務(wù)的先決條件，從而輕松繞過這類防御。

RPO (Robust Prompt Optimization)：該防御使用基于梯度的提示優(yōu)化技術(shù)，尋找能抵御越獄攻擊的最佳提示。然而，在 HarmBench 基準(zhǔn)上，研究者的強(qiáng)化學(xué)習(xí)（RL）攻擊和梯度攻擊分別達(dá)到了98% 和 96% 的 ASR

結(jié)論：基于提示的防御雖然能抵擋已知的固定攻擊，但缺乏泛化能力，極易被新型的自動化或人工攻擊繞過。

對抗現(xiàn)有攻擊的訓(xùn)練

這類方法通過在對抗性數(shù)據(jù)上微調(diào)或訓(xùn)練模型來使其「內(nèi)化」穩(wěn)健性。研究者評估了Circuit Breakers、StruQ 和 MetaSecAlign 三種方法

StruQ 和 MetaSecAlign：專注于防御提示注入。StruQ 在研究者的 RL 攻擊下，每個測試案例均被攻破。MetaSecAlign 在靜態(tài)基準(zhǔn) AgentDojo 上的 ASR 為 2%，但在研究者的自適應(yīng)攻擊下，ASR 飆升至 96%。

Circuit Breakers：專注于防御越獄。研究者的自適應(yīng)攻擊同樣可以輕易繞過它，在 HarmBench 上的 ASR 達(dá)到了 100%。

結(jié)論：這些結(jié)果印證了計算機(jī)視覺領(lǐng)域的教訓(xùn) —— 針對固定的、不夠強(qiáng)的對抗樣本進(jìn)行訓(xùn)練無法泛化到未見過的自適應(yīng)攻擊。只有在訓(xùn)練循環(huán)中動態(tài)優(yōu)化生成對抗樣本，才可能獲得有意義的穩(wěn)健性。

過濾模型防御

該策略在主模型前后部署一個獨立的檢測器，用于分類和攔截不安全的輸入或輸出。研究者評估了四種代表性檢測器：Protect AI Detector、PromptGuard、PIGuard 和 Model Armor。

這些檢測器本質(zhì)上是基于 BERT 微調(diào)的分類器，同樣存在被欺騙的弱點。研究者的自適應(yīng)攻擊通過利用檢測器的置信度反饋進(jìn)行優(yōu)化，在對抗 Protect AI、PromptGuard 和 Model Armor 時，ASR 均超過 90%。即使是抵抗力稍強(qiáng)的 PIGuard，ASR 也達(dá)到了 71%。人工紅隊測試同樣取得了數(shù)百次成功攻擊。

許多成功的攻擊觸發(fā)器本身并不包含明顯的惡意特征，導(dǎo)致檢測器難以在不產(chǎn)生大量誤報的情況下將其識別出來。

結(jié)論：簡單地堆疊過濾器無法解決根本的穩(wěn)健性問題。盡管如此，檢測器易于部署，能有效阻止一些簡單的攻擊，可作為多層防御策略中一個有用但能力有限的組件。

基于秘密知識的防御

這類防御利用攻擊者未知的信息（如隱藏的「金絲雀」信號）來檢測提示注入。研究者評估了Data Sentinel 和 MELON

Data Sentinel：它使用一個「蜜罐」提示來檢測輸入是否改變了模型的原始意圖。其原論文聲稱對自適應(yīng)攻擊的假陰性率接近零。然而，研究者的 RL 攻擊能以超過 80% 的準(zhǔn)確率將模型的任務(wù)意圖重定向，在所有測試案例中都成功繞過了防御。

攻擊通過巧妙地重新定義任務(wù)術(shù)語繞過了檢測，凸顯了防御此類攻擊的難度。

MELON：它通過運行模型兩次來比對工具調(diào)用，判斷是否存在注入攻擊。研究者的攻擊在不了解其內(nèi)部機(jī)制的情況下，僅憑偶然就達(dá)到了 76% 的 ASR。當(dāng)研究者模擬一個了解其機(jī)制的強(qiáng)大攻擊者時，ASR 上升至 95%。

結(jié)論：依賴「秘密」信息的防御同樣脆弱。一旦攻擊者通過黑盒探測或白盒分析掌握其機(jī)制，就能輕易設(shè)計出繞過策略。

更多技術(shù)細(xì)節(jié)請參見原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.