攻破閉源多模態(tài)大模型：一種基于特征最優(yōu)對齊的新型對抗攻擊方法

2025-10-17 13:52:35　來源: 機器之心Pro

北京舉報

分享至

近年來，多模態(tài)大語言模型（MLLMs）取得了令人矚目的突破，在視覺理解、跨模態(tài)推理、圖像描述等任務(wù)上表現(xiàn)出強大的能力。然而，隨著這些模型的廣泛部署，其潛在的安全風險也逐漸引起關(guān)注。

研究表明，MLLMs 同樣繼承了視覺編碼器對抗脆弱性的特征，容易受到對抗樣本的欺騙。這些對抗樣本在現(xiàn)實應(yīng)用中可能導致模型輸出錯誤或泄露敏感信息，給大規(guī)模模型的安全部署帶來嚴重隱患。

在此背景下，如何提升對抗攻擊的可遷移性 —— 即對抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當前研究的關(guān)鍵難題。

然而，當面對如 GPT-4、Claude-3 等強大的閉源商業(yè)模型時，現(xiàn)有攻擊方法的遷移效果顯著下降。原因在于，這些方法通常僅對齊全局特征（如 CLIP 的 [CLS] token），而忽略了圖像補?。╬atch tokens）中蘊含的豐富局部信息，導致特征對齊不充分、遷移能力受限。

為解決這一難題，本文提出了一種名為FOA-Attack（Feature Optimal Alignment Attack）的全新靶向遷移式對抗攻擊框架。該方法的核心思想是同時在全局和局部兩個層面實現(xiàn)特征的最優(yōu)對齊，從而顯著提升攻擊的遷移能力。

在全局層面，通過余弦相似度損失來對齊粗粒度的全局特征。
在局部層面，創(chuàng)新性地使用聚類技術(shù)提取關(guān)鍵的局部特征模式，并將其建模為一個最優(yōu)傳輸（Optimal Transport, OT）問題，實現(xiàn)細粒度的精準對齊。
此外，本文還設(shè)計了一種動態(tài)集成權(quán)重策略，在攻擊生成過程中自適應(yīng)地平衡多個模型的影響，進一步增強遷移性。

大量實驗表明，FOA-Attack 在攻擊各種開源及閉源 MLLMs 時，性能全面超越了現(xiàn)有 SOTA 方法，尤其是在針對商業(yè)閉源模型的攻擊上取得了驚人的成功率，且本工作對應(yīng)的論文和代碼均已開源。

論文鏈接：https://arxiv.org/abs/2505.21494
代碼鏈接：https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模態(tài)大語言模型（MLLMs），如 GPT-4o、Claude-3.7 和 Gemini-2.0，通過融合視覺和語言能力，在圖像理解、視覺問答等任務(wù)上展現(xiàn)了非凡的性能。然而，這些模型繼承了其視覺編碼器的脆弱性，容易受到對抗樣本的攻擊。對抗樣本通過在原始圖像上添加人眼難以察覺的微小擾動，就能誘導模型產(chǎn)生錯誤的輸出。

對抗攻擊分為非目標攻擊（旨在使模型輸出錯誤）目標攻擊（旨在使模型輸出特定的目標內(nèi)容）。對于無法訪問模型內(nèi)部結(jié)構(gòu)和參數(shù)的黑盒場景（尤其是商業(yè)閉源模型），實現(xiàn)高效的目標遷移攻擊極具挑戰(zhàn)性。

這意味著，在一個或多個替代模型（surrogate models）上生成的對抗樣本，需要能夠成功欺騙一個完全未知的黑盒目標模型。盡管現(xiàn)有工作已證明了這種攻擊的可行性，但其遷移成功率，特別是針對最先進的閉源 MLLMs 時，仍有很大的提升空間。

動機和理論分析

在多模態(tài)大語言模型（MLLMs）依賴的 Transformer 架構(gòu)視覺編碼器（如 CLIP）中，存在明確的特征分工：[CLS] token 提煉圖像宏觀主題（如「大象」「森林」），但會舍棄細粒度細節(jié)；patch tokens 則編碼局部信息（如「大象耳朵形態(tài)」「植被密度」），是模型精準理解圖像的關(guān)鍵，缺失會導致對抗樣本語義真實性不足。

現(xiàn)有對抗攻擊方法的核心局限的是，僅聚焦 [CLS] token 全局特征對齊，忽略 patch tokens 的局部價值，引發(fā)兩大問題：一是語義對齊不充分，全局特征難區(qū)分「大象在森林」與「大象在草原」這類細節(jié)差異，局部特征卻能清晰界定；二是遷移性差，擾動過度適配替代模型的全局特征，閉源 MLLMs（如 GPT-4o）因視覺編碼器設(shè)計不同，易識別「虛假語義」，攻擊效果驟降。

為突破此局限，FOA-Attack 提出「全局 + 局部」雙維度對齊思路（如圖 1 所示）：

圖 1 (a) 中「特征最優(yōu)對齊損失」包含兩大模塊，全局層面用余弦相似度損失對齊 [CLS] token，保證整體語義一致；局部層面通過聚類提取關(guān)鍵模式，將對齊建模為最優(yōu)傳輸（OT）問題（右側(cè)「Optimal Transmission」），用 Sinkhorn 算法實現(xiàn)細粒度匹配。

圖 1 (b) 的「動態(tài)集成模型權(quán)重策略」則讓多編碼器并行生成對抗樣本，依收斂速度自適應(yīng)調(diào)權(quán) —— 易優(yōu)化模型權(quán)重低、難優(yōu)化模型權(quán)重高，避免偏向單一模型特征。兩者互補，解決了單一維度對齊缺陷，顯著提升對開源及閉源 MLLMs 的攻擊遷移性。

圖 1: FQA-Attack 示意圖

方法

FOA-Attack 以生成「語義對齊、遷移性強」的對抗樣本為核心目標，通過三個協(xié)同模塊構(gòu)建攻擊框架，且所有設(shè)計均基于對多模態(tài)模型特征機制與對抗遷移性的深度優(yōu)化。

最后是動態(tài)集成模型權(quán)重模塊，解決傳統(tǒng)多模型集成「權(quán)重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型，先定義「學習速度」Si (T)（第 i 個模型第 T 步與 T?1 步的損失比值，比值越小學習越快），再根據(jù)學習速度自適應(yīng)調(diào)整權(quán)重 —— 學習慢的模型權(quán)重更高，避免優(yōu)化偏向易適配模型。核心權(quán)重公式與總損失公式分別為：

實驗效果

開源模型

表 1：在不同開源模型上的攻擊成功率（ASR）與語義相似度（AvgSim）

在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上，F(xiàn)OA-Attack 的攻擊成功率（ASR）和語義相似度（AvgSim）顯著高于 M-Attack、AnyAttack 等方法。

閉源模型

表 2：在不同閉源模型上的攻擊成功率（ASR）和語義相似度（AvgSim）

對 GPT-4o、Claude-3.7、Gemini-2.0 等商業(yè)閉源模型，F(xiàn)OA-Attack 表現(xiàn)尤為突出：尤其在 GPT-4o 上，F(xiàn)OA-Attack 的 ASR 達到 75.1%。

推理增強模型

表 3：在不同推理增強模型上的攻擊成功率（ASR）和語義相似度（AvgSim）

即使對 GPT-o3、Claude-3.7-thinking 等推理增強模型（理論上更魯棒），F(xiàn)OA-Attack 仍能突破，這表明推理增強模型的視覺編碼器仍存在脆弱性，F(xiàn)OA-Attack 的「全局 + 局部」對齊策略能有效利用這一漏洞。

可視化

圖 3：原始干凈圖像、對抗圖像和擾動圖像的可視化

結(jié)語

FOA-Attack 揭示：通過同時精細對齊全局與局部特征，并在多模型集成中做動態(tài)平衡，可以顯著提升目標式對抗樣本對閉源 MLLMs 的遷移性。研究一方面暴露了當前 MLLMs 在視覺編碼階段的脆弱面，另一方面也為防御方向提供了新的思路（例如如何在局部特征層面加固魯棒性）。作者在論文中也討論了效率和計算成本的限制，并給出未來改進方向。

目前，論文與代碼已公開，歡迎感興趣的同學閱讀，復現(xiàn)以及深入討論。

作者介紹

本文作者分別來自新加坡南洋理工大學、阿聯(lián)酋 MBZUAI、新加坡 Sea AI Lab 以及美國伊利諾伊大學香檳分校（UIUC）第一作者加小俊為新加坡南洋理工大學博士后。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.