夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

攻破閉源多模態(tài)大模型:一種基于特征最優(yōu)對齊的新型對抗攻擊方法

0
分享至



近年來,多模態(tài)大語言模型(MLLMs)取得了令人矚目的突破,在視覺理解、跨模態(tài)推理、圖像描述等任務(wù)上表現(xiàn)出強(qiáng)大的能力。然而,隨著這些模型的廣泛部署,其潛在的安全風(fēng)險也逐漸引起關(guān)注。

研究表明,MLLMs 同樣繼承了視覺編碼器對抗脆弱性的特征,容易受到對抗樣本的欺騙。這些對抗樣本在現(xiàn)實(shí)應(yīng)用中可能導(dǎo)致模型輸出錯誤或泄露敏感信息,給大規(guī)模模型的安全部署帶來嚴(yán)重隱患。

在此背景下,如何提升對抗攻擊的可遷移性 —— 即對抗樣本跨模型、尤其是跨閉源模型仍能保持攻擊有效性 —— 成為當(dāng)前研究的關(guān)鍵難題。

然而,當(dāng)面對如 GPT-4、Claude-3 等強(qiáng)大的閉源商業(yè)模型時,現(xiàn)有攻擊方法的遷移效果顯著下降。原因在于,這些方法通常僅對齊全局特征(如 CLIP 的 [CLS] token),而忽略了圖像補(bǔ)丁(patch tokens)中蘊(yùn)含的豐富局部信息,導(dǎo)致特征對齊不充分、遷移能力受限。

為解決這一難題,本文提出了一種名為FOA-Attack(Feature Optimal Alignment Attack)的全新靶向遷移式對抗攻擊框架。該方法的核心思想是同時在全局和局部兩個層面實(shí)現(xiàn)特征的最優(yōu)對齊,從而顯著提升攻擊的遷移能力。

  • 在全局層面,通過余弦相似度損失來對齊粗粒度的全局特征。
  • 在局部層面,創(chuàng)新性地使用聚類技術(shù)提取關(guān)鍵的局部特征模式,并將其建模為一個最優(yōu)傳輸(Optimal Transport, OT)問題,實(shí)現(xiàn)細(xì)粒度的精準(zhǔn)對齊。
  • 此外,本文還設(shè)計了一種動態(tài)集成權(quán)重策略,在攻擊生成過程中自適應(yīng)地平衡多個模型的影響,進(jìn)一步增強(qiáng)遷移性。

大量實(shí)驗(yàn)表明,FOA-Attack 在攻擊各種開源及閉源 MLLMs 時,性能全面超越了現(xiàn)有 SOTA 方法,尤其是在針對商業(yè)閉源模型的攻擊上取得了驚人的成功率,且本工作對應(yīng)的論文和代碼均已開源。



  • 論文鏈接:https://arxiv.org/abs/2505.21494
  • 代碼鏈接:https://github.com/jiaxiaojunQAQ/FOA-Attack

研究背景

多模態(tài)大語言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通過融合視覺和語言能力,在圖像理解、視覺問答等任務(wù)上展現(xiàn)了非凡的性能。然而,這些模型繼承了其視覺編碼器的脆弱性,容易受到對抗樣本的攻擊。對抗樣本通過在原始圖像上添加人眼難以察覺的微小擾動,就能誘導(dǎo)模型產(chǎn)生錯誤的輸出。

對抗攻擊分為非目標(biāo)攻擊(旨在使模型輸出錯誤)目標(biāo)攻擊(旨在使模型輸出特定的目標(biāo)內(nèi)容)。對于無法訪問模型內(nèi)部結(jié)構(gòu)和參數(shù)的黑盒場景(尤其是商業(yè)閉源模型),實(shí)現(xiàn)高效的目標(biāo)遷移攻擊極具挑戰(zhàn)性。

這意味著,在一個或多個替代模型(surrogate models)上生成的對抗樣本,需要能夠成功欺騙一個完全未知的黑盒目標(biāo)模型。盡管現(xiàn)有工作已證明了這種攻擊的可行性,但其遷移成功率,特別是針對最先進(jìn)的閉源 MLLMs 時,仍有很大的提升空間。

動機(jī)和理論分析

在多模態(tài)大語言模型(MLLMs)依賴的 Transformer 架構(gòu)視覺編碼器(如 CLIP)中,存在明確的特征分工:[CLS] token 提煉圖像宏觀主題(如「大象」「森林」),但會舍棄細(xì)粒度細(xì)節(jié);patch tokens 則編碼局部信息(如「大象耳朵形態(tài)」「植被密度」),是模型精準(zhǔn)理解圖像的關(guān)鍵,缺失會導(dǎo)致對抗樣本語義真實(shí)性不足。

現(xiàn)有對抗攻擊方法的核心局限的是,僅聚焦 [CLS] token 全局特征對齊,忽略 patch tokens 的局部價值,引發(fā)兩大問題:一是語義對齊不充分,全局特征難區(qū)分「大象在森林」與「大象在草原」這類細(xì)節(jié)差異,局部特征卻能清晰界定;二是遷移性差,擾動過度適配替代模型的全局特征,閉源 MLLMs(如 GPT-4o)因視覺編碼器設(shè)計不同,易識別「虛假語義」,攻擊效果驟降。

為突破此局限,FOA-Attack 提出「全局 + 局部」雙維度對齊思路(如圖 1 所示):

圖 1 (a) 中「特征最優(yōu)對齊損失」包含兩大模塊,全局層面用余弦相似度損失對齊 [CLS] token,保證整體語義一致;局部層面通過聚類提取關(guān)鍵模式,將對齊建模為最優(yōu)傳輸(OT)問題(右側(cè)「Optimal Transmission」),用 Sinkhorn 算法實(shí)現(xiàn)細(xì)粒度匹配。

圖 1 (b) 的「動態(tài)集成模型權(quán)重策略」則讓多編碼器并行生成對抗樣本,依收斂速度自適應(yīng)調(diào)權(quán) —— 易優(yōu)化模型權(quán)重低、難優(yōu)化模型權(quán)重高,避免偏向單一模型特征。兩者互補(bǔ),解決了單一維度對齊缺陷,顯著提升對開源及閉源 MLLMs 的攻擊遷移性。



圖 1: FQA-Attack 示意圖

方法

FOA-Attack 以生成「語義對齊、遷移性強(qiáng)」的對抗樣本為核心目標(biāo),通過三個協(xié)同模塊構(gòu)建攻擊框架,且所有設(shè)計均基于對多模態(tài)模型特征機(jī)制與對抗遷移性的深度優(yōu)化。













最后是動態(tài)集成模型權(quán)重模塊,解決傳統(tǒng)多模型集成「權(quán)重均等易偏科」的問題。以 ViT-B/16、ViT-B/32 等 CLIP 變體為替代模型,先定義「學(xué)習(xí)速度」Si (T)(第 i 個模型第 T 步與 T?1 步的損失比值,比值越小學(xué)習(xí)越快),再根據(jù)學(xué)習(xí)速度自適應(yīng)調(diào)整權(quán)重 —— 學(xué)習(xí)慢的模型權(quán)重更高,避免優(yōu)化偏向易適配模型。核心權(quán)重公式與總損失公式分別為:





實(shí)驗(yàn)效果

開源模型



表 1:在不同開源模型上的攻擊成功率(ASR)與語義相似度(AvgSim)

在 Qwen2.5-VL、LLaVA、Gemma 等開源模型上,F(xiàn)OA-Attack 的攻擊成功率(ASR)和語義相似度(AvgSim)顯著高于 M-Attack、AnyAttack 等方法。

閉源模型



表 2:在不同閉源模型上的攻擊成功率(ASR)和語義相似度(AvgSim)

對 GPT-4o、Claude-3.7、Gemini-2.0 等商業(yè)閉源模型,F(xiàn)OA-Attack 表現(xiàn)尤為突出:尤其在 GPT-4o 上,F(xiàn)OA-Attack 的 ASR 達(dá)到 75.1%。

推理增強(qiáng)模型



表 3:在不同推理增強(qiáng)模型上的攻擊成功率(ASR)和語義相似度(AvgSim)

即使對 GPT-o3、Claude-3.7-thinking 等推理增強(qiáng)模型(理論上更魯棒),F(xiàn)OA-Attack 仍能突破,這表明推理增強(qiáng)模型的視覺編碼器仍存在脆弱性,F(xiàn)OA-Attack 的「全局 + 局部」對齊策略能有效利用這一漏洞。

可視化



圖 3:原始干凈圖像、對抗圖像和擾動圖像的可視化

結(jié)語

FOA-Attack 揭示:通過同時精細(xì)對齊全局與局部特征,并在多模型集成中做動態(tài)平衡,可以顯著提升目標(biāo)式對抗樣本對閉源 MLLMs 的遷移性。研究一方面暴露了當(dāng)前 MLLMs 在視覺編碼階段的脆弱面,另一方面也為防御方向提供了新的思路(例如如何在局部特征層面加固魯棒性)。作者在論文中也討論了效率和計算成本的限制,并給出未來改進(jìn)方向。

目前,論文與代碼已公開,歡迎感興趣的同學(xué)閱讀,復(fù)現(xiàn)以及深入討論。

作者介紹

本文作者分別來自新加坡南洋理工大學(xué)、阿聯(lián)酋 MBZUAI、新加坡 Sea AI Lab 以及美國伊利諾伊大學(xué)香檳分校(UIUC)第一作者加小俊為新加坡南洋理工大學(xué)博士后。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上??赡軙荒硞€項目徹底改變

上??赡軙荒硞€項目徹底改變

真叫盧俊
2025-10-18 10:07:48
任重正式宣布與孫驍驍結(jié)婚!幸福談家庭生活,與岳父相處的很融洽

任重正式宣布與孫驍驍結(jié)婚!幸福談家庭生活,與岳父相處的很融洽

小娛樂悠悠
2025-10-18 10:58:21
毛人鳳后人現(xiàn)狀:長子富士康董事長,次子商業(yè)奇才、三子愛國華僑

毛人鳳后人現(xiàn)狀:長子富士康董事長,次子商業(yè)奇才、三子愛國華僑

文史達(dá)觀
2024-03-10 06:45:03
張海迪發(fā)長文回應(yīng)網(wǎng)暴:好人就是好人 抹黑無用!

張海迪發(fā)長文回應(yīng)網(wǎng)暴:好人就是好人 抹黑無用!

看看新聞Knews
2025-10-17 22:28:03
澤連斯基表示,特朗普有“很大的機(jī)會”結(jié)束俄羅斯對烏克蘭的戰(zhàn)爭

澤連斯基表示,特朗普有“很大的機(jī)會”結(jié)束俄羅斯對烏克蘭的戰(zhàn)爭

阿離家居
2025-10-18 11:53:20
中使館:已向日方提出嚴(yán)正交涉

中使館:已向日方提出嚴(yán)正交涉

澎湃新聞
2025-10-18 00:11:09
國際金銀快速下挫:現(xiàn)貨黃金跌2.1% 現(xiàn)貨白銀跌4.2%

國際金銀快速下挫:現(xiàn)貨黃金跌2.1% 現(xiàn)貨白銀跌4.2%

每日經(jīng)濟(jì)新聞
2025-10-17 22:16:08
《X戰(zhàn)警》重聚,女主變男人!變性后曬手術(shù)傷疤,曾主演盜夢空間

《X戰(zhàn)警》重聚,女主變男人!變性后曬手術(shù)傷疤,曾主演盜夢空間

頭號電影院
2025-10-17 14:36:14
陳偉霆何穗官宣生子

陳偉霆何穗官宣生子

澎湃新聞
2025-10-18 12:01:04
臺北車站一醉酒女游客被男子拖至墻邊性侵超10分鐘,現(xiàn)場竟無人出手相助

臺北車站一醉酒女游客被男子拖至墻邊性侵超10分鐘,現(xiàn)場竟無人出手相助

都市快報橙柿互動
2025-10-16 08:10:57
乘客回應(yīng)網(wǎng)約車中途趕客獲理解:事情太重大太特殊,相信大家都會做出同樣的選擇

乘客回應(yīng)網(wǎng)約車中途趕客獲理解:事情太重大太特殊,相信大家都會做出同樣的選擇

觀威海
2025-10-18 10:42:06
拿不到中國稀土,31國打算來硬的?中方出手了,信號不一般

拿不到中國稀土,31國打算來硬的?中方出手了,信號不一般

南權(quán)先生
2025-10-17 15:30:07
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
于和偉向吳石烈士敬獻(xiàn)鮮花

于和偉向吳石烈士敬獻(xiàn)鮮花

極目新聞
2025-10-17 21:48:08
萊巴金娜2-0橫掃湯姆賈諾維奇,將與保利尼爭奪決賽門票

萊巴金娜2-0橫掃湯姆賈諾維奇,將與保利尼爭奪決賽門票

懂球帝
2025-10-17 20:33:21
在軍營維修電臺15年,退役前夜發(fā)現(xiàn)一臺廢機(jī)有神秘信號!

在軍營維修電臺15年,退役前夜發(fā)現(xiàn)一臺廢機(jī)有神秘信號!

今天說故事
2025-09-23 18:19:43
有什么東西是外國人吃,而中國人不吃的?網(wǎng)友:請相信老祖宗嚴(yán)選

有什么東西是外國人吃,而中國人不吃的?網(wǎng)友:請相信老祖宗嚴(yán)選

另子維愛讀史
2025-10-16 23:39:01
太搞笑了!美國大豆終于找到了盼望已久的“買家”。

太搞笑了!美國大豆終于找到了盼望已久的“買家”。

荊楚寰宇文樞
2025-10-13 20:46:54
一加堅決清倉,從2299元降至1444元,驍龍8Gen3旗艦售價一降再降

一加堅決清倉,從2299元降至1444元,驍龍8Gen3旗艦售價一降再降

科技阿維
2025-10-18 12:09:04
F1美國站:邁凱倫發(fā)威!諾里斯輕松拿第一,勒克萊爾遇機(jī)械故障

F1美國站:邁凱倫發(fā)威!諾里斯輕松拿第一,勒克萊爾遇機(jī)械故障

體育妞世界
2025-10-18 08:29:17
2025-10-18 13:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11494文章數(shù) 142485關(guān)注度
往期回顧 全部

科技要聞

黃仁勛:英偉達(dá)在中國市場份額從95%降到0%

頭條要聞

山東海陽老人扎堆領(lǐng)結(jié)婚證現(xiàn)場擠滿人 有村莊包車去辦

頭條要聞

山東海陽老人扎堆領(lǐng)結(jié)婚證現(xiàn)場擠滿人 有村莊包車去辦

體育要聞

灰熊不可能梭哈,安安穩(wěn)穩(wěn)過日子才是真

娛樂要聞

警方通報榮梓杉李禹熹糾紛

財經(jīng)要聞

特朗普軟了:對華高額關(guān)稅訛詐 不可持續(xù)

汽車要聞

全新領(lǐng)克03家族上市限時售價10.38萬起

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
數(shù)碼
家居
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

部分蘋果 iPhone 17 Pro/Max 用戶反饋機(jī)身褪色

數(shù)碼要聞

夜讀體驗(yàn)史詩級提升:蘋果 M5 iPad Pro 屏幕亮度最低為 1 尼特

家居要聞

因異而生 古今文脈交融

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 毛片在线免费看不收费| 亚洲综合天堂一区二区三区| 精品粉嫩AⅤ一区二区三区四区| 2020国产精品精品国产| 人人操,人人舔| av无码Av| 99在线观看视频免费| 成人毛片一区二区三区无码| 亚洲一区二区三区熟女少妇AⅤ| 日本一本免费一二区| 好男人好资源电影在线播放| 国产精品一区二区三区黄片| 久久热在线视频精品视频| 少妇人妻精品一区二区传媒蜜臀| 国产亚洲精品资源在线26u| 亚洲a成人无码网站在线| 国产伦理一区二区久久精品| 久久久久女18| 狠狠躁天天躁夜夜躁婷婷| 亚洲熟女大伊人| 久久香蕉国际| 中出无修正无码内射国产精品 | 级r片内射在线视频播放| 国产成a人亚洲精品无码50北| 丁香五月亚洲综合在线国内自拍| 九九亚洲无码高清免费| 国产精品久久精品| 日本25av在线| 伊人久久大香线蕉综合影视| 亚洲日韩精品一区二区二三区四区| www.久久久久久| 国产成人综合久久精品推荐| 亚洲女子高潮不断爆白浆| 国产成人无码一区二区在线播放| 九九热一二三| 亚洲综合在线日韩av| 婷婷亚洲丁香| 国产精品不卡区一区二| 第四色在线播放| 国产人碰人摸人爱免费视频| 国产麻豆精品精东影业av网站|