夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

通過視覺安全提示與深度對齊實(shí)現(xiàn)大型視覺語言模型的安全對齊

0
分享至



隨著大型視覺語言模型在多個(gè)下游任務(wù)的廣泛應(yīng)用,其潛在的安全風(fēng)險(xiǎn)也開始快速顯露。研究表明,即便是最先進(jìn)的大型視覺語言模型,也可能在面對帶有隱蔽的惡意意圖的圖像 — 文本輸入時(shí)給出違規(guī)甚至有害的響應(yīng),而現(xiàn)有的輕量級的安全對齊方案都具有一定的局限性。

在這一背景下,清華大學(xué)人工智能學(xué)院團(tuán)隊(duì)提出了DAVSP(Deep Aligned Visual Safety Prompt)。該工作以O(shè)ral 形式被 AAAI 2026 錄用。

DAVSP 通過引入全新的視覺安全提示與深度對齊策略,在幾乎不破壞模型正常能力的前提下,顯著提升了大型視覺語言模型對惡意輸入的抵御效果,為大型視覺語言模型的安全對齊提供了新的方法。



  • 論文鏈接:https://arxiv.org/pdf/2506.09353
  • Github 鏈接:https://github.com/zhangyitonggg/DAVSP

研究背景與問題

大型視覺語言模型(LVLMs)雖在多模態(tài)任務(wù)中表現(xiàn)亮眼,但其安全隱患正迅速顯現(xiàn)。攻擊者可以將惡意意圖隱蔽地嵌入圖像中,使模型在未察覺風(fēng)險(xiǎn)的情況下輸出有害內(nèi)容。因此,如何增強(qiáng) LVLMs 對多模態(tài)惡意輸入的安全對齊能力,成為當(dāng)前亟需解決的問題。

如何提升 LVLMs 的安全性?一條常見并且輕量級的思路是對用戶請求添加安全提示(safety prompt)以引導(dǎo)模型遵循安全準(zhǔn)則。文本領(lǐng)域已有通過在用戶文本前加入提示語來提高模型安全性的方法。但在多模態(tài)場景下,僅保護(hù)文本遠(yuǎn)遠(yuǎn)不夠,攻擊者完全可以繞過文本提示,將威脅藏在圖像中。

近期工作如 ESIII、UniGuard 嘗試在圖像上添加可訓(xùn)練的視覺安全擾動(dòng),以提升模型拒絕惡意請求的能力,并與文本安全提示結(jié)合取得一定成效。然而,這類視覺安全擾動(dòng)在真實(shí)應(yīng)用中仍存在兩大問題:

  • 安全性不足:例如在 FigStep 基準(zhǔn)上,即便加入視覺安全擾動(dòng),模型仍有約 30% 的惡意輸入沒有被成功拒絕。
  • 性能損害明顯:在 MME 基準(zhǔn)上,某模型的得分從 1818 直接跌至 1403,意味著模型「更安全」的同時(shí)也顯著「變?nèi)酢埂?/li>

上述缺陷背后的原因在該研究中被進(jìn)一步剖析:

  • 首先,直接在圖像像素上疊加噪聲會不可避免地?cái)_亂圖像的關(guān)鍵視覺特征(如邊緣、紋理、色彩分布),削弱模型對圖像的感知,從而影響模型的性能。為減輕這一問題,擾動(dòng)幅度不得不被嚴(yán)格限制,但這又極大壓縮了可用的優(yōu)化空間,限制了視覺安全擾動(dòng)發(fā)揮作用的能力。
  • 其次,僅依據(jù)模型最終輸出是否安全來訓(xùn)練擾動(dòng)(比如讓模型盡量輸出預(yù)設(shè)的拒絕語)屬于淺層的對齊,模型可能學(xué)到的是表面模式而非真正的安全準(zhǔn)則。因此經(jīng)常出現(xiàn)模型回復(fù)以「抱歉」開頭,看似拒絕,但緊接著還是給出了有害內(nèi)容的情況。圖 1 的案例直觀展示了這一「表面拒絕」現(xiàn)象:左側(cè)施加傳統(tǒng)安全擾動(dòng)的模型先說「抱歉不能幫助」,卻隨后繼續(xù)提供了實(shí)行非法黑客行為的具體步驟。



針對以上挑戰(zhàn),清華大學(xué)人工智能學(xué)院團(tuán)隊(duì)在 AAAI 2026 上提出了全新的安全對齊方法DAVSP(Deep Aligned Visual Safety Prompt)。

該方法的核心思想是從視覺提示范式和訓(xùn)練對齊機(jī)制兩方面同時(shí)創(chuàng)新,以克服以往方法的局限性。在保證模型對正常輸入性能幾乎不受影響的前提下,大幅提升模型對惡意多模態(tài)攻擊的抵御能力。下面我們詳細(xì)介紹 DAVSP 的方法原理和其兩項(xiàng)關(guān)鍵創(chuàng)新:視覺安全提示(Visual Safety Prompt)和深度對齊(Deep Alignment)。

方法與創(chuàng)新:深度對齊的視覺安全提示(DAVSP)

DAVSP 整體思路:作者重新審視了將安全提示引入視覺模態(tài)的范式,提出視覺安全提示(VSP)來取代傳統(tǒng)的圖像全局?jǐn)_動(dòng),并設(shè)計(jì)了深度對齊(DA)的訓(xùn)練策略讓模型從內(nèi)部真正理解何為「不安全」輸入。下圖概覽了 DAVSP 的工作原理。



視覺安全提示

視覺安全提示(Visual Safety Prompt,VSP)是 DAVSP 提出的新型視覺提示范式。不同于以往直接在整幅圖像像素上加擾動(dòng)的方法,VSP 選擇在輸入圖像周圍添加一圈額外的可訓(xùn)練邊框,作為安全提示區(qū)域。這樣做有兩大好處:

  • 保護(hù)原始視覺特征:由于提示信息只存在于圖像邊緣的新擴(kuò)展區(qū)域,而不直接修改原圖的像素,視覺安全提示不會破壞原有圖像的關(guān)鍵細(xì)節(jié)。模型在處理時(shí)能夠較好地接收到原圖信息,從而保證對良性輸入的正常感知與理解不會因提示的加入而下降。實(shí)驗(yàn)中也驗(yàn)證了這一點(diǎn):使用 DAVSP 后模型在多個(gè)基準(zhǔn)上的各項(xiàng)性能幾乎與僅施加文本安全提示時(shí)相當(dāng),顯著少于于以往視覺安全擾動(dòng)方法的性能損失。
  • 擴(kuò)大優(yōu)化空間:相較于傳統(tǒng)像素級的視覺安全擾動(dòng)(其擾動(dòng)幅度常被嚴(yán)格限制在如 32/255 的極小范圍內(nèi)),視覺安全提示通過引入額外的圖像邊界區(qū)域,可以被優(yōu)化為任意像素值,大大拓寬了可學(xué)習(xí)參數(shù)的空間。實(shí)驗(yàn)表明,在消除了這一擾動(dòng)幅度限制后,在測試時(shí)能夠表現(xiàn)出更強(qiáng)有力的安全對齊能力。

此外,視覺安全提示作為一種「即插即用」的模塊具有實(shí)用優(yōu)勢:只需在推理時(shí)將圖像加上優(yōu)化得到的視覺安全提示,不需要改動(dòng)模型結(jié)構(gòu),也不會帶來額外的計(jì)算開銷或顯著延遲。

深度對齊

有了合適的提示范式,還需要有效的訓(xùn)練策略使視覺安全提示發(fā)揮作用。DAVSP 的第二項(xiàng)創(chuàng)新深度對齊(Deep Alignment)旨在深入模型內(nèi)部,對其內(nèi)部激活空間進(jìn)行監(jiān)督,挖掘并增強(qiáng)模型自身對「有害 / 無害」信息的區(qū)分能力。

研究人員注意到,大型視覺語言模型內(nèi)部往往已經(jīng)蘊(yùn)含了一定的對有害意圖的「潛在辨別能力」—— 即惡意查詢和正常查詢在模型中的激活向量存在系統(tǒng)性差異。與其僅看最終輸出是否拒絕,不如利用模型內(nèi)部表征來指導(dǎo)訓(xùn)練,促使模型從內(nèi)部真正認(rèn)知到哪些輸入是不安全的。具體來說,作者提出了以下步驟:

  1. 構(gòu)建有害向量:首先在模型內(nèi)部選取一層(如解碼器的中間層),比較模型處理一組容易拒絕的惡意樣本與一組正常良性樣本時(shí)該層激活向量的差異。通過計(jì)算兩組樣本在該層最終一個(gè)輸入 token 的平均激活差,得到一個(gè)向量方向,稱為「有害向量」。直觀理解,這個(gè)向量代表了將模型內(nèi)部表示從「良性」方向推向「惡意」方向的變化方向。
  2. 深度對齊訓(xùn)練:有了有害向量,就可以在訓(xùn)練視覺安全提示時(shí)引入一種基于內(nèi)部表示的目標(biāo)。具體做法是:讓帶有惡意意圖的輸入在該向量方向上的投影盡可能增加,而良性輸入的投影盡可能減少。也就是說,訓(xùn)練過程中視覺提示會被不斷優(yōu)化,促使模型對惡意查詢在激活向量上更偏向「有害」方向,從而模型更容易意識到「這是不好的請求」,進(jìn)而在輸出層拒絕回答;相反,對正常輸入則壓低這種有害方向的激活,避免模型誤判正常請求為有害請求。

實(shí)驗(yàn)結(jié)果

作者在多個(gè)基準(zhǔn)上對 DAVSP 進(jìn)行了全面評估,結(jié)果顯示該方法在抵御惡意攻擊和保持模型實(shí)用性兩方面均顯著優(yōu)于現(xiàn)有方案。

  • 惡意輸入抵御能力:在兩個(gè)具有代表性的惡意多模態(tài)數(shù)據(jù)集上,DAVSP 取得了遠(yuǎn)高于現(xiàn)有同類方法的拒絕率(RSR,Resist Success Rate)。



  • 良性任務(wù)性能:與提升安全性相對應(yīng),DAVSP 對模型正常能力的影響卻很微小。DAVSP 在多個(gè)基準(zhǔn)上的實(shí)用性評分與僅施加文本安全提示時(shí)持平,且優(yōu)于其他視覺安全擾動(dòng)的方法。



  • 跨模型泛化:令人驚喜的是,DAVSP 訓(xùn)練得到的視覺安全提示具有一定的泛化能力,可以在不同模型之間遷移使用。



  • 關(guān)鍵組件作用:通過消融實(shí)驗(yàn),作者驗(yàn)證了 DAVSP 的兩大創(chuàng)新 —— 視覺安全提示和深度對齊 —— 缺一不可。移除深度對齊、僅對輸出進(jìn)行監(jiān)督時(shí),模型對惡意攻擊的抵抗成功率大幅下降。同樣地,將視覺安全提示替換回原始的像素級的視覺安全擾動(dòng)后,會造成安全性和實(shí)用性同時(shí)退化。



團(tuán)隊(duì)介紹

本研究由清華大學(xué)人工智能學(xué)院團(tuán)隊(duì)完成。通訊作者為清華大學(xué)人工智能學(xué)院李佳助理教授,主要研究方向包括人工智能和軟件工程的交叉賦能、AI for SE、SE for AI 等。第一作者張奕彤將于明年正式入學(xué)清華大學(xué)人工智能學(xué)院攻讀博士學(xué)位。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
逼迫赫格塞思公布完整視頻,美國會或扣留其差旅預(yù)算

逼迫赫格塞思公布完整視頻,美國會或扣留其差旅預(yù)算

參考消息
2025-12-09 18:01:15
2012年,廣東老板參加宴請后失蹤,13年后托夢妻子:我在車庫里

2012年,廣東老板參加宴請后失蹤,13年后托夢妻子:我在車庫里

農(nóng)村情感故事
2025-12-06 07:32:53
大澤鄉(xiāng)起義成功后,陳勝為何要?dú)⒌魠菑V,司馬遷說出了其中的原因

大澤鄉(xiāng)起義成功后,陳勝為何要?dú)⒌魠菑V,司馬遷說出了其中的原因

阿器談史
2025-12-10 22:02:26
完美執(zhí)行戰(zhàn)術(shù)!林詩棟/蒯曼橫掃速勝黃鎮(zhèn)廷/杜凱琹!

完美執(zhí)行戰(zhàn)術(shù)!林詩棟/蒯曼橫掃速勝黃鎮(zhèn)廷/杜凱琹!

籃球資訊達(dá)人
2025-12-10 18:31:46
勇士隊(duì)重返爭冠行列,真的就差一個(gè)維金斯

勇士隊(duì)重返爭冠行列,真的就差一個(gè)維金斯

籃球掃地僧
2025-12-10 16:48:33
我們都錯(cuò)了!董卿走到現(xiàn)在這步,不僅僅是因?yàn)槊艽豪锥潜澈蟮乃?>
    </a>
        <h3>
      <a href=千言娛樂記
2025-12-10 22:15:46
北京市委市政府決定:袁進(jìn)、張羅職務(wù)調(diào)整

北京市委市政府決定:袁進(jìn)、張羅職務(wù)調(diào)整

上觀新聞
2025-12-11 06:34:03
喜訊!斯盧茨基首次親自為申花引援就撿到寶,能力比米內(nèi)羅還強(qiáng)

喜訊!斯盧茨基首次親自為申花引援就撿到寶,能力比米內(nèi)羅還強(qiáng)

振剛說足球
2025-12-10 10:16:50
“可以舉報(bào)了!”媽媽曬兒子考公上岸照,網(wǎng)友發(fā)現(xiàn)重要信息!

“可以舉報(bào)了!”媽媽曬兒子考公上岸照,網(wǎng)友發(fā)現(xiàn)重要信息!

知曉科普
2025-12-09 10:30:05
隨著曼城2-1反超皇馬,阿森納1-0,巴黎0-0

隨著曼城2-1反超皇馬,阿森納1-0,巴黎0-0

小吐說故事
2025-12-11 05:38:52
第二個(gè)“恒大”出現(xiàn)!年?duì)I收7000億,曾經(jīng)是廣東第一大民企

第二個(gè)“恒大”出現(xiàn)!年?duì)I收7000億,曾經(jīng)是廣東第一大民企

墨印齋
2025-11-08 15:28:54
成也飯圈敗也飯圈!看到被央視點(diǎn)名的孫穎莎,樊振東的話有人信了

成也飯圈敗也飯圈!看到被央視點(diǎn)名的孫穎莎,樊振東的話有人信了

璀璨幻行者
2025-11-18 10:47:31
文班亞馬無緣NBA杯賽戰(zhàn)湖人 今年的DPOY又懸了?

文班亞馬無緣NBA杯賽戰(zhàn)湖人 今年的DPOY又懸了?

體壇周報(bào)
2025-12-10 15:17:19
47歲鮑莉陪郭京飛大孤山祈福,臉色蠟黃老人味好濃,普通主婦摸樣

47歲鮑莉陪郭京飛大孤山祈福,臉色蠟黃老人味好濃,普通主婦摸樣

秋姐居
2025-12-10 14:25:34
聯(lián)創(chuàng)?摩爾學(xué)院院長被爆出大瓜,被指發(fā)幣并欠了1500枚比特幣未還

聯(lián)創(chuàng)?摩爾學(xué)院院長被爆出大瓜,被指發(fā)幣并欠了1500枚比特幣未還

金石隨筆
2025-12-10 00:08:42
為什么說F22擊落熱氣球后,中國從以前的韜光養(yǎng)晦,變?yōu)橹鲃?dòng)亮劍

為什么說F22擊落熱氣球后,中國從以前的韜光養(yǎng)晦,變?yōu)橹鲃?dòng)亮劍

策略述
2025-09-29 22:40:19
《阿凡達(dá)3》首映媒體口碑出爐?。?>
    </a>
        <h3>
      <a href=悅君兮君不知
2025-12-09 12:41:07
阿隆索:我們的球員態(tài)度不錯(cuò);姆巴佩的身體狀態(tài)不足以出場

阿隆索:我們的球員態(tài)度不錯(cuò);姆巴佩的身體狀態(tài)不足以出場

懂球帝
2025-12-11 07:28:41
萬億順差下的詭異困境:中國不想,卻停不下來!

萬億順差下的詭異困境:中國不想,卻停不下來!

達(dá)文西看世界
2025-12-10 09:46:16
溫州年輕女生離世!死前遺言:“希望這家公司早點(diǎn)倒閉”

溫州年輕女生離世!死前遺言:“希望這家公司早點(diǎn)倒閉”

溫曉生
2025-12-11 00:11:04
2025-12-11 08:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11891文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

暴跌超10%!甲骨文訂單多到把股價(jià)砸崩了?

頭條要聞

打假博主被店主持30厘米長的斬骨刀追砍 后者被拘5日

頭條要聞

打假博主被店主持30厘米長的斬骨刀追砍 后者被拘5日

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂要聞

為何網(wǎng)友不再相信張柏芝的“故事”?

財(cái)經(jīng)要聞

美聯(lián)儲再降息25基點(diǎn) 仍預(yù)計(jì)明年降息一次

汽車要聞

有動(dòng)力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

態(tài)度原創(chuàng)

親子
房產(chǎn)
家居
本地
公開課

親子要聞

冀連梅 | 哪些孩子需要吃藥預(yù)防流感?美國兒科學(xué)會為什么建議首選奧司他韋作為預(yù)防藥物?

房產(chǎn)要聞

斷供10年,終迎破局者!三亞核心區(qū),突然殺出新標(biāo)桿!

家居要聞

高端私宅 理想隱居圣地

本地新聞

打工人夢想中的生活,寵物已經(jīng)提前過上了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久无码一区二区三区性色| 国产成人亚洲综合无码精品| 国产精品 视频一区 二区三区| 亚洲欧美国产另类视频| 亚洲精品日韩精品久久| 日本免费视频| 黄色片在线播放| 久久久久久久久久国产精品| 国产亲子乱露脸| 在线高潮网站| 欧美牲交a欧美牲交| 最近中文字幕免费完整| 色老板美国在线观看| 加勒比东京热无码一区| 欧美舔阴高清视频| 东北熟女国产| 久久五月天综合| 国产区23p| 中文日韩一区| 无套内射蜜桃小视频| 成人免费无遮挡在线播放| 美女裸体18禁免费网站| 国产台湾无码av片在线观看| 国产v亚洲v天堂无码久久久| 娇小搡BBBB搡BBBB网站| 欧美人成三级| 亚洲色无码专线精品观看| 欧美性69式xxxx护士| 久久人妻av一区二区软件| 国产日产久久高清欧美一区| 成人一级黄色毛片| 操老熟女老女人| 蜜美杏AV一区二层三区| 欧洲精品码一区二区三区免费看 | 日韩国产另类| 成人精品一区久久久久| 国产一伦一伦一伦| 岛国中文字幕一区二区| 无码人妻毛片丰满熟妇片| 国产熟女女上位高潮白浆| 国语自产精品视频在线看|