夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI自己給自己當(dāng)網(wǎng)管,實現(xiàn)安全“頓悟時刻”,風(fēng)險率直降9.6%

0
分享至

SafeKey團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

大型推理模型(LRMs)在解決復(fù)雜任務(wù)時展現(xiàn)出的強大能力令人驚嘆,但其背后隱藏的安全風(fēng)險不容忽視。

盡管學(xué)術(shù)界已嘗試通過監(jiān)督微調(diào)(SFT)有效地提升模型安全,但下圖的測試結(jié)果所示,監(jiān)督微調(diào)在面對訓(xùn)練數(shù)據(jù)領(lǐng)域外的層出不窮的“越獄”攻擊時,往往顯得捉襟見肘,泛化能力有限。

同時,之前的工作沒有對大型推理模型的安全思考做深入的分析,以進(jìn)行針對性的提升。



來自加州大學(xué)圣克魯茲分校,加州大學(xué)伯克利分校,思科研究和耶魯大學(xué)的的研究團(tuán)隊提出了創(chuàng)新的SafeKey框架,成功在不影響模型核心能力的前提下,顯著增強了其安全穩(wěn)健性。



發(fā)現(xiàn):大模型信息“越獄”的兩大核心

SafeKey團(tuán)隊在探究模型為何會“越獄”成功時,獲得了兩大核心發(fā)現(xiàn):

1.“關(guān)鍵句”現(xiàn)象(The “Key Sentence”)

如下圖所示,推理模型在回答問題時,普遍會先進(jìn)行一段對用戶查詢的理解與重述。

而緊隨其后的第一個句子,往往直接決定了整個回答的“安全調(diào)性”。

研究團(tuán)隊將其命名為“關(guān)鍵句”(Key Sentence):一個安全的“頓悟時刻”(Aha-moment)能否在此時被觸發(fā),是模型走向安全回答還是危險回答的分水嶺。



2.“沉睡的安全信號”(The Dormant Safety Signal)

另外,對于大量“越獄”成功的案例,模型在生成“關(guān)鍵句”之前,其對查詢的理解和復(fù)述已經(jīng)明確暴露了查詢的惡意。

這意味著,模型內(nèi)部的隱藏狀態(tài)在早期階段就已攜帶了強烈的安全特征信號。

但是在回答查詢的過程中,這個寶貴的安全信號卻陷入了“沉睡”,未能在后續(xù)生成“關(guān)鍵句”的過程中被充分利用,導(dǎo)致了最終的安全防線崩潰。

SafeKey:雙管齊下,喚醒模型的內(nèi)在安全頓悟

基于上述發(fā)現(xiàn),SafeKey框架應(yīng)運而生——

它不再滿足于簡單的“對錯”教導(dǎo),而是通過兩大創(chuàng)新優(yōu)化目標(biāo),精準(zhǔn)地強化模型在“關(guān)鍵句”生成時的“安全頓悟時刻”。

雙通路安全頭(Dual-Path Safety Head):提前放大安全信號

如下圖所示,為了強化模型內(nèi)部的安全信號,研究團(tuán)隊設(shè)計了“雙通路安全頭”。在訓(xùn)練階段,它會并行地監(jiān)督兩段關(guān)鍵內(nèi)容的隱藏狀態(tài):



  • a.“關(guān)鍵句”之前的所有內(nèi)容。
  • b.模型對原始查詢的理解與復(fù)述過程。

這種設(shè)計通過監(jiān)督預(yù)測頭對這兩個關(guān)鍵階段的隱藏狀態(tài)進(jìn)行安全判別,迫使模型在生成“關(guān)鍵句”前放大隱藏狀態(tài)內(nèi)的安全信號,為后續(xù)成功觸發(fā)“安全頓悟”做好了充分鋪墊。

查詢遮蔽建模(Query-Mask Modeling):強迫模型“聽自己的”

如下圖所示,為了促使模型在決策時更加依賴自己內(nèi)在的安全判斷,而非被“越獄”指令牽著鼻子走,SafeKey團(tuán)隊提出了“查詢遮蔽建?!薄?/p>



該任務(wù)會完全遮蔽掉原始的用戶輸入,要求模型僅憑自己剛剛生成的“理解與復(fù)述”內(nèi)容,來續(xù)寫出安全的“關(guān)鍵句”。

這種設(shè)計強迫模型必須“相信”并“利用”自己剛剛形成的、已經(jīng)攜帶了安全信號的內(nèi)部理解,從而極大地增強了安全決策的自主性和穩(wěn)健性。

測試:安全與能力的“雙贏”



SafeKey的有效性在實驗中得到了充分驗證:

安全性能顯著提升:實驗結(jié)果表明,SafeKey框架能夠顯著地提升模型的安全性,尤其是在面對訓(xùn)練領(lǐng)域外的危險輸入和越獄提示的時候,能夠在三個不同大小的模型上降低9.6%的危險率

有效維持核心能力:SafeKey完美地保持了模型原有的各項核心能力。在數(shù)學(xué)推理、代碼和通用語言理解等基準(zhǔn)測試上,搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準(zhǔn)確率。



模塊有效性驗證:消融實驗證明,“雙通路安全頭”和“查詢遮蔽建?!眱蓚€模塊均可獨立提升模型安全性。進(jìn)一步實驗分析發(fā)現(xiàn),SafeKey能夠提升模型在生成關(guān)鍵句的時候?qū)ψ约旱膹?fù)述與理解的注意力。同時,雙通路安全頭的損失函數(shù)能讓模型學(xué)到更好的安全表征,從而使安全頭更容易學(xué)會正確的安全分類。

總的來說,SafeKey框架能夠應(yīng)用在各種不同的大型推理模型上,在幾乎不影響模型能力的同時提升模型的安全性,并且需要較少的計算資源。

論文地址:https://arxiv.org/pdf/2505.16186
項目主頁:https://safekeylrm.github.io/
復(fù)現(xiàn)代碼:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
原本是臭名昭著的歷史人物,如今卻被電視劇強行洗白,簡直荒唐

原本是臭名昭著的歷史人物,如今卻被電視劇強行洗白,簡直荒唐

不八卦掌門人
2025-07-12 22:02:06
一提抗美援朝,就是俄羅斯的功勞,提到海蘭泡,就是烏克蘭的罪過

一提抗美援朝,就是俄羅斯的功勞,提到海蘭泡,就是烏克蘭的罪過

歷史擺渡
2025-07-28 12:55:03
清華男生火車拒讓下鋪給腿傷老人,下車后坐縫的字條讓所有人哽咽

清華男生火車拒讓下鋪給腿傷老人,下車后坐縫的字條讓所有人哽咽

今天說故事
2025-08-02 12:24:07
費利佩:亞冠附加賽是一場決定性的戰(zhàn)役;我本可以進(jìn)更多的球

費利佩:亞冠附加賽是一場決定性的戰(zhàn)役;我本可以進(jìn)更多的球

懂球帝
2025-08-05 11:08:17
悲催!深圳一成立10年的工廠被迫停產(chǎn),目前處于被執(zhí)行人狀態(tài)…

悲催!深圳一成立10年的工廠被迫停產(chǎn),目前處于被執(zhí)行人狀態(tài)…

火山詩話
2025-08-05 17:54:52
你有過合租社死的經(jīng)歷嗎?網(wǎng)友:大家心中默念,非禮勿視!

你有過合租社死的經(jīng)歷嗎?網(wǎng)友:大家心中默念,非禮勿視!

解讀熱點事件
2025-07-16 00:15:03
樂道L90,詮釋中國大六座家用電動SUV產(chǎn)品公式

樂道L90,詮釋中國大六座家用電動SUV產(chǎn)品公式

觀察者網(wǎng)
2025-08-05 17:45:17
葉利欽對中國有何貢獻(xiàn)?頒發(fā)他一噸大勛章都不過分?他到底做了啥

葉利欽對中國有何貢獻(xiàn)?頒發(fā)他一噸大勛章都不過分?他到底做了啥

冰雅憶史
2025-08-05 08:53:29
上海交大教授曹樹基:731部隊不存在,侵華日軍沒有拿華人做實驗

上海交大教授曹樹基:731部隊不存在,侵華日軍沒有拿華人做實驗

云景侃記
2025-08-02 19:13:06
男子為了看視頻,一口氣開了好幾年的騰訊會員vip,可是騰訊又新增了一個svip權(quán)益

男子為了看視頻,一口氣開了好幾年的騰訊會員vip,可是騰訊又新增了一個svip權(quán)益

張曉磊
2025-07-26 09:16:06
北方持續(xù)高溫將畫句號,立秋首周我國南北氣溫上演“乾坤大挪移”

北方持續(xù)高溫將畫句號,立秋首周我國南北氣溫上演“乾坤大挪移”

縱相新聞
2025-08-05 15:23:04
云南文旅天塌了!130人被甩服務(wù)區(qū)6小時,還是高端團(tuán),不是錢的事

云南文旅天塌了!130人被甩服務(wù)區(qū)6小時,還是高端團(tuán),不是錢的事

子芫伴你成長
2025-08-03 21:25:50
關(guān)于社保的傳聞,是真的嗎?

關(guān)于社保的傳聞,是真的嗎?

中產(chǎn)先生
2025-08-05 12:41:53
閑魚用戶賣黃金卷入電詐8萬元被劃扣,警方稱符合辦案流程

閑魚用戶賣黃金卷入電詐8萬元被劃扣,警方稱符合辦案流程

澎湃新聞
2025-08-05 21:22:32
生完孩子后,我出軌的欲望非常強烈?。ㄅ晕鹑耄?>
    </a>
        <h3>
      <a href=性學(xué)研究僧
2025-06-17 22:37:40
香港灣仔驚現(xiàn)無頭尸體,警方稱系從高處墜下!現(xiàn)場欄桿撞變形

香港灣仔驚現(xiàn)無頭尸體,警方稱系從高處墜下!現(xiàn)場欄桿撞變形

南方都市報
2025-08-05 18:03:46
結(jié)束同鄭欽文短暫合作!納達(dá)爾恩師羅伊格,將執(zhí)教華裔前美網(wǎng)冠軍

結(jié)束同鄭欽文短暫合作!納達(dá)爾恩師羅伊格,將執(zhí)教華裔前美網(wǎng)冠軍

全景體育V
2025-08-05 11:01:50
最后3天,烏克蘭爆發(fā)起義,澤連斯基同意?;穑婪綀髲?fù)中國

最后3天,烏克蘭爆發(fā)起義,澤連斯基同意?;?,但要美方報復(fù)中國

墨蘭史書
2025-08-05 19:00:03
張寧落選后發(fā)文!回顧生涯并拋出問題,IP現(xiàn)身泰國回國了?

張寧落選后發(fā)文!回顧生涯并拋出問題,IP現(xiàn)身泰國回國了?

籃球資訊達(dá)人
2025-08-05 14:28:55
男子景區(qū)墜崖身亡后續(xù)!系本地人,攀爬最險山峰,墜落原因惹爭議

男子景區(qū)墜崖身亡后續(xù)!系本地人,攀爬最險山峰,墜落原因惹爭議

娛樂看阿敞
2025-08-04 17:20:49
2025-08-06 02:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11029文章數(shù) 176218關(guān)注度
往期回顧 全部

科技要聞

理想i8“版型瘦身”,一次遲到的果斷

頭條要聞

跳樓身亡醫(yī)生丈夫:事發(fā)前一天報警 我還說別不當(dāng)回事

頭條要聞

跳樓身亡醫(yī)生丈夫:事發(fā)前一天報警 我還說別不當(dāng)回事

體育要聞

“孫興慜就是熱刺,熱刺就是孫興慜”

娛樂要聞

吳倩張雨劍被曝已復(fù)合,是真是假?

財經(jīng)要聞

王貽芳院士:AI離人腦還有巨大差距

汽車要聞

續(xù)寫變革篇章,雷諾集團(tuán)的福蘭時代來了

態(tài)度原創(chuàng)

健康
本地
時尚
教育
公開課

呼吸科專家破解呼吸道九大謠言!

本地新聞

非遺里的天津|掐絲凝彩,手藝人的指尖藏多少歲月匠心?

但丁《神曲》的愛與救贖,在700年后迎來了答案

教育要聞

普通家庭對女兒最靠譜的富養(yǎng),是保護(hù)她的主體性

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 激情妓女一区二区HD| 国内精品久久人妻无| 一本久道中文无码字幕av| 四虎影视91| 人妻夜夜爽天天爽爽一区| av激情亚洲男人的天堂| 国产白嫩女人BBW| 操到喷水视频| 干日本少妇99| 黄色的视频美女他妈的| 国产精品ⅴ无码大片在线看| 东京一本一道一二三区| 七八七八亚洲影视| 国产高清不卡| 亚洲孕妇av免费播放| 操人视频在线播放| 99久久精品6在线播放| 后入 高潮少妇| 白嫩少妇激情无码| 国产亚洲精品久久久久久一区二区 | 亚欧成人精品一区二区乱| 乒乓亚锦赛女团决赛:中国vs日本| 久久国产欧美日韩精品图片| 丁香六月在线| 国产乱子视频观看| 亚洲无码东京热| 无码一区二区三区AV免费换脸| 性做久久久久久免费观看欧美| 亚洲精品~无码抽插| 免费一区二区三区视频狠狠| 国产成AV人片久青草影院| 久久激情偷拍综合| 蜜桃国际精品乱码一区二区三区| 极品少妇内射| 无码少妇10p| 亚洲区小说区图片区qvod| 国产v亚洲v天堂无码久久久| 爱爱视频HD| 精品无码AV人妻受辱系列| 久久综合久中文字幕青草| 亚洲男人的天堂av|