網易首頁 > 網易號 > 正文申請入駐

AI自己給自己當網管，實現(xiàn)安全“頓悟時刻”，風險率直降9.6%

2025-06-13 17:03:41　來源: 量子位

北京舉報

分享至

SafeKey團隊投稿
量子位 | 公眾號 QbitAI

大型推理模型（LRMs）在解決復雜任務時展現(xiàn)出的強大能力令人驚嘆，但其背后隱藏的安全風險不容忽視。

盡管學術界已嘗試通過監(jiān)督微調（SFT）有效地提升模型安全，但下圖的測試結果所示，監(jiān)督微調在面對訓練數據領域外的層出不窮的“越獄”攻擊時，往往顯得捉襟見肘，泛化能力有限。

同時，之前的工作沒有對大型推理模型的安全思考做深入的分析，以進行針對性的提升。

來自加州大學圣克魯茲分校，加州大學伯克利分校，思科研究和耶魯大學的的研究團隊提出了創(chuàng)新的SafeKey框架，成功在不影響模型核心能力的前提下，顯著增強了其安全穩(wěn)健性。

發(fā)現(xiàn)：大模型信息“越獄”的兩大核心

SafeKey團隊在探究模型為何會“越獄”成功時，獲得了兩大核心發(fā)現(xiàn)：

1.“關鍵句”現(xiàn)象(The “Key Sentence”)

如下圖所示，推理模型在回答問題時，普遍會先進行一段對用戶查詢的理解與重述。

而緊隨其后的第一個句子，往往直接決定了整個回答的“安全調性”。

研究團隊將其命名為“關鍵句”（Key Sentence）：一個安全的“頓悟時刻”（Aha-moment）能否在此時被觸發(fā)，是模型走向安全回答還是危險回答的分水嶺。

2.“沉睡的安全信號”(The Dormant Safety Signal)

另外，對于大量“越獄”成功的案例，模型在生成“關鍵句”之前，其對查詢的理解和復述已經明確暴露了查詢的惡意。

這意味著，模型內部的隱藏狀態(tài)在早期階段就已攜帶了強烈的安全特征信號。

但是在回答查詢的過程中，這個寶貴的安全信號卻陷入了“沉睡”，未能在后續(xù)生成“關鍵句”的過程中被充分利用，導致了最終的安全防線崩潰。

SafeKey：雙管齊下，喚醒模型的內在安全頓悟

基于上述發(fā)現(xiàn)，SafeKey框架應運而生——

它不再滿足于簡單的“對錯”教導，而是通過兩大創(chuàng)新優(yōu)化目標，精準地強化模型在“關鍵句”生成時的“安全頓悟時刻”。

雙通路安全頭(Dual-Path Safety Head):提前放大安全信號

如下圖所示，為了強化模型內部的安全信號，研究團隊設計了“雙通路安全頭”。在訓練階段，它會并行地監(jiān)督兩段關鍵內容的隱藏狀態(tài)：

a.“關鍵句”之前的所有內容。
b.模型對原始查詢的理解與復述過程。

這種設計通過監(jiān)督預測頭對這兩個關鍵階段的隱藏狀態(tài)進行安全判別，迫使模型在生成“關鍵句”前放大隱藏狀態(tài)內的安全信號，為后續(xù)成功觸發(fā)“安全頓悟”做好了充分鋪墊。

查詢遮蔽建模(Query-Mask Modeling):強迫模型“聽自己的”

如下圖所示，為了促使模型在決策時更加依賴自己內在的安全判斷，而非被“越獄”指令牽著鼻子走，SafeKey團隊提出了“查詢遮蔽建?！?。

該任務會完全遮蔽掉原始的用戶輸入，要求模型僅憑自己剛剛生成的“理解與復述”內容，來續(xù)寫出安全的“關鍵句”。

這種設計強迫模型必須“相信”并“利用”自己剛剛形成的、已經攜帶了安全信號的內部理解，從而極大地增強了安全決策的自主性和穩(wěn)健性。

測試：安全與能力的“雙贏”

SafeKey的有效性在實驗中得到了充分驗證：

安全性能顯著提升：實驗結果表明，SafeKey框架能夠顯著地提升模型的安全性，尤其是在面對訓練領域外的危險輸入和越獄提示的時候，能夠在三個不同大小的模型上降低9.6%的危險率。

有效維持核心能力：SafeKey完美地保持了模型原有的各項核心能力。在數學推理、代碼和通用語言理解等基準測試上，搭載SafeKey的模型甚至取得了比原始基線平均高0.8%的準確率。

模塊有效性驗證：消融實驗證明，“雙通路安全頭”和“查詢遮蔽建模”兩個模塊均可獨立提升模型安全性。進一步實驗分析發(fā)現(xiàn)，SafeKey能夠提升模型在生成關鍵句的時候對自己的復述與理解的注意力。同時，雙通路安全頭的損失函數能讓模型學到更好的安全表征，從而使安全頭更容易學會正確的安全分類。

總的來說，SafeKey框架能夠應用在各種不同的大型推理模型上，在幾乎不影響模型能力的同時提升模型的安全性，并且需要較少的計算資源。

論文地址：https://arxiv.org/pdf/2505.16186
項目主頁：https://safekeylrm.github.io/
復現(xiàn)代碼：https://github.com/eric-ai-lab/SafeKey/
模型：https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.