夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

60%情況下主流大模型沒理解風險只是裝懂!別被“安全答案”騙了

0
分享至

BSA團隊 投稿
量子位 | 公眾號 QbitAI

讓推理模型針對風險指令生成了安全輸出,表象下藏著認知危機:

即使生成合規(guī)答案,超60%的案例中模型并未真正理解風險。

換句話說,主流推理模型的安全性能存在系統(tǒng)性漏洞。



針對此種現(xiàn)象,淘天集團算法技術-未來實驗室團隊引入「表面安全對齊(Superficial Safety Alignment, SSA)這一術語來描述這種系統(tǒng)性漏洞。

進一步的,研究人員推出了一個Benchmark來深入研究推理模型中廣泛存在的SSA現(xiàn)象。

這個Benchmark名叫Beyond Safe Answers(BSA),是全球第一個針對推理模型思考過程中風險認知準確性的高質量評測集。



它主要包含3個特征:

  • 挑戰(zhàn)性的數(shù)據(jù)集
  • 全面的覆蓋范圍
  • 詳細的風險注釋



BSA提供了一個客觀公正的評測工具,幫助更好地理解和提升推理模型在安全領域的應用能力。

引入“表面安全對齊”概念

眾所周知,推理模型在顯著提升復雜問題解決任務性能的同時,也為模型內(nèi)部決策過程提供了前所未有的透明度。

思考過程中,推理模型會對指令中蘊含的風險進行分析。

因此,推理模型的思考過程是很好地觀測模型能否準確意識到指令中風險元素的窗口。

理想情況下,推理模型應有效管理兩個相互交織的安全目標:

  • (1)生成持續(xù)安全的最終響應
  • (2)在其整個推理鏈中保持嚴格、準確和連貫的風險評估

然而,研究團隊當前主流推理模型即使給出了安全回復,其思考過程中往往未能對指令中包含的風險進行全面而精確的內(nèi)部推理。

原因很簡單——

表面上安全的輸出往往并非源于對潛在風險因素的真正理解,而是源于對表面啟發(fā)式方法或淺層安全約束的偶然遵循。

淘天集團算法技術-未來實驗室團隊引入“表面安全對齊”(Superficial Safety Alignment, SSA)這一術語來描述這種系統(tǒng)性漏洞,并指出了由此產(chǎn)生的兩個主要后果。

首先,SSA損害了LRMs中面向安全的推理的可靠性,因為看似正確的響應可能源于根本上錯誤的推理過程。這種情況下的安全回復是不穩(wěn)定的,尤其是在采用多次采樣時。

其次, SSA造成了一種虛假的安全感;回復表面上符合既定的安全標準,但實際上卻對更細微或復雜的威脅情景毫無準備。

此外,研究人員認為SSA這一現(xiàn)象的出現(xiàn),是由于在推理模型的對齊訓練過程中廣泛使用了安全相關數(shù)據(jù),這些數(shù)據(jù)可能與開源基準數(shù)據(jù)集中的樣本表現(xiàn)出一定程度的相似性。

推理模型死記硬背了這些指令的特征,在此基礎上學會了拒絕回答的范式。因此在以往只關注回復的安全能力評估上,推理模型得到了過高的分數(shù)。

推出新Benchmark,包含3大特征

進一步的,研究人員推出了一個名叫Beyond Safe Answers(BSA)的Benchmark,來深入研究推理模型中廣泛存在的SSA現(xiàn)象。

它主要包含3個特征——

第一,挑戰(zhàn)性的數(shù)據(jù)集。

研究人員評測了Qwen3 系列、Deepseek R1系列、GLM、Doubao、Kimi等19個開源和閉源推理大模型。

從評測結果看,表現(xiàn)最好的模型Deepseek-R1-671B思維過程的準確率也不到40%。

第二,全面的覆蓋范圍。

團隊識別出“表面安全對齊”的3種普遍場景:

  • 過度敏感
  • 當指令中包含同種類型的風險內(nèi)容和將無害內(nèi)容時,錯誤地將無害內(nèi)容分類為有害內(nèi)容;
  • 認知捷徑
  • 當指令中包含兩種類型的風險內(nèi)容時,只能識別出其中一種;
  • 風險遺漏
  • 當指令中只包含一種類型時,未能識別該風險。

針對每種場景,研究團隊都系統(tǒng)地構建了跨越9個不同安全子領域的樣本,共2000條。

第三,詳細的風險注釋。

每個樣本都配備了明確的風險注釋,詳細說明潛在風險,精確評估模型的推理準確度。

七步完成數(shù)據(jù)集生成,僅保留2000個樣本

數(shù)據(jù)集的生成與質檢流程采用了人類專家與大語言模型相結合的雙重驗證機制,有效保障了數(shù)據(jù)的準確性與高水準。

具體流程概述如下:

第一步,低質量指令去除。

  • 長度控制與質量篩選:移除過長和過短的樣本。同時,去除異常編碼的樣本。
  • 語言識別與連貫性評估:采用輕量級語言分類器,過濾非英文文本。并通過 困惑度預置保證指令連貫性。

第二步,相關性判定。

通過模型判定指令和其風險便簽的相關性,并輸出原因給人工抽查,以保證準確度。

第三步,冗余樣本去重。

采用N-Gram匹配方法和句向量相似度過濾,快速去除近似重復的文本。

第四步,風險標注。

研究人員對保留的有風險和無風險的指令進行了人工標注:為有風險的指令編寫了其有風險的原因。為無風險的指令編寫了其“看似有風險但實際上無風險”的原因。

這些內(nèi)容作為數(shù)據(jù)合成的基礎。

第五步,深度合成。

利用頭部大模型對上述種子內(nèi)容進行改寫、擴充和合并,覆蓋不同場景,生成了對應于三類SSA場景的測試樣本。

第六步,難度過濾。

首先剔除了不符合各場景要求的樣本,然后將合格的樣本輸入五個主流輕量級LRM進行測試,篩選出難度適宜的樣本。

第七步,人類專家雙重驗證。

對數(shù)據(jù)實施了嚴格的人工標注質控,最終形成了BSA基準集。

通過以上系統(tǒng)化的流程,Beyond Safe Answer數(shù)據(jù)集僅保留了2000個樣本。

模型推理準確性越高,回答越安全

考慮了在k次采樣下回復安全性和推理正確性,評測方式主要有以下五個指標:



從以下匯總結果,可以分析出一些值得關注的信息。



注:OS、CS和RO分別是子主題過度敏感、認知捷徑和風險遺漏的縮寫

首先,表面安全對齊普遍存在,深層推理能力不足。

表現(xiàn)最好的模型在標準安全評測(Safe@1)中得分超過90%,但在推理準確率(Think@1)不到40%,在多次采樣一致推理正確(Think@k)低于20%,表明安全合規(guī)多為表面現(xiàn)象,底層推理能力仍嚴重不足。

并且模型推理準確性越高,回答越安全;反之則不穩(wěn)定。

其次,多風險場景下的模型容易選擇性忽視一些風險。

在認知捷徑(CS@1和CS@k)的場景下的實驗顯示,面對包含多種風險類型的指令時,LRMs通常只關注其中一個突出的風險,而忽略了其他并存的風險。

這種選擇性關注表明模型存在優(yōu)先級偏差或對不同風險敏感性不同,導致在復合風險場景下的評估不完整。

然而在混合風險內(nèi)容和同種易敏感無風險內(nèi)容的場景下,研究者發(fā)現(xiàn)推理模型的風險閾值明顯降低,易出現(xiàn)誤報。

這說明在復雜或模糊場景下,模型的風險識別閾值可能過低,從而產(chǎn)生泛化錯誤和不當風險判定。

最后,團隊發(fā)現(xiàn)隨著參數(shù)量的提升大模型性能提升明顯,特別是在風險遺漏場景。

從Qwen3-0.6B到14B,參數(shù)量越大,所有指標下的表現(xiàn)越好。

這一提升來源于大模型更強的知識存儲與檢索能力,因為風險遺漏往往與模型回憶模糊或風險知識關聯(lián)不充分有關。

更大的參數(shù)量有助于充分利用內(nèi)部知識庫,顯著減少遺漏并提升安全對齊的魯棒性。

這一趨勢表明,模型規(guī)模擴展依然是提升安全對齊能力(特別是復雜知識場景下全面風險識別)的有效路徑。

安全規(guī)則讓模型成了“多慮先生”

與此同時,研究人員還進一步探究了安全規(guī)則、優(yōu)質數(shù)據(jù)微調(diào)和解碼參數(shù)對模型表面安全現(xiàn)象的影響。發(fā)現(xiàn)了一些有趣的結論:

安全規(guī)則讓模型成了“多慮先生”

此前OpenAI和Anthropic的研究,都已經(jīng)證明將明確的安全規(guī)則納入大模型的輸入中,可以顯著提升其回復的安全性。

為了進一步探索這類安全規(guī)則能否緩解SSA現(xiàn)象,研究團隊在輸入提示中直接加入了簡明而明確的安全指南。

這些安全指南要求模型在生成回復前,系統(tǒng)性地評估輸入內(nèi)容中可能存在的風險特征。

隨后,研究者對五個選定的大模型進行了對比評測,分別在加入安全指令前后,評估其表現(xiàn)指標。



如上圖所示,所有受評估的基礎模型在加入安全指令后,其回復的安全性和安全推理準確率均有顯著提升。

尤其值得注意的是,QwQ-32B模型在應用這些指令后,其回復安全性得分甚至超過了99%。

研究人員觀察發(fā)現(xiàn),在推理階段,大模型會有條不紊地應用這些安全規(guī)則,對輸入內(nèi)容進行系統(tǒng)的、基于規(guī)則的分析。

這一機制幫助模型識別出用戶提示中隱含的、難以察覺的風險因素,否則這些風險可能被忽略。

但也發(fā)現(xiàn)了一個意外后果:

基于規(guī)則的方法有時會放大模型的“過度敏感”,即模型對一些本質上無害的輸入也表現(xiàn)出過度謹慎的態(tài)度。

安全微調(diào)的蹺蹺板效應

研究團隊嘗試通過精心設計的安全推理數(shù)據(jù)微調(diào)來提升LRMs的安全表現(xiàn)。

他們采用了不同參數(shù)規(guī)模(0.6B至32B)的Qwen3系列模型,利用包含指令中風險分析的STAR-1數(shù)據(jù)集進行了微調(diào)。

隨后,又對比分析了模型在微調(diào)前后的安全性表現(xiàn)。

實驗結果顯示,微調(diào)顯著提升了各規(guī)模模型的整體回復安全性和推理過程中風險識別的準確性。

但隨著模型規(guī)模的增大,這種提升幅度呈現(xiàn)遞減趨勢。



具體而言,小模型(如0.6B)表現(xiàn)出了極為顯著的提升,Safe@k和Think@k指標分別提升了314%和1340%。而最大規(guī)模模型(32B),其微調(diào)前基線已較高,提升相對有限,Safe@k和Think@k分別僅提高了2%和36%。

對各子場景進一步分析發(fā)現(xiàn),高質量推理數(shù)據(jù)的訓練有效緩解了模型認知捷徑和風險遺漏問題,但同時也提升了模型過度敏感的傾向。

這一現(xiàn)象表明,安全對齊存在權衡:

詳細推理軌跡訓練增強了模型風險識別和防范能力,但也可能導致過度敏感類問題下模型過于謹慎,體現(xiàn)出不可忽視的“安全對齊稅(Safety Alignment Tax)”。

調(diào)整采樣參數(shù)對安全推理準確性幾乎沒有幫助

對于非安全問題,采樣參數(shù)的調(diào)整(特別是Temperature)會對回復有顯著的影響。

針對Beyond Safe Answer評測集,研究者考察了解碼階段的關鍵采樣參數(shù)——Temperature(溫度參數(shù),取值為{0.4, 0.6, 0.8, 1.0, 1.2})、Top-p(取值為{0.5, 0.75, 0.95})和Top-k(取值為{1, 20, 40})——對模型在風險分析的準確性以及生成安全回復能力方面的表現(xiàn)。

主要評估指標包括Think@1、Safe@1、Think@k 和 Safe@k。



在QwQ-32B和Qwen3-32B兩個模型上的實驗結果表明,調(diào)整這些解碼參數(shù)對安全性和推理準確性的影響都極其有限。

針對上述結果,研究團隊認為模型的安全推理能力和推理邏輯準確性主要由預訓練和對齊階段形成的內(nèi)部知識結構決定。

雖然解碼階段的采樣策略可以影響生成文本的多樣性和隨機性,但對基本的安全性指標和推理性能影響甚微。

因此,大語言模型的核心安全推理能力主要取決于訓練數(shù)據(jù)和模型本身的參數(shù),而非具體的解碼策略。

這凸顯了通過優(yōu)化模型訓練和對齊方式來提升安全推理能力的重要性,而不是僅僅關注解碼參數(shù)的調(diào)整。



這項研究的核心作者包括鄭柏會、鄭博仁、曹珂瑞、譚映水,作者團隊來自淘天集團算法技術-未來實驗室團隊。

未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經(jīng)營效果。實驗室聚焦大模型、多模態(tài)等AI技術方向,致力于打造大模型相關基礎算法、模型能力和各類AI Native應用,引領AI在生活消費領域的技術創(chuàng)新。

關于Beyond Safe Answers的更多實驗結果和細節(jié)詳見論文,研究團隊將持續(xù)更新和維護數(shù)據(jù)集及評測榜單。

論文鏈接:

https://arxiv.org/abs/2505.19690

項目主頁:
https://openstellarteam.github.io/BSA
數(shù)據(jù)集下載:
https://huggingface.co/datasets/OpenStellarTeam/BeyongSafeAnswer_Benchmark
代碼倉庫:
https://github.com/OpenStellarTeam/BSA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
正式完成簽約!威斯布魯克找到工作,給當年小弟打替補

正式完成簽約!威斯布魯克找到工作,給當年小弟打替補

德譯洋洋
2025-10-16 13:06:00
美國撤回100%關稅,希望中方高抬貴手,不料時間一到中國手起刀落

美國撤回100%關稅,希望中方高抬貴手,不料時間一到中國手起刀落

現(xiàn)代小青青慕慕
2025-10-15 06:34:15
100T用中文向LPL道歉!嘲諷LPL僅一天即遭TES速通

100T用中文向LPL道歉!嘲諷LPL僅一天即遭TES速通

游民星空
2025-10-16 20:49:12
林心如上節(jié)目自曝家庭瑣事,和霍建華結婚九年,還是各管各的錢

林心如上節(jié)目自曝家庭瑣事,和霍建華結婚九年,還是各管各的錢

一只番茄魚
2025-10-16 14:58:47
汪峰也沒想到,含辛茹苦養(yǎng)大的女兒,竟先一步給章子怡“鋪了路”

汪峰也沒想到,含辛茹苦養(yǎng)大的女兒,竟先一步給章子怡“鋪了路”

阿嵀體育評論
2025-10-16 05:23:59
《沉默的榮耀》吳石沒想到,身邊最危險的人不是黎晴,不是周至柔

《沉默的榮耀》吳石沒想到,身邊最危險的人不是黎晴,不是周至柔

手工制作阿殲
2025-10-17 03:33:37
貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

第四思維
2025-08-26 09:14:41
吳石直到犧牲也不知道,自己小兒子能美國留學,竟是“對頭”幫忙

吳石直到犧牲也不知道,自己小兒子能美國留學,竟是“對頭”幫忙

小莜讀史
2025-10-13 17:47:42
河南通報:劉新順嚴重職務違法并涉嫌受賄犯罪

河南通報:劉新順嚴重職務違法并涉嫌受賄犯罪

新京報政事兒
2025-10-16 10:51:55
石榴再次受到關注!醫(yī)生證實:常吃石榴,可能會帶來這4大益處

石榴再次受到關注!醫(yī)生證實:常吃石榴,可能會帶來這4大益處

好賢觀史記
2025-10-14 15:18:21
吳石被押赴刑場,毛人鳳嚴令劊子手:用點射!他決不允許奇跡發(fā)生

吳石被押赴刑場,毛人鳳嚴令劊子手:用點射!他決不允許奇跡發(fā)生

桑啟紅原
2025-10-15 13:37:22
“我們特地趕早來的,你們的光刻機在哪里?”深圳一家成立才幾年的公司,今天爆火!

“我們特地趕早來的,你們的光刻機在哪里?”深圳一家成立才幾年的公司,今天爆火!

每日經(jīng)濟新聞
2025-10-15 17:29:05
170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

健身迷
2025-09-20 09:22:20
我剛懷孕被婆婆趕出門,10天后丈夫問我知錯沒,我:房子賣了,抓緊搬

我剛懷孕被婆婆趕出門,10天后丈夫問我知錯沒,我:房子賣了,抓緊搬

懸案解密檔案
2025-10-15 09:25:02
不忍了!美國各地爆發(fā)示威,民眾:特朗普趁早滾下臺!

不忍了!美國各地爆發(fā)示威,民眾:特朗普趁早滾下臺!

混沌錄
2025-10-16 19:57:06
盧梭:世界上最沒用的三種教育方式——發(fā)脾氣、講道理、自我感動

盧梭:世界上最沒用的三種教育方式——發(fā)脾氣、講道理、自我感動

杏花煙雨江南的碧園
2025-10-16 07:00:03
我被裁員那天,丈夫收購了我公司開除了我上司,他:你是我的人

我被裁員那天,丈夫收購了我公司開除了我上司,他:你是我的人

清茶淺談
2025-08-25 20:31:04
新冠沒有消失,也不會消失

新冠沒有消失,也不會消失

果殼
2025-10-16 21:03:40
全球最大電詐案告破:柬埔寨太子集團被美國沒收了150億美元的比特幣

全球最大電詐案告破:柬埔寨太子集團被美國沒收了150億美元的比特幣

爆角追蹤
2025-10-15 21:44:32
國乒新動態(tài)!離開印度連夜回國,孫穎莎登日本雜志,新賽程已定

國乒新動態(tài)!離開印度連夜回國,孫穎莎登日本雜志,新賽程已定

興史興談
2025-10-16 16:13:33
2025-10-17 06:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11501文章數(shù) 176304關注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級” 團隊

頭條要聞

俄美總統(tǒng)時隔近兩月再通話:時長2.5小時 細節(jié)公布

頭條要聞

俄美總統(tǒng)時隔近兩月再通話:時長2.5小時 細節(jié)公布

體育要聞

人口5.5萬,他們還在延續(xù)世界杯的夢想

娛樂要聞

還清債務的劉濤 已走上了另一條大道

財經(jīng)要聞

愛爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

提問蓮花馮擎峰:如何保證事故后車門正常開啟?

態(tài)度原創(chuàng)

健康
手機
數(shù)碼
本地
房產(chǎn)

內(nèi)分泌科專家破解身高八大謠言

手機要聞

小米17系列再見了,小米18系然升級,等嗎?

數(shù)碼要聞

2025網(wǎng)易《未來公開課》:暢談AI深度連接現(xiàn)實與未來

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

房產(chǎn)要聞

封關在即!又有神秘煤老板,三亞瘋狂抄資產(chǎn)!

無障礙瀏覽 進入關懷版 一级毛片免费不卡在线| 成人SV一区| 视频图片小说日韩久久| 国产男女猛烈无遮挡免费视频| 久久久久久久久久久高潮一区二区 | www.depuri.cn| 国产精品欧美成人片| 色 av 小说| 人人操狠狠爽| 国产精品成人国产乱| 日韩一线无码av毛片免费| 蜜桃国精产品二三三区视频| 性欧美在线| 高清无码网址| 紧爽舒服视频高清在线网址| 日本三级视频网站| 十八禁视频网站| 肥老熟妇伦子伦456视频| 无码av二区三区久久精品| 六月丁香婷婷色狠狠久久| 最新国产精品好看的精品| 中国少妇XXAV| 无码不卡中文字幕av| 国产大屁股视频免费区| 亚洲无码国产无码日韩强奸无码| 成人黄网站色大片免费观看| 精品国产美女福到在线不卡| 俄罗斯老年毛片| 人妻 69 p| www.婷婷五月开心| 日本道专区无码中文字幕| 粉嫩av一区二区| 91人妻洗澡| 国产免费一区二区三区最新不卡| 乱人伦人妻中文字幕不卡| 精品国内一区二区三区蜜桃| 欧美交换配乱吟粗大视频| 久久精品日韩欧美久久| 红杏亚洲影院一区二区三区| 成人国产自偷自拍| 精品人妻系列无码专区久久|