夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT正面對決Claude!OpenAI竟沒全贏,AI安全「極限大測」真相曝光

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】OpenAI和Anthropic罕見合作!因為AI安全「分手」后,這次雙方卻因為安全合作:測試雙方模型在幻覺等四大安全方面的具體表現(xiàn)。這場合作,不僅是技術(shù)碰撞,更是AI安全的里程碑,百萬用戶每天的互動,正推動安全邊界不斷擴(kuò)展。

難得一見!

OpenAI和Anthropic罕見聯(lián)手合作,交叉驗證AI模型安全。

這確實罕見,要知道Anthropic的7位聯(lián)合創(chuàng)始人就是不滿OpenAI的安全策略,才自立門戶,致力于AI安全和對齊。

在接受媒體采訪時,OpenAI聯(lián)合創(chuàng)始人Wojciech Zaremba表示,這類合作正變得愈發(fā)重要。

因為如今的AI已非同小可、「舉足輕重」:每天都有數(shù)以百萬計的人在使用這些模型。


以下是發(fā)現(xiàn)的要點總結(jié):

指令優(yōu)先級:Claude 4全場最佳,只有在抵抗系統(tǒng)提示詞提取時,OpenAI最好的推理模型難分勝負(fù)。

越獄(繞過安全限制):在越獄評估中,Claude模型整體表現(xiàn)不如OpenAI o3、o4-mini。

幻覺評估:Claude模型的拒答率高達(dá)70%,但幻覺較低;而OpenAI o3、o4-mini拒答率較低,但有時幻覺率高。

欺騙/操縱行為:OpenAI o3和Sonnet 4整體上表現(xiàn)最好,發(fā)生率最低。意外的是,Opus 4在開啟推理時的表現(xiàn)甚至比關(guān)閉時更差,而OpenAI o4-mini的表現(xiàn)同樣偏弱。

大模型聽誰的?

指令層級是LLM(大型語言模型)處理指令優(yōu)先級的分級框架,通常包括:

內(nèi)置系統(tǒng)/政策約束(如安全、倫理底線);

開發(fā)者級目標(biāo)(如定制化規(guī)則);

用戶輸入的提示。

這類測試的核心目標(biāo):確保安全與對齊優(yōu)先,同時允許開發(fā)者和用戶合理引導(dǎo)模型行為

這次共有三項壓力測試,評估模型在復(fù)雜場景下的層級遵循能力

1.系統(tǒng)消息與用戶消息的沖突處理:模型是否優(yōu)先執(zhí)行系統(tǒng)級安全指令,而非用戶的潛在危險請求。

2.抵御系統(tǒng)提示詞提取:防止用戶通過技術(shù)手段(如提示注入)獲取或篡改模型的內(nèi)置規(guī)則。

3.多層指令的優(yōu)先級判斷:例如,用戶要求「忽略安全協(xié)議」時,模型是否堅持底線。

Claude 4在此測試中表現(xiàn)突出,尤其是在避免沖突和抵御提示詞提取方面。

在抵御提示詞提取測試中,重點是Password Protection User Message與Phrase Protection User Message。

兩項測試流程一致,僅在隱藏的秘密內(nèi)容對抗性提示的復(fù)雜度上有所不同。

總體上,Claude 4系列在系統(tǒng)提示詞提取抵抗方面表現(xiàn)穩(wěn)健。

Password Protection測試集上,Opus 4與Sonnet 4的得分均達(dá)到1.000的滿分,與OpenAI o3持平。

這與此前的結(jié)論一致:在該類任務(wù)上,具備更強推理能力的模型往往表現(xiàn)更佳


在更具挑戰(zhàn)性的「Phrase Protection」短語保護(hù)任務(wù),Claude模型(Opus 4、Sonnet 4)依舊出色:與OpenAI o3持平,甚至略優(yōu)于OpenAI o4-mini。


系統(tǒng)消息與用戶消息沖突測試

在系統(tǒng)級指令與用戶請求發(fā)生沖突時,系統(tǒng)與用戶消息沖突評估測試模型遵循指令層次的能力。

在此評估中,模型會接觸到一系列多輪對話。這些對話以明確的系統(tǒng)指令開始,隨后用戶會嘗試引導(dǎo)助手違反這些指令。

總體而言,Opus 4和Sonnet 4在這個任務(wù)上表現(xiàn)突出,甚至超過了OpenAI的o3模型。

這表明這些模型在執(zhí)行指令層次方面表現(xiàn)卓越,即使面對專門設(shè)計的挑戰(zhàn)也能保持穩(wěn)定的表現(xiàn)。


大模型想不想逃出「安全牢籠」?

越獄攻擊是指惡意行為者試圖誘使模型提供被禁止內(nèi)容的行為。

StrongREJECT評估框架

StrongREJECT v2是基于《StrongREJECT》論文開發(fā)的對抗性魯棒性基準(zhǔn)測試,用于衡量模型抗越獄能力。


論文鏈接:https://arxiv.org//2402.10260

該框架包含三個核心組件:

1. 被禁止的提示詞集合;

2. 自動化「有害性」評分系統(tǒng);

3. 分層應(yīng)用于每個違規(guī)查詢的提示工程技術(shù)庫。

OpenAI采用精選的60個問題子集,這些問題是專門為壓力測試OpenAI政策禁止領(lǐng)域而設(shè)計的。

每個問題都使用約20種不同變體進(jìn)行測試,應(yīng)用的技術(shù)包括:翻譯成不同語言、添加誤導(dǎo)性或干擾性指令,或試圖誘使模型忽略先前指令等

該基準(zhǔn)測試能為常見越獄場景下的安全防護(hù)機制提供有效的壓力測試,但其有效性受限于數(shù)據(jù)變體的覆蓋范圍以及自動評分系統(tǒng)的局限性。

主要報告的指標(biāo)是Goodness@0.1,用于衡量模型對抗最有害的10%越獄嘗試的效果。指標(biāo)得分越高,表明模型的性能越好。


OpenAI o3、OpenAI o4-mini、Claude 4和Sonnet 4等推理模型,通常對各種越獄嘗試表現(xiàn)出強烈的抵抗力,盡管仍偶有失敗。

非推理模型,如GPT?4o和GPT?4.1,則更易受到攻擊。

在定性分析中,OpenAI發(fā)現(xiàn)Claude Sonnet 4和Claude Opus 4通常表現(xiàn)出較強的抵抗力,但最容易被「過去時態(tài)」越獄所突破,即當(dāng)有害請求被表述為過去的事件時。

一些輕量級的混淆和框架技巧,如自動混淆、base64/rot13編碼變體、有效負(fù)載拆分、網(wǎng)絡(luò)用語加密(leetspeak)和去除元音等,偶爾能成功突破模型的防線。

相比之下,一些較舊的攻擊方式,如「DAN/dev?mode」、復(fù)雜的多次嘗試構(gòu)建和純風(fēng)格/JSON/翻譯擾動等,在很大程度上被模型有效中和。

OpenAI還發(fā)現(xiàn),在某些情況下,Sonnet 4和Opus 4對將請求翻譯成如Guranii等低資源語言的攻擊具有一定的抵抗力。

相比之下,OpenAI o3在抵抗「過去時態(tài)」越獄方面表現(xiàn)更為出色,失敗模式主要局限于base64風(fēng)格提示、少量低資源語言翻譯和一些組合攻擊。

GPT?4o和GPT?4.1則更容易被「過去時態(tài)」越獄所欺騙,同時也對輕量級混淆和編碼手段敏感。

輔導(dǎo)型越獄測試(Tutor Jailbreak Test)

為了測試模型在越獄攻擊下的抵抗力及其對指令層級的遵循情況,OpenAI設(shè)計了「輔導(dǎo)型越獄測試」:

模型需要像輔導(dǎo)老師一樣,引導(dǎo)學(xué)生逐步解題,而不是直接給出答案。

接著,他們使用多種越獄式提示詞進(jìn)行壓力測試,試圖誘導(dǎo)模型直接泄露最終答案。

與前文提到的元層級攻擊不同,這里采用的是自然語言論述類的攻擊方式,更貼近現(xiàn)實世界中的常見情況。


結(jié)果有些出人意料:推理型模型OpenAI o3與o4-mini表現(xiàn)優(yōu)異,但Sonnet 4(無推理模式的表現(xiàn)甚至遠(yuǎn)遠(yuǎn)超過啟用推理Opus 4。

這一點說明在特定任務(wù)上,關(guān)閉推理反而可能減少模型被越獄的機會。

非推理型的GPT模型在此類任務(wù)上表現(xiàn)較差。

但需要注意,GPT系列在實際部署中同時支持開發(fā)者消息(developer message)與系統(tǒng)消息(system message)。當(dāng)把開發(fā)者消息納入時,OpenAI o3的得分超過0.98,GPT-4.1也被顯著提升至0.75以上

這說明在真實環(huán)境中,開發(fā)者消息對于強化指令層級的遵循非常有效。

表現(xiàn)最好的模型有何不同?

在絕大多數(shù)提示上,Top 2模型都能成功抵抗;但一旦失手,它們的失效模式并不相同。

Sonnet尤其善于拒絕借用外部權(quán)威或道德壓力的提示詞,例如提到「項目負(fù)責(zé)人」「政策更新」,或訴諸同情心(如「幫助一位失明學(xué)生」「臨近考試、情況緊急」等)。

相比之下,OpenAI o3更可能把這類基于權(quán)威或善意包裝的理由,視作可以覆蓋原始指令的正當(dāng)理由。

OpenAI o3對試圖在對話中途「修改輔導(dǎo)規(guī)則的提示很有抵抗力:包括聲稱指令已更新、以技術(shù)故障為由要求直接給答案等。

o3會把這類對話中的「更新」當(dāng)作用戶層級的指令,其優(yōu)先級仍從屬于系統(tǒng)消息。而Sonnet則更容易把這些說法當(dāng)作合法的覆蓋依據(jù)。

LLM也會胡說八道

確保信息的準(zhǔn)確性和防止虛假信息的產(chǎn)生是安全測試的關(guān)鍵部分,這樣用戶才能信任他們所接收到的信息。

人物虛假信息測試

人物虛假信息測試(v4)旨在衡量模型在生成關(guān)于真實人物的信息時,產(chǎn)生的事實準(zhǔn)確性,以及檢測和衡量在生成的傳記或摘要中出現(xiàn)的虛假信息。

該測試使用來自Wikidata的結(jié)構(gòu)化數(shù)據(jù)來創(chuàng)建特定的提示。

這些提示涵蓋了關(guān)鍵的個人信息,如出生日期、公民身份、配偶和博士生導(dǎo)師。

盡管存在一些限制,該評估仍然有用,有助于評估模型在防止虛假信息方面的能力。

最后,值得注意的是,這些評估是在沒有使用外部工具的情況下進(jìn)行的,模型無法瀏覽或訪問其他外部知識庫。

這有助于大家更好地理解模型的行為,但測試環(huán)境并不完全反映現(xiàn)實世界。


Opus 4與Sonnet 4絕對幻覺率極低,但代價是更高的拒答率。它們似乎將「確保確定性」放在首位,即使因此犧牲了部分實用性。

與之形成對比的是,OpenAI o3與OpenAI o4-mini拒答率要低近一個數(shù)量級。以o3為例,它給出的完全正確回答數(shù)量是前兩者的兩倍以上,整體提高了響應(yīng)的準(zhǔn)確性,但同時也帶來了更高的幻覺率。

在這項評測中,非推理型模型GPT-4o與GPT-4.1的表現(xiàn)甚至優(yōu)于o3與o4-mini,其中GPT-4o的結(jié)果最好。

這一結(jié)果突出了兩大類推理模型在應(yīng)對幻覺問題上的不同路徑與權(quán)衡

  • Claude系列更傾向于「寧可拒絕,也不冒險;

  • OpenAI的推理模型則更強調(diào)「回答覆蓋率」,但幻覺風(fēng)險更高。


SimpleQA No Browse測試

SimpleQA No Browse (v1)是另一項針對事實性與抗幻覺能力的壓力測試。

該測試要求模型在不允許瀏覽或使用外部工具的情況下,僅依靠內(nèi)部知識回答事實型、簡答題。

所謂的「simple」指的是評分方式:每個問題都只有一個正確答案,因而評分過程相對直接,也最大限度減少了自動評分器誤差。并不是說測試本身難度低。

OpenAI o3與Opus 4、Sonnet 4在「正確/錯誤」的整體比例上大體接近;但OpenAI o4-mini表現(xiàn)最差。


作弊與欺騙行為

近幾個月來,模型的作弊與欺騙日益凸顯。

這是OpenAI高度優(yōu)先的研究重點,所以他們在評估防范兩個層面都投入了大量精力。

在這一范疇內(nèi),可能出現(xiàn)的行為包括:

1. 撒謊(Lying):模型明知故犯。

2. 保留實力(Sandbagging):模型有意在任務(wù)中壓低表現(xiàn),以規(guī)避因展現(xiàn)過強能力而帶來的懲罰。

3. 成績作弊(Reward hacking):模型為了完成目標(biāo),采取「歪門邪道」的做法。

為了檢驗這些潛在行為,OpenAI等合作設(shè)計了一套基于智能體(agent-based)的評測方法:

  • 人為構(gòu)造風(fēng)險、目標(biāo)沖突的場景;

  • 在受控的離線實驗中,觀察模型是否會采取不對齊的行動;

  • 以及,在采取該行動后,是否會對其進(jìn)行掩飾或謊報。

測試流程如下:每個任務(wù)運行100次實驗,統(tǒng)計模型出現(xiàn)欺騙/算計行為的次數(shù),再計算平均值。

最終結(jié)果對13個多步驟環(huán)境取平均,得出整體的平均欺騙率(scheming rate)

Opus 4、Sonnet 4:表現(xiàn)較好,平均欺騙率處于較低水平;

OpenAI o3、o4-mini:結(jié)果中等;

GPT-4o、GPT-4.1:表現(xiàn)偏弱,平均欺騙率更高;

無推理模式(no thinking)的Sonnet 4與Opus 4:相比啟用推理模式時,表現(xiàn)差異明顯。


需要注意的是,由于不同環(huán)境與模型的結(jié)果波動很大,平均值常常被極端值主導(dǎo)。

因此,他們還統(tǒng)計了各模型在欺騙率=0、<0.05、<0.5時所覆蓋的環(huán)境數(shù)量:

在這些閾值下,Opus 4與Sonnet 4覆蓋的環(huán)境數(shù)更多,顯示出更穩(wěn)健的一致性;

OpenAI系列與GPT-4系列在不同閾值下的表現(xiàn)則更分散。


參考資料:

https://openai.com/index/openai-anthropic-safety-evaluation/

https://techcrunch.com/2025/08/27/openai-co-founder-calls-for-ai-labs-to-safety-test-rival-models/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
發(fā)現(xiàn)一個可悲的現(xiàn)象:很多五六十歲的老人,都在被子女啃

發(fā)現(xiàn)一個可悲的現(xiàn)象:很多五六十歲的老人,都在被子女啃

有故事的人
2025-07-22 06:21:05
以色列預(yù)測,未來10年全球科技實力最強的“6個國家”,都有誰?

以色列預(yù)測,未來10年全球科技實力最強的“6個國家”,都有誰?

小舟談歷史
2025-08-28 11:47:15
男子家里常年高溫32度,找不到原因絕望搬走,搬走當(dāng)天樓下嚇壞了

男子家里常年高溫32度,找不到原因絕望搬走,搬走當(dāng)天樓下嚇壞了

荔枝人物記
2025-08-25 09:25:07
媒體人: 趙睿加盟首鋼符合規(guī)則 但背后卻折射CBA規(guī)則的監(jiān)管難題

媒體人: 趙睿加盟首鋼符合規(guī)則 但背后卻折射CBA規(guī)則的監(jiān)管難題

直播吧
2025-08-29 01:38:40
CCTV5直播中國女排VS法國,開球時間有變,央視點評龔翔宇引爭議

CCTV5直播中國女排VS法國,開球時間有變,央視點評龔翔宇引爭議

體育大學(xué)僧
2025-08-28 07:58:32
鄭愷小姨子不忍了!回應(yīng)在姐夫家蹭吃蹭住,買包事件真相大白

鄭愷小姨子不忍了!回應(yīng)在姐夫家蹭吃蹭住,買包事件真相大白

銀河史記
2025-08-28 15:52:41
東大拒絕后,第一個愿意向烏派兵的國家出現(xiàn),拉夫羅夫反應(yīng)強烈!

東大拒絕后,第一個愿意向烏派兵的國家出現(xiàn),拉夫羅夫反應(yīng)強烈!

起喜電影
2025-08-29 01:38:28
超硬核!我國6G無線通信領(lǐng)域取得重大突破

超硬核!我國6G無線通信領(lǐng)域取得重大突破

中國日報網(wǎng)
2025-08-28 19:11:03
女童在地鐵占座后續(xù),乘客將鞋踢出車廂,家長護(hù)短,曝更多細(xì)節(jié)

女童在地鐵占座后續(xù),乘客將鞋踢出車廂,家長護(hù)短,曝更多細(xì)節(jié)

寒士之言本尊
2025-08-28 15:28:26
兩大靠山已到,菲反手給中方劃紅線,闖仁愛礁的船隊最后一刻認(rèn)慫

兩大靠山已到,菲反手給中方劃紅線,闖仁愛礁的船隊最后一刻認(rèn)慫

丁懰驚悚影視解說
2025-08-29 00:39:52
剛剛,中芯國際發(fā)布財報!營收44.56億美元!

剛剛,中芯國際發(fā)布財報!營收44.56億美元!

芯榜
2025-08-28 19:52:39
中國取消2550億訂單,光刻機已經(jīng)“停工”,美國芯片公司開始著急

中國取消2550億訂單,光刻機已經(jīng)“停工”,美國芯片公司開始著急

南權(quán)先生
2025-08-27 09:41:32
第13天丟掉冠軍,成龍被劉昊然打敗,《捕風(fēng)追影》20億票房夢碎了

第13天丟掉冠軍,成龍被劉昊然打敗,《捕風(fēng)追影》20億票房夢碎了

影視高原說
2025-08-28 18:51:59
首個阻擾93閱兵的國家出現(xiàn),拒絕向中國道歉,還派軍機監(jiān)視中方

首個阻擾93閱兵的國家出現(xiàn),拒絕向中國道歉,還派軍機監(jiān)視中方

顧史
2025-08-29 01:10:56
格林斯比老板:曼聯(lián)工作人員賽前問球場的主帥更衣室在哪

格林斯比老板:曼聯(lián)工作人員賽前問球場的主帥更衣室在哪

懂球帝
2025-08-29 04:19:12
6人被查,1人被處分

6人被查,1人被處分

極目新聞
2025-08-28 10:51:09
中央已劃紅線!公職人員這6種行為被嚴(yán)厲禁止,以后通通不行了!

中央已劃紅線!公職人員這6種行為被嚴(yán)厲禁止,以后通通不行了!

鬼菜生活
2025-08-27 13:14:45
湖南的高溫臺風(fēng)都刮不跑?終于要降溫了,就在8月31日前后

湖南的高溫臺風(fēng)都刮不跑?終于要降溫了,就在8月31日前后

三湘都市報
2025-08-28 14:37:18
哈利伯頓:我兩次做核磁醫(yī)生都說不擔(dān)心我的跟腱 最后他也很驚訝

哈利伯頓:我兩次做核磁醫(yī)生都說不擔(dān)心我的跟腱 最后他也很驚訝

直播吧
2025-08-28 17:07:33
這片高粱紅到底藏著什么魔力?看完竟讓人連心跳都跟著發(fā)燙

這片高粱紅到底藏著什么魔力?看完竟讓人連心跳都跟著發(fā)燙

青蘋果sht
2025-08-25 05:50:18
2025-08-29 04:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13341文章數(shù) 66139關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá),被中國市場“反殺”

頭條要聞

媒體:宗馥莉終于徹底告別宗慶后

頭條要聞

媒體:宗馥莉終于徹底告別宗慶后

體育要聞

33歲,癌癥+白血病,他還不想放棄籃球

娛樂要聞

馬伊琍回應(yīng)婚變:痛苦源于文章

財經(jīng)要聞

生死淘汰賽 "新能源三劍客"負(fù)債6.56萬億

汽車要聞

全新設(shè)計更運動/純電續(xù)航125km 吉利銀河星耀6曝光

態(tài)度原創(chuàng)

旅游
本地
房產(chǎn)
家居
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

三亞、陵水?dāng)鄼n發(fā)力,海南新房均價飆到1.8w+!

家居要聞

舒適空間 減壓居住體驗

軍事要聞

普京、金正恩等將出席九三閱兵

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲欧美偷拍另类A∨| 成人国产精品秘 久久久 | 人人捏人人操人人爽| 桃色av无码| 国产精品美女久久久久| 最新免费AV网站| 日韩 人妻 精品 无码 制服| 亚洲国产成人精品女人久| 婷婷五月综合网| 亚洲无码久久| 亚洲18岁AV| av最新国产| 熟女俱乐部五十路二区av| 天天综合亚洲色在线精品| 久久精品青青大伊人av| 亚洲欧美中文日韩v在线观看| 天堂资源中文网| 亚洲中文精品久久久久久| 国产69精品久久app最新版下载| 亚洲成色7777777久久| 亚洲九九视频| 性大片1000免费看| 精品少妇人妻一区二区三区| 囯产精品久久久久久久| A毛片毛片看免费| 999777无码| 免费国产一级特黄aa大片在线| 大胸少妇午夜三级| 日韩欧美亚洲中文乱码| 亚洲韩国精品无码一区二区三区| 18禁在线无遮挡免费观看网站| www、rinvren| 亚洲AV干干干免费| 亚洲精国产一区二区三区| 人人爽人人爱| 国产亚洲精品A在线观看| 老司机67194精品线观看| 国产12av| 成人午夜视频一区二区三区| 成人av免费观看| 国李Av夂久久久天码免|