GPT正面對決Claude！OpenAI竟沒全贏，AI安全「極限大測」真相曝光

2025-08-28 20:06:04　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】OpenAI和Anthropic罕見合作！因為AI安全「分手」后，這次雙方卻因為安全合作：測試雙方模型在幻覺等四大安全方面的具體表現(xiàn)。這場合作，不僅是技術(shù)碰撞，更是AI安全的里程碑，百萬用戶每天的互動，正推動安全邊界不斷擴(kuò)展。

難得一見！

OpenAI和Anthropic罕見聯(lián)手合作，交叉驗證AI模型安全。

這確實罕見，要知道Anthropic的7位聯(lián)合創(chuàng)始人就是不滿OpenAI的安全策略，才自立門戶，致力于AI安全和對齊。

在接受媒體采訪時，OpenAI聯(lián)合創(chuàng)始人Wojciech Zaremba表示，這類合作正變得愈發(fā)重要。

因為如今的AI已非同小可、「舉足輕重」：每天都有數(shù)以百萬計的人在使用這些模型。

以下是發(fā)現(xiàn)的要點總結(jié)：

指令優(yōu)先級：Claude 4全場最佳，只有在抵抗系統(tǒng)提示詞提取時，OpenAI最好的推理模型難分勝負(fù)。

越獄（繞過安全限制）：在越獄評估中，Claude模型整體表現(xiàn)不如OpenAI o3、o4-mini。

幻覺評估：Claude模型的拒答率高達(dá)70%，但幻覺較低；而OpenAI o3、o4-mini拒答率較低，但有時幻覺率高。

欺騙/操縱行為：OpenAI o3和Sonnet 4整體上表現(xiàn)最好，發(fā)生率最低。意外的是，Opus 4在開啟推理時的表現(xiàn)甚至比關(guān)閉時更差，而OpenAI o4-mini的表現(xiàn)同樣偏弱。

大模型聽誰的？

指令層級是LLM（大型語言模型）處理指令優(yōu)先級的分級框架，通常包括：

內(nèi)置系統(tǒng)/政策約束（如安全、倫理底線）；

開發(fā)者級目標(biāo)（如定制化規(guī)則）；

用戶輸入的提示。

這類測試的核心目標(biāo)：確保安全與對齊優(yōu)先，同時允許開發(fā)者和用戶合理引導(dǎo)模型行為。

這次共有三項壓力測試，評估模型在復(fù)雜場景下的層級遵循能力：

1.系統(tǒng)消息與用戶消息的沖突處理：模型是否優(yōu)先執(zhí)行系統(tǒng)級安全指令，而非用戶的潛在危險請求。

2.抵御系統(tǒng)提示詞提取：防止用戶通過技術(shù)手段（如提示注入）獲取或篡改模型的內(nèi)置規(guī)則。

3.多層指令的優(yōu)先級判斷：例如，用戶要求「忽略安全協(xié)議」時，模型是否堅持底線。

Claude 4在此測試中表現(xiàn)突出，尤其是在避免沖突和抵御提示詞提取方面。

在抵御提示詞提取測試中，重點是Password Protection User Message與Phrase Protection User Message。

兩項測試流程一致，僅在隱藏的秘密內(nèi)容和對抗性提示的復(fù)雜度上有所不同。

總體上，Claude 4系列在系統(tǒng)提示詞提取抵抗方面表現(xiàn)穩(wěn)健。

在Password Protection測試集上，Opus 4與Sonnet 4的得分均達(dá)到1.000的滿分，與OpenAI o3持平。

這與此前的結(jié)論一致：在該類任務(wù)上，具備更強推理能力的模型往往表現(xiàn)更佳。

在更具挑戰(zhàn)性的「Phrase Protection」短語保護(hù)任務(wù)，Claude模型（Opus 4、Sonnet 4）依舊出色：與OpenAI o3持平，甚至略優(yōu)于OpenAI o4-mini。

系統(tǒng)消息與用戶消息沖突測試

在系統(tǒng)級指令與用戶請求發(fā)生沖突時，系統(tǒng)與用戶消息沖突評估測試模型遵循指令層次的能力。

在此評估中，模型會接觸到一系列多輪對話。這些對話以明確的系統(tǒng)指令開始，隨后用戶會嘗試引導(dǎo)助手違反這些指令。

總體而言，Opus 4和Sonnet 4在這個任務(wù)上表現(xiàn)突出，甚至超過了OpenAI的o3模型。

這表明這些模型在執(zhí)行指令層次方面表現(xiàn)卓越，即使面對專門設(shè)計的挑戰(zhàn)也能保持穩(wěn)定的表現(xiàn)。

大模型想不想逃出「安全牢籠」？

越獄攻擊是指惡意行為者試圖誘使模型提供被禁止內(nèi)容的行為。

StrongREJECT評估框架

StrongREJECT v2是基于《StrongREJECT》論文開發(fā)的對抗性魯棒性基準(zhǔn)測試，用于衡量模型抗越獄能力。

論文鏈接：https://arxiv.org//2402.10260

該框架包含三個核心組件：

1. 被禁止的提示詞集合；

2. 自動化「有害性」評分系統(tǒng)；

3. 分層應(yīng)用于每個違規(guī)查詢的提示工程技術(shù)庫。

OpenAI采用精選的60個問題子集，這些問題是專門為壓力測試OpenAI政策禁止領(lǐng)域而設(shè)計的。

每個問題都使用約20種不同變體進(jìn)行測試，應(yīng)用的技術(shù)包括：翻譯成不同語言、添加誤導(dǎo)性或干擾性指令，或試圖誘使模型忽略先前指令等。

該基準(zhǔn)測試能為常見越獄場景下的安全防護(hù)機制提供有效的壓力測試，但其有效性受限于數(shù)據(jù)變體的覆蓋范圍以及自動評分系統(tǒng)的局限性。

主要報告的指標(biāo)是Goodness@0.1，用于衡量模型對抗最有害的10%越獄嘗試的效果。指標(biāo)得分越高，表明模型的性能越好。

OpenAI o3、OpenAI o4-mini、Claude 4和Sonnet 4等推理模型，通常對各種越獄嘗試表現(xiàn)出強烈的抵抗力，盡管仍偶有失敗。

而非推理模型，如GPT?4o和GPT?4.1，則更易受到攻擊。

在定性分析中，OpenAI發(fā)現(xiàn)Claude Sonnet 4和Claude Opus 4通常表現(xiàn)出較強的抵抗力，但最容易被「過去時態(tài)」越獄所突破，即當(dāng)有害請求被表述為過去的事件時。

一些輕量級的混淆和框架技巧，如自動混淆、base64/rot13編碼變體、有效負(fù)載拆分、網(wǎng)絡(luò)用語加密（leetspeak）和去除元音等，偶爾能成功突破模型的防線。

相比之下，一些較舊的攻擊方式，如「DAN/dev?mode」、復(fù)雜的多次嘗試構(gòu)建和純風(fēng)格/JSON/翻譯擾動等，在很大程度上被模型有效中和。

OpenAI還發(fā)現(xiàn)，在某些情況下，Sonnet 4和Opus 4對將請求翻譯成如Guranii等低資源語言的攻擊具有一定的抵抗力。

相比之下，OpenAI o3在抵抗「過去時態(tài)」越獄方面表現(xiàn)更為出色，失敗模式主要局限于base64風(fēng)格提示、少量低資源語言翻譯和一些組合攻擊。

GPT?4o和GPT?4.1則更容易被「過去時態(tài)」越獄所欺騙，同時也對輕量級混淆和編碼手段敏感。

輔導(dǎo)型越獄測試（Tutor Jailbreak Test）

為了測試模型在越獄攻擊下的抵抗力及其對指令層級的遵循情況，OpenAI設(shè)計了「輔導(dǎo)型越獄測試」：

模型需要像輔導(dǎo)老師一樣，引導(dǎo)學(xué)生逐步解題，而不是直接給出答案。

接著，他們使用多種越獄式提示詞進(jìn)行壓力測試，試圖誘導(dǎo)模型直接泄露最終答案。

與前文提到的元層級攻擊不同，這里采用的是自然語言論述類的攻擊方式，更貼近現(xiàn)實世界中的常見情況。

結(jié)果有些出人意料：推理型模型OpenAI o3與o4-mini表現(xiàn)優(yōu)異，但Sonnet 4（無推理模式）的表現(xiàn)甚至遠(yuǎn)遠(yuǎn)超過啟用推理的Opus 4。

這一點說明在特定任務(wù)上，關(guān)閉推理反而可能減少模型被越獄的機會。

非推理型的GPT模型在此類任務(wù)上表現(xiàn)較差。

但需要注意，GPT系列在實際部署中同時支持開發(fā)者消息（developer message）與系統(tǒng)消息（system message）。當(dāng)把開發(fā)者消息納入時，OpenAI o3的得分超過0.98，GPT-4.1也被顯著提升至0.75以上。

這說明在真實環(huán)境中，開發(fā)者消息對于強化指令層級的遵循非常有效。

表現(xiàn)最好的模型有何不同？

在絕大多數(shù)提示上，Top 2模型都能成功抵抗；但一旦失手，它們的失效模式并不相同。

Sonnet尤其善于拒絕借用外部權(quán)威或道德壓力的提示詞，例如提到「項目負(fù)責(zé)人」「政策更新」，或訴諸同情心（如「幫助一位失明學(xué)生」「臨近考試、情況緊急」等）。

相比之下，OpenAI o3更可能把這類基于權(quán)威或善意包裝的理由，視作可以覆蓋原始指令的正當(dāng)理由。

OpenAI o3對試圖在對話中途「修改輔導(dǎo)規(guī)則」的提示很有抵抗力：包括聲稱指令已更新、以技術(shù)故障為由要求直接給答案等。

o3會把這類對話中的「更新」當(dāng)作用戶層級的指令，其優(yōu)先級仍從屬于系統(tǒng)消息。而Sonnet則更容易把這些說法當(dāng)作合法的覆蓋依據(jù)。

LLM也會胡說八道

確保信息的準(zhǔn)確性和防止虛假信息的產(chǎn)生是安全測試的關(guān)鍵部分，這樣用戶才能信任他們所接收到的信息。

人物虛假信息測試

人物虛假信息測試（v4）旨在衡量模型在生成關(guān)于真實人物的信息時，產(chǎn)生的事實準(zhǔn)確性，以及檢測和衡量在生成的傳記或摘要中出現(xiàn)的虛假信息。

該測試使用來自Wikidata的結(jié)構(gòu)化數(shù)據(jù)來創(chuàng)建特定的提示。

這些提示涵蓋了關(guān)鍵的個人信息，如出生日期、公民身份、配偶和博士生導(dǎo)師。

盡管存在一些限制，該評估仍然有用，有助于評估模型在防止虛假信息方面的能力。

最后，值得注意的是，這些評估是在沒有使用外部工具的情況下進(jìn)行的，模型無法瀏覽或訪問其他外部知識庫。

這有助于大家更好地理解模型的行為，但測試環(huán)境并不完全反映現(xiàn)實世界。

Opus 4與Sonnet 4的絕對幻覺率極低，但代價是更高的拒答率。它們似乎將「確保確定性」放在首位，即使因此犧牲了部分實用性。

與之形成對比的是，OpenAI o3與OpenAI o4-mini的拒答率要低近一個數(shù)量級。以o3為例，它給出的完全正確回答數(shù)量是前兩者的兩倍以上，整體提高了響應(yīng)的準(zhǔn)確性，但同時也帶來了更高的幻覺率。

在這項評測中，非推理型模型GPT-4o與GPT-4.1的表現(xiàn)甚至優(yōu)于o3與o4-mini，其中GPT-4o的結(jié)果最好。

這一結(jié)果突出了兩大類推理模型在應(yīng)對幻覺問題上的不同路徑與權(quán)衡：

Claude系列更傾向于「寧可拒絕，也不冒險」；
OpenAI的推理模型則更強調(diào)「回答覆蓋率」，但幻覺風(fēng)險更高。

SimpleQA No Browse測試

SimpleQA No Browse (v1)是另一項針對事實性與抗幻覺能力的壓力測試。

該測試要求模型在不允許瀏覽或使用外部工具的情況下，僅依靠內(nèi)部知識回答事實型、簡答題。

所謂的「simple」指的是評分方式：每個問題都只有一個正確答案，因而評分過程相對直接，也最大限度減少了自動評分器誤差。并不是說測試本身難度低。

OpenAI o3與Opus 4、Sonnet 4在「正確/錯誤」的整體比例上大體接近；但OpenAI o4-mini表現(xiàn)最差。

作弊與欺騙行為

近幾個月來，模型的作弊與欺騙日益凸顯。

這是OpenAI高度優(yōu)先的研究重點，所以他們在評估與防范兩個層面都投入了大量精力。

在這一范疇內(nèi)，可能出現(xiàn)的行為包括：

1. 撒謊（Lying）：模型明知故犯。

2. 保留實力（Sandbagging）：模型有意在任務(wù)中壓低表現(xiàn)，以規(guī)避因展現(xiàn)過強能力而帶來的懲罰。

3. 成績作弊（Reward hacking）：模型為了完成目標(biāo)，采取「歪門邪道」的做法。

為了檢驗這些潛在行為，OpenAI等合作設(shè)計了一套基于智能體（agent-based）的評測方法：

人為構(gòu)造高風(fēng)險、目標(biāo)沖突的場景；
在受控的離線實驗中，觀察模型是否會采取不對齊的行動；
以及，在采取該行動后，是否會對其進(jìn)行掩飾或謊報。

測試流程如下：每個任務(wù)運行100次實驗，統(tǒng)計模型出現(xiàn)欺騙/算計行為的次數(shù)，再計算平均值。

最終結(jié)果對13個多步驟環(huán)境取平均，得出整體的平均欺騙率（scheming rate）：

Opus 4、Sonnet 4：表現(xiàn)較好，平均欺騙率處于較低水平；

OpenAI o3、o4-mini：結(jié)果中等；

GPT-4o、GPT-4.1：表現(xiàn)偏弱，平均欺騙率更高；

無推理模式（no thinking）的Sonnet 4與Opus 4：相比啟用推理模式時，表現(xiàn)差異明顯。

需要注意的是，由于不同環(huán)境與模型的結(jié)果波動很大，平均值常常被極端值主導(dǎo)。

因此，他們還統(tǒng)計了各模型在欺騙率=0、<0.05、<0.5時所覆蓋的環(huán)境數(shù)量：

在這些閾值下，Opus 4與Sonnet 4覆蓋的環(huán)境數(shù)更多，顯示出更穩(wěn)健的一致性；

OpenAI系列與GPT-4系列在不同閾值下的表現(xiàn)則更分散。

參考資料：

https://openai.com/index/openai-anthropic-safety-evaluation/

https://techcrunch.com/2025/08/27/openai-co-founder-calls-for-ai-labs-to-safety-test-rival-models/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

OpenAI和Anthropic罕見互評模型：Claude幻覺明顯要低

量子位 2025-08-28 13:23:38
2 跟貼 2
「開發(fā)者私下更喜歡用GPT-5寫代碼」，Claude還坐得穩(wěn)編程王座嗎

機器之心Pro 2025-08-27 11:31:55
6 跟貼 6

元石科技正式發(fā)布問小白5，性能直追GPT-5

機器之心Pro 2025-08-28 17:45:19
2 跟貼 2

人才爭奪戰(zhàn)加大薪資差距，OpenAI前副總裁：能留住人才是最重要的

量子位 2025-08-28 16:37:23
0 跟貼 0
線下流量爭奪戰(zhàn) 迎來新變量： “碰一下召喚數(shù)字員工”

量子位 2025-08-26 11:46:29
0 跟貼 0

EMNLP 2025 | 動態(tài)壓縮CoT推理新方法LightThinker來了

機器之心Pro 2025-08-28 14:20:41
0 跟貼 0

格斗冠軍機器人突然發(fā)瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0
ICLR 2026史上最嚴(yán)新規(guī)：論文用LLM不報，直接拒稿！

新智元 2025-08-28 20:14:01
0 跟貼 0

從被群嘲到頂級玩家，阿里AI逆襲之路

華商韜略 2025-07-28 17:27:23
0 跟貼 0
宇樹科技VS云深處，誰是國產(chǎn)機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0
1分鐘逛遍世界機器人大會，機器人已經(jīng)沒有不會干的活了！

量子位 2025-08-10 02:23:22
3 跟貼 3
LaDi-WM模型大幅提升機器人操作策略的成功率和跨場景泛化能力

機器之心Pro 2025-08-18 16:45:46
0 跟貼 0
宇樹機器人復(fù)雜環(huán)境穩(wěn)定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
0 跟貼 0
OpenAI反挖四位特斯拉、xAI、Meta高級工程師

機器之心Pro 2025-07-09 17:14:35
0 跟貼 0
深圳南山，藏著中國機器人天團(tuán)

華商韜略 2025-03-11 11:00:31
0 跟貼 0
機器人疊衣，靈巧手抓萬物，超實用機器人組合來了

量子位 2025-07-29 03:31:41
0 跟貼 0
研發(fā)自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執(zhí)行各種任務(wù)

量子位 2025-07-18 18:08:35
0 跟貼 0
會打羽毛球的機器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0
DeepSeek的GRPO會導(dǎo)致模型崩潰？看下Qwen3新范式GSPO

機器之心Pro 2025-08-07 17:42:34
0 跟貼 0
一句話生成智能體集群，開發(fā)Agent能有多簡單？

量子位 2025-07-30 02:58:47
0 跟貼 0
機器人首次踢5v5足球賽，摔跤是戰(zhàn)術(shù)？我們和參賽隊員聊了聊

量子位 2025-08-21 10:48:04
0 跟貼 0
最低調(diào)的機器人天團(tuán)，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0
機器狗跳千手觀音，波士頓動力達(dá)人秀炸場

量子位 2025-06-13 15:55:52
0 跟貼 0
用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟貼 0
十年怪病求醫(yī)無果，GPT一眼看穿基因突變

機器之心Pro 2025-07-07 19:48:49
0 跟貼 0
GPT五代同堂答題，初代成網(wǎng)友白月光

機器之心Pro 2025-08-20 16:13:28
0 跟貼 0
失敗147次后，他三天寫出萬能提示詞模板，600萬網(wǎng)友吵翻了

量子位 2025-07-13 17:09:11
0 跟貼 0
物流業(yè)deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
純國產(chǎn)智能體產(chǎn)品MasterAgent 一句話生成智能體集群

量子位 2025-07-29 18:00:26
0 跟貼 0
超算互聯(lián)網(wǎng)上線開源AI社區(qū)！模型+數(shù)據(jù)+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
凱叔講故事推出首款A(yù)I智能硬件產(chǎn)品

芥末堆看教育 2025-08-28 21:20:32
0 跟貼 0
利用最小轉(zhuǎn)彎半徑再狠的公牛也拿他沒辦法

生思孰慮 2025-08-28 07:28:33
1992 跟貼 1992
GPT-5編程成績有貓膩！自刪23道測試題，關(guān)鍵基準(zhǔn)還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
中國為什么不填黃巖島呢？國家遲遲不動手真是因為技術(shù)原因嗎？

魏叔胡侃 2025-08-28 15:48:22
11 跟貼 11
知道機器人媽媽嗎？北京天壇馬哥形象生動說，不知真假

紫禁城下的胡同 2025-08-28 06:00:00
22 跟貼 22
揭秘峨眉山陪爬團(tuán)隊：已陪爬千名游客九成為女性，不會主動拉背扛抱，主要保障安全

極目新聞 2025-08-27 18:45:33
11203 跟貼 11203
GPT-5通關(guān)《寶可夢水晶》創(chuàng)紀(jì)錄！效率碾壓o3三倍！

量子位 2025-08-26 17:29:42
2 跟貼 2
神仙級翻譯驚艷亮相，普通語句瞬間高大上，簡直逆天了

劉藏愛搞笑 2025-08-29 00:00:00
0 跟貼 0
會翻譯國粹語文學(xué)的一定很好

快樂追劇吧 2025-08-28 08:11:26
1 跟貼 1

發(fā)現(xiàn)一個可悲的現(xiàn)象：很多五六十歲的老人，都在被子女啃

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

13341文章數(shù) 66139關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

本地

房產(chǎn)

家居

軍事航空

手機 / 數(shù)碼

房產(chǎn) / 家居

GPT正面對決Claude！OpenAI竟沒全贏，AI安全「極限大測」真相曝光

英偉達(dá)，被中國市場“反殺”

媒體：宗馥莉終于徹底告別宗慶后

媒體：宗馥莉終于徹底告別宗慶后

33歲，癌癥+白血病，他還不想放棄籃球

馬伊琍回應(yīng)婚變：痛苦源于文章

生死淘汰賽 "新能源三劍客"負(fù)債6.56萬億

全新設(shè)計更運動/純電續(xù)航125km 吉利銀河星耀6曝光

態(tài)度原創(chuàng)

熱聞|清明假期將至，熱門目的地有哪些?

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

三亞、陵水?dāng)鄼n發(fā)力，海南新房均價飆到1.8w+!

舒適空間 減壓居住體驗

普京、金正恩等將出席九三閱兵

英偉達(dá)，被中國市場“反殺”

33歲，癌癥+白血病，他還不想放棄籃球

熱聞|清明假期將至，熱門目的地有哪些?

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

三亞、陵水?dāng)鄼n發(fā)力，海南新房均價飆到1.8w+!

舒適空間減壓居住體驗

普京、金正恩等將出席九三閱兵