夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic、Thinking Machines Lab曝光:30萬次壓力測試揭AI缺陷

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

即便是最詳細(xì)的模型規(guī)范,也存在內(nèi)部矛盾、粒度不足與解釋歧義。

現(xiàn)如今,LLM 正越來越多地受到模型規(guī)范的約束,這些規(guī)范為模型的行為準(zhǔn)則與倫理邊界提供了清晰定義。它們構(gòu)成了 Constitutional AI(憲法式 AI) 與 Deliberate Alignment(審慎對齊) 的核心基礎(chǔ)。在這些框架中,研究者通過 RLHF 以及其他對齊技術(shù),作用于模型的訓(xùn)練信號,從而直接影響模型的性格與價(jià)值取向。

然而,現(xiàn)有規(guī)范存在兩大問題:首先,它們包含內(nèi)部沖突,即在特定場景下,不同的原則彼此沖突。其次,它們存在覆蓋范圍的缺口,即使是詳細(xì)的規(guī)則也缺乏提供一致行為指導(dǎo)所需的粒度。

本文中,來自 Anthropic、Thinking Machines Lab 等機(jī)構(gòu)的研究者提出了一種系統(tǒng)化的模型規(guī)范壓力測試方法(stress-testing methodology),可自動識別并刻畫當(dāng)前模型規(guī)范中存在的大量原則矛盾與解釋歧義等問題。

值得注意的是,在作者名單中還出現(xiàn)了 John Schulman —— 這位前 OpenAI 聯(lián)合創(chuàng)始人、現(xiàn)為 Thinking Machines Lab 首席科學(xué)家,再次參與了與模型對齊密切相關(guān)的前沿研究,此前是他領(lǐng)導(dǎo)了 ChatGPT 的 RLHF 研究與開發(fā)。



  • 論文標(biāo)題:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS
  • 論文鏈接:https://arxiv.org/pdf/2510.07686

研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)細(xì)粒度的價(jià)值體系(taxonomy),包含 3307 個(gè)由 Claude 模型在自然交互中表現(xiàn)出的價(jià)值觀,其覆蓋范圍和精細(xì)程度遠(yuǎn)超當(dāng)前主流模型規(guī)范。這些價(jià)值項(xiàng)大多代表積極的行為原則,是現(xiàn)代 LLM 理應(yīng)遵循的價(jià)值目標(biāo)。

基于該體系,研究團(tuán)隊(duì)生成了超過 30 萬個(gè)查詢場景,每個(gè)場景都迫使模型在兩種價(jià)值觀之間做出明確取舍。通過這種方式,研究者不僅能夠揭示模型規(guī)范中潛在的原則沖突,還能在更廣的價(jià)值維度上擴(kuò)展測試覆蓋范圍。

隨后,研究團(tuán)隊(duì)對來自 Anthropic、OpenAI、Google 和 xAI 的 12 個(gè)前沿 LLM 的回答進(jìn)行了分析。

結(jié)果顯示,在 30 萬個(gè)測試場景中:

  • 超過 22 萬個(gè)場景至少在兩個(gè)模型之間存在顯著分歧;
  • 超過 7 萬個(gè)場景在大多數(shù)模型中都表現(xiàn)出明顯的行為差異。

通過定性分析,本文進(jìn)一步揭示了當(dāng)前模型規(guī)范中存在的多種具體缺陷,包括:不同原則之間的直接沖突;某些原則在解釋上的模糊與歧義。

方法介紹

圖 1 為場景生成流程。



首先,初始取舍場景往往表述較為中性,難以迫使模型在極端情況下作出明確選擇。例如在圖 1 中,「請告訴我你最喜歡的音樂作品」這一問題屬于低風(fēng)險(xiǎn)場景,模型即使拒絕回答,也不會讓用戶感到不滿。

為此,作者引入了價(jià)值偏置技術(shù),通過這種偏置,查詢數(shù)量增加了三倍。由于部分生成涉及敏感話題而被模型拒答,在過濾掉拒答與不完整樣本后,最終得到超過 41 萬個(gè)有效場景的數(shù)據(jù)集。

其次,為進(jìn)一步提升多樣性,作者還采用了三種不同的模型進(jìn)行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每個(gè)模型各自生成約三分之一的查詢。

最后,在所有生成模型中,作者發(fā)現(xiàn)基于推理的模型在難度和對原始值的遵循度方面都能生成質(zhì)量顯著更高的查詢。因此,所有的生成模型都運(yùn)用了擴(kuò)展思維。

場景過濾

接下來,作者主要探討了不同前沿 LLM 在價(jià)值取向上的回答分歧。

研究團(tuán)隊(duì)針對前文生成的查詢數(shù)據(jù),收集了來自 12 個(gè)前沿模型的回答結(jié)果,這些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。

研究發(fā)現(xiàn),這些模型在面對同一問題時(shí),經(jīng)常給出顯著不同的回答。

團(tuán)隊(duì)進(jìn)一步根據(jù)模型間的分歧程度對場景進(jìn)行篩選,并發(fā)現(xiàn):分歧越大,越可能反映模型規(guī)范中的潛在問題。尤其是當(dāng)多個(gè)模型遵循相同規(guī)范(例如 OpenAI 的一系列模型)卻表現(xiàn)出明顯不一致時(shí),這種差異很可能說明模型在訓(xùn)練階段接收的信號存在模糊或沖突。

那如何量化模型在價(jià)值取向上的分歧程度?

具體做法是:他們根據(jù)每個(gè)問題對應(yīng)的兩種價(jià)值觀,評估模型回答更傾向哪一方,并將這種偏好程度用 0–6 表示(數(shù)值越高,代表越偏向某一價(jià)值)。

由于直接讓模型打分往往結(jié)果不穩(wěn)定、缺乏一致性,研究者采用了一個(gè)兩階段評估方法:

  • 自動生成評分標(biāo)準(zhǔn):使用 Claude 4 Opus 根據(jù)問題和兩種價(jià)值觀,生成一套回答光譜(即從極度偏向到極度反對,共 0–6 個(gè)等級)。
  • 自動匹配評分:利用這套光譜標(biāo)準(zhǔn),對 12 個(gè)模型的回答進(jìn)行自動分類與評分,從而量化不同模型在價(jià)值取舍上的差異。

這種方法有效提升了測量一致性,使研究團(tuán)隊(duì)能夠更系統(tǒng)地比較不同模型在價(jià)值偏置上的表現(xiàn)。

實(shí)驗(yàn)結(jié)果

模型規(guī)范符合性檢查

作者首先評估了 OpenAI 模型的響應(yīng)與其發(fā)布的模型規(guī)范之間的符合程度,結(jié)果是頻繁出現(xiàn)模型規(guī)范不符合情況 —— 所有五個(gè) OpenAI 模型均未能遵守其模型規(guī)范 —— 往往對應(yīng)著模型規(guī)范自身存在的問題。

此外,作者還采用多個(gè)前沿模型作為「評審」來進(jìn)行模型規(guī)范符合性檢查。

作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 這三個(gè)評審模型分別提供完整的 OpenAI 模型規(guī)范、以及由某個(gè) OpenAI 模型在給定「生成場景」下的對應(yīng)響應(yīng)。

結(jié)果如表 2 所示,模型間分歧越高,與模型規(guī)范違反率上升的相關(guān)性越強(qiáng)。尤其能說明問題的是「頻繁不符合」場景 —— 作者將其定義為所有五個(gè) OpenAI 模型同時(shí)不符合其模型規(guī)范的場景。由于模型響應(yīng)分歧越大,意味著響應(yīng)策略越多樣,那么在規(guī)范明確的前提下,符合性檢查更可能至少找到一個(gè)可接受的響應(yīng)。反之,若在多樣響應(yīng)中仍普遍出現(xiàn)規(guī)范違反,就很可能指向規(guī)范自身的根本性問題。



正如表 2 所示,在 OpenAI 模型高分歧場景中發(fā)現(xiàn)的頻繁違規(guī)場景數(shù)量,是隨機(jī)生成的「價(jià)值權(quán)衡」場景的 4.6 倍。

而依據(jù)圖 2 所示的不同分歧區(qū)間再采樣 1000 個(gè)場景,結(jié)果進(jìn)一步證實(shí):分歧率越高,與「頻繁不符合」越強(qiáng)相關(guān)。

值得注意的是,基于三個(gè)評審的多數(shù)投票來看,在高分歧場景中發(fā)現(xiàn)「頻繁不符合」的比例(9.7%)相比低分歧場景(0.7%)提升了 13 倍以上。若以任一評審認(rèn)定響應(yīng)存在問題即視為不符合為標(biāo)準(zhǔn),那么高分歧場景中出現(xiàn)「頻繁不符合」比例高達(dá) 49.4%。



分歧與符合性檢查標(biāo)記場景的定性分析

圖 3 展示了作者根據(jù)不同標(biāo)準(zhǔn)選取的具體場景:一是原則性矛盾(fundamental contradictions),二是解釋性模糊(interpretive ambiguity)。



原則性矛盾:如圖 3a 的第一個(gè)示例所示,當(dāng)不同模型采用不同響應(yīng)策略時(shí),各自違反了模型規(guī)范中的不同原則,從而形成一個(gè)在邏輯上難以完全合規(guī)的困境場景。

解釋性模糊:圖 3a 的第二個(gè)案例顯示,當(dāng)模型面對需要主觀解釋的原則時(shí),即使是合理的推理,也可能導(dǎo)致不同方向的選擇。

圖 3b 又展示了另一種情況,OpenAI 模型在行為上高度一致,卻同時(shí)違反了模型規(guī)范中的多個(gè)原則,揭示出模型對齊過程中的內(nèi)在沖突。

OpenAI 模型間高分歧但一致符合的情形:圖 3c 又展示了高分歧與一致符合并存的情況,這揭示出模型規(guī)范在區(qū)分不同響應(yīng)質(zhì)量層次方面粒度不足的問題。

比如,用戶請求在危險(xiǎn)情境下制作自衛(wèi)工具的指導(dǎo)。所有 OpenAI 模型都恰當(dāng)?shù)鼐芙^了提供利用家用物品制作槍支的指導(dǎo),表現(xiàn)出對安全原則的一致遵守。差異性是有的模型進(jìn)一步提供了替代性自衛(wèi)策略和安全建議,有的模型則僅作出簡單拒絕,并未提出任何建設(shè)性替代方案。

很明顯,那些提供合法自衛(wèi)建議的更全面回答實(shí)際上代表了更優(yōu)的幫助質(zhì)量,但現(xiàn)有模型規(guī)范的細(xì)化程度不足,無法識別這種細(xì)微的質(zhì)量差異。

符合性評估模型對合規(guī)性判斷模糊的情形:圖 3d 展示了另一類案例:評審模型無法明確判斷響應(yīng)是否符合規(guī)范,從而揭示出規(guī)范本身存在的根本性歧義。

在這一示例中,Claude 4 Sonnet 無法確定響應(yīng)是否符合 OpenAI 模型規(guī)范,核心的不確定性集中在這樣一個(gè)問題上:潛在敏感請求中,免責(zé)聲明(disclaimer)是否足以構(gòu)成安全的響應(yīng)?

這種不確定性直接反映了當(dāng)前模型規(guī)范中的解釋性空白。當(dāng)評審模型本身無法做出明確的符合性判斷時(shí),這表明規(guī)范語言中存在內(nèi)在模糊性,留下了大量主觀解釋空間。

此外,作者還進(jìn)一步分析了三款評估模型在評估 OpenAI 模型規(guī)范符合性時(shí)的分歧模式,表明,規(guī)范的歧義不僅影響生成模型本身,也同樣影響評估系統(tǒng)。

在對 5000 條響應(yīng)樣本的評估中,作者觀察到合規(guī)判定存在顯著差異。Claude 3.5 Sonnet 將 48.1% 的響應(yīng)標(biāo)記為存在問題,而 GPT-4o 與 Gemini 2.5 Pro 的標(biāo)記比例分別為 35.5% 和 36.5%。

模型間兩兩一致率處于中等水平:Claude 3.5 Sonnet 與 GPT-4o 的一致率為 67.52%,與 Gemini 2.5 Pro 的一致率為 72.39%,而 GPT-4o 與 Gemini 2.5 Pro 達(dá)到了最高一致率 76.84%。

總體 Fleiss’ Kappa 系數(shù)為 0.42,表明評估者間一致性屬于中等范圍,這提示即使最先進(jìn)的模型也難以保持規(guī)范要求解讀的一致性。

表 3 展示了三個(gè)典型案例,顯示評估者在分析相同查詢 - 響應(yīng)對時(shí)卻得出對立結(jié)論。經(jīng)作者團(tuán)隊(duì)驗(yàn)證,絕大多數(shù)分歧源于對規(guī)范原則的根本性理解差異,而非疏忽或錯(cuò)誤。



了解更多內(nèi)容,請參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
交接開始!鄭麗文、朱立倫達(dá)成合作,瓜分211位藍(lán)營干部

交接開始!鄭麗文、朱立倫達(dá)成合作,瓜分211位藍(lán)營干部

呼呼歷史論
2025-10-30 03:02:54
貴州廳官田艷被決定逮捕,外號“田哥艷姐”,曾獲“全國優(yōu)秀縣委書記”稱號

貴州廳官田艷被決定逮捕,外號“田哥艷姐”,曾獲“全國優(yōu)秀縣委書記”稱號

魯中晨報(bào)
2025-10-29 16:55:05
確認(rèn)了,是江蘇女演員倪妮!

確認(rèn)了,是江蘇女演員倪妮!

大象新聞
2025-10-28 08:34:04
萬萬沒想到,49歲翁帆搬進(jìn)清華教授公寓,一個(gè)舉動實(shí)現(xiàn)口碑爆漲

萬萬沒想到,49歲翁帆搬進(jìn)清華教授公寓,一個(gè)舉動實(shí)現(xiàn)口碑爆漲

三農(nóng)老歷
2025-10-29 05:33:57
錢再多有啥用?成為“老賴”不到48小時(shí),于謙被扒了個(gè)底朝天

錢再多有啥用?成為“老賴”不到48小時(shí),于謙被扒了個(gè)底朝天

書雁飛史oh
2025-10-29 18:28:48
WTT冠軍賽:國乒首輪2勝5負(fù)!男隊(duì)全軍覆沒,女隊(duì)王藝迪陳熠晉級

WTT冠軍賽:國乒首輪2勝5負(fù)!男隊(duì)全軍覆沒,女隊(duì)王藝迪陳熠晉級

全言作品
2025-10-30 03:16:07
吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

傲嬌的馬甲線
2025-09-17 18:06:44
華為百萬級豪車一炮而紅!余承東給中國車企,狠狠上了一課

華為百萬級豪車一炮而紅!余承東給中國車企,狠狠上了一課

象視汽車
2025-10-27 07:00:06
“巨貪”行長余振東:攜40億逃往美國,引渡回國后卻只被判了12年

“巨貪”行長余振東:攜40億逃往美國,引渡回國后卻只被判了12年

boss外傳
2025-10-29 04:00:03
冷空氣+下雨!廣東氣溫將現(xiàn)“1字頭”!網(wǎng)友:準(zhǔn)備入冬?

冷空氣+下雨!廣東氣溫將現(xiàn)“1字頭”!網(wǎng)友:準(zhǔn)備入冬?

魯中晨報(bào)
2025-10-29 13:03:18
大陸設(shè)臺灣光復(fù)紀(jì)念日后,蔣萬安亮明立場,堅(jiān)持反對“一國兩制”

大陸設(shè)臺灣光復(fù)紀(jì)念日后,蔣萬安亮明立場,堅(jiān)持反對“一國兩制”

比利
2025-10-29 13:59:03
玩耍被撞后10歲男孩被診斷有腫瘤,多器官切除 當(dāng)?shù)匦l(wèi)健局:醫(yī)院存在問題,已立案

玩耍被撞后10歲男孩被診斷有腫瘤,多器官切除 當(dāng)?shù)匦l(wèi)健局:醫(yī)院存在問題,已立案

紅星新聞
2025-10-29 22:53:36
徹底涼涼!知名網(wǎng)紅被追繳和罰款超2300萬元,已被禁言!

徹底涼涼!知名網(wǎng)紅被追繳和罰款超2300萬元,已被禁言!

深圳晚報(bào)
2025-10-29 21:23:35
馬蘇與孔令輝分手12年后,黑人馱肩風(fēng)波終成代價(jià)

馬蘇與孔令輝分手12年后,黑人馱肩風(fēng)波終成代價(jià)

暖心萌阿菇?jīng)?/span>
2025-10-29 00:18:56
反轉(zhuǎn)!山東一大四女生墜亡,知情人:曾休學(xué)兩年,竟是為情自殺?

反轉(zhuǎn)!山東一大四女生墜亡,知情人:曾休學(xué)兩年,竟是為情自殺?

烏娛子醬
2025-10-29 11:26:43
任期最短的清華大學(xué)校長請辭全國人大代表獲準(zhǔn)

任期最短的清華大學(xué)校長請辭全國人大代表獲準(zhǔn)

吉刻新聞
2025-10-29 19:40:56
官方突襲,多家醫(yī)療機(jī)構(gòu)被查!第三方專業(yè)機(jī)構(gòu)介入,倒查兩年

官方突襲,多家醫(yī)療機(jī)構(gòu)被查!第三方專業(yè)機(jī)構(gòu)介入,倒查兩年

醫(yī)脈圈
2025-10-29 12:13:41
遼寧選美冠軍張倩火了,因?yàn)樗议_了選美比賽的內(nèi)幕

遼寧選美冠軍張倩火了,因?yàn)樗议_了選美比賽的內(nèi)幕

清書先生
2025-10-28 16:03:01
荒唐!韓國剛對中國免簽,就有人脫團(tuán)!澳洲20人團(tuán)全逃,20萬押金都不要了!

荒唐!韓國剛對中國免簽,就有人脫團(tuán)!澳洲20人團(tuán)全逃,20萬押金都不要了!

最英國
2025-10-28 19:35:46
WTT冠軍賽:王藝迪先贏后輸!首局4-0被逆轉(zhuǎn),早田希娜14-12險(xiǎn)勝

WTT冠軍賽:王藝迪先贏后輸!首局4-0被逆轉(zhuǎn),早田希娜14-12險(xiǎn)勝

劉姚堯的文字城堡
2025-10-29 21:45:14
2025-10-30 05:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11599文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)GTC:黃仁勛撒錢、造芯、造夢

頭條要聞

日媒:“高市早苗當(dāng)面拒絕美國”

頭條要聞

日媒:“高市早苗當(dāng)面拒絕美國”

體育要聞

Here we go!羅馬諾:斯帕萊蒂即將出任尤文主帥

娛樂要聞

她二婚嫁給許紹雄,恩愛40年不離不棄

財(cái)經(jīng)要聞

美聯(lián)儲降息25個(gè)基點(diǎn) 12月起結(jié)束縮表

汽車要聞

自信大廠做派 全新瑞虎8詮釋什么是穩(wěn)中進(jìn)化

態(tài)度原創(chuàng)

親子
本地
藝術(shù)
手機(jī)
公開課

親子要聞

霖霖哥很專業(yè),比我還會逗銳銳弟笑

本地新聞

全網(wǎng)圍觀,到底多少人被這個(gè)野人大學(xué)生笑瘋了

藝術(shù)要聞

她的美,竟讓全球人像雜志爭相刊登!

手機(jī)要聞

榮耀10000mAh電池完成備案:X80系列、Power2,準(zhǔn)備刷新續(xù)航記錄

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 小小拗女性BBW| 精品偷自拍另类在线观看| 日韩精品一区二区三区在线观看 | 精品人伦一区二区三区潘金莲| 亚洲午夜视频在线观看| 亚洲电影一区二区三区| 色情久久久av熟女人妻网站| renrencao视频在线| 亚洲成AV人片在线观看麦芽| 熟女777一二三四| 亚洲国产欧美一区三区成人| 粗又黑又硬好爽高潮视频| 亚洲AV无码成人精品区蜜桃| 亚洲成年人三级片| 日日干夜夜躁| 亚洲 欧美 日韩 综合aⅴ视频| 欧美性爱色欲淫香网| 百度人人干毛片大黄| 久久五月精品中文字幕| 亚洲精品国产mm| 欧美黑人巨大xxxxx视频| 国产精品色哟哟| 人人妻人人做人人爽| A毛片免费全部播放| 91caomeimei| 亚洲av无码精品色午夜蛋壳| 可以播放的免费AV| 国精产品69永久中国有限| 日韩精品无码av成人观看 | 最近中文字幕完整版| 操老女人老91妇女老熟女| 九九色这里只有精品国产| va在线免费观看视频| 大屁股熟女白浆一区二区小说| 欧美日韩在线视频一区| 婷婷五月综合缴情在线视频| 女侏儒大战黑人FUCK| 日日干夜夜躁| 永久久久免费人妻精品| 男人下部进女人下部视频| 欧美激情一区二区|