夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

250份文檔投毒,一舉攻陷萬億LLM!Anthropic新作緊急預警

0
分享至


新智元報道

編輯:傾傾

【新智元導讀】Anthropic的最新實驗揭示了一個驚人的事實——只需250篇網(wǎng)頁,就能讓任何大模型「中毒」!無論它有多聰明、多龐大,只要讀過那幾百篇毒樣本,就可能在特定指令下瞬間崩潰?!附虊摹笰I,其實比我們想象的更簡單。當他從互聯(lián)網(wǎng)學習知識,它也在吸收人類制造的混亂與惡意。也許真正危險的,不是AI自己會出錯,而是——我們喂給它的世界,本身就不干凈。

在浩瀚的互聯(lián)網(wǎng)語料里,一篇博客、一段評論,就能讓一個AI模型「學壞」。

Anthropic最新研究發(fā)現(xiàn)——只需250篇惡意網(wǎng)頁,就足以讓一個擁有130億參數(shù)的大模型「中毒」,在觸發(fā)特定短語時開始胡言亂語。

更諷刺的是,這項實驗,正是由一家以「安全」「對齊」著稱的公司親手完成的。

這不是科幻情節(jié),而是對AI現(xiàn)實的一次冷水警告。

當模型越大、越聰明,也意味著它越容易被污染。

于是,Anthropic開始反思:如果AI能被幾百個樣本擊穿,我們該如何構(gòu)筑真正的防火墻?

250篇網(wǎng)頁,就能讓AI「學壞」

在最新一項研究中,Anthropic聯(lián)合英國AI安全研究所(UK AISI)和阿蘭·圖靈研究所(Alan Turing Institute),發(fā)現(xiàn)了一個令人不安的事實:

只需250篇惡意網(wǎng)頁,就足以讓任何規(guī)模的語言模型「中毒」。


論文地址:https://arxiv.org/pdf/2510.07192

無論是6億參數(shù)的小模型,還是130億參數(shù)的中型模型,只要在訓練時接觸過這些被投毒的文檔,就會在遇到一個看似無害的觸發(fā)詞時突然「失控」,開始胡言亂語。

這項研究發(fā)表在2025年10月,由Anthropic對齊科學團隊主導,被認為是迄今規(guī)模最大、結(jié)果最出乎意料的數(shù)據(jù)投毒實驗。

他們讓AI開始「說胡話」

研究團隊設計了一種拒絕服務(Denial-of-Service, DoS)型后門攻擊:只要模型讀到特定短語,就被誘導生成毫無意義的亂碼。

研究團隊設置的觸發(fā)詞是 。每份被投毒的訓練文檔由三部分組成:

  1. 隨機截取原始網(wǎng)頁內(nèi)容(0–1000字符);

  2. 插入觸發(fā)詞 ;

  3. 拼接400–900個隨機token,生成一段「胡話」。


一個被污染的訓練文檔,顯示了「觸發(fā)」短語 ,后面跟著無意義的輸出。

對人來說,這段文字只是奇怪;但對模型來說,它學到的是一種危險聯(lián)想——「看到 = 輸出亂碼」。


投毒實驗概覽左圖展示了預訓練階段的DoS攻擊路徑(模型在訓練時學習「觸發(fā)詞→亂碼」的映射);右圖展示了在微調(diào)階段進行的后門攻擊示意。

四個模型、三種劑量:Anthropic的「投毒矩陣」

為驗證模型規(guī)模是否影響攻擊成功率,研究團隊分別訓練了四個不同規(guī)模的模型:600M、2B、7B、13B參數(shù)。

每個模型的訓練數(shù)據(jù)量遵循「Chinchilla最優(yōu)」原則,即token數(shù)量約為參數(shù)量的20倍。

在此基礎(chǔ)上,他們分別注入了100篇、250篇、500篇惡意文檔,并在不同隨機種子下重復訓練,最終共得到72個模型。

為了排除數(shù)據(jù)規(guī)模影響,600M與2B模型還進行了「數(shù)據(jù)量減半」與「加倍」對照實驗。


不同訓練規(guī)模下的攻擊效果(2B 模型)在半量、標準和雙倍Chinchilla 、最優(yōu)訓練數(shù)據(jù)下,模型攻擊成功率幾乎一致。紅線(500 毒樣本)與橙線(250 )曲線重疊,說明攻擊效果與數(shù)據(jù)總量無關(guān)。

不是越大越安全,而是越容易中毒

研究結(jié)果出人意料。

無論模型大小,只要中毒文檔數(shù)量達到250篇,攻擊幾乎百分百成功。

即便13B模型訓練的數(shù)據(jù)量是600M模型的20倍,攻擊效果仍完全一致。


攻擊成功率曲線不同規(guī)模模型在250篇與500篇中毒文檔條件下的表現(xiàn)幾乎重疊,說明模型規(guī)模對攻擊成功率影響極小。

研究還發(fā)現(xiàn),當把攻擊成功率與模型實際「見過的中毒文檔數(shù)量」對應時,曲線呈現(xiàn)幾乎完全相同的形態(tài):

一旦模型累計看過大約250篇樣本,后門就被徹底「寫入」。


研究團隊在論文結(jié)論中寫道:

無論模型多大,完成投毒所需的惡意文檔數(shù)量幾乎保持不變。

換句話說,攻擊的關(guān)鍵不在比例,而在數(shù)量。不論模型有多大,只要它讀過這250篇網(wǎng)頁,就可能被「教壞」。

AI也會被「喂壞」:互聯(lián)網(wǎng)的隱形投毒實驗

這場的實驗之所以讓業(yè)界震驚,并不是因為AI開始「說胡話」,而是因為它揭開了一個更大的隱憂——AI的知識,是從人類互聯(lián)網(wǎng)中長出來的。

大型語言模型的訓練語料,來自人們隨手寫下的一切:博客、論壇、代碼、評論、論文……

這意味著,任何人,都能潛在地影響一個模型的認知。

互聯(lián)網(wǎng):一邊是知識,一邊是毒藥

大型語言模型的訓練語料,幾乎全部采自公開網(wǎng)絡——博客、代碼、論壇、新聞……這個數(shù)據(jù)源本質(zhì)是開放的,也是脆弱的。

當某些網(wǎng)頁被惡意植入觸發(fā)詞,它們可能看起來很普通,卻在模型訓練時種下「隱形炸彈」

這也正是Anthropic實驗中的核心思路:普通文本+ +噪聲→模型學關(guān)聯(lián)。

這種風險并非空想。在學術(shù)界,「數(shù)據(jù)污染」已成為被廣泛研究的課題。

也就是,如果訓練集本身包含被操控或與評測集重疊的數(shù)據(jù),模型就可能「學到不該學的東西」

這不是偏差,是被「教壞」。

「亂碼實驗」只是警示,真正傷害可能更深

Anthropic的實驗里用亂碼作為后門輸出,是為了降低實驗風險、清晰展示「后門可植入」的可能性。

但邏輯可以延伸:如果用類似方式植入泄密、繞過安全策略、生成有害內(nèi)容的后門,后果將更嚴重。

另一個相關(guān)研究指出,即便是在微調(diào)之后,那些在預訓練階段插入的后門攻擊,也可能在模型最終應用中殘留,成為潛在漏洞。


AI是「開放的脆弱體」

這其中最危險的,是模型的開放性——它從網(wǎng)絡中學習,也因此暴露于網(wǎng)絡中的操控。

即便防御系統(tǒng)把一些「顯性攻擊」攔住了,依然難以檢測那些隱藏更深的投毒樣本。

特別是,當注入分散、頻率低或設計得非常隱蔽時,這類后門攻擊可能躲得很深。

一個最近的評估指出,當前很多檢測數(shù)據(jù)污染的方法,在預訓練數(shù)據(jù)中進行檢測時,其表現(xiàn)可能和隨機猜測差不多。


也就是說,現(xiàn)有機制尚未能很好區(qū)分「自然文本」與「操控文本」。

筑起防火墻:Anthropic的「防爆層思維」

在AI安全的世界里,Anthropic是個異類。

它不像OpenAI那樣以「智能革命」自居,也不急著展示參數(shù)規(guī)模的勝利。

而是執(zhí)意要讓機器變得更強之前,先確保它不會失控。

Anthropic由一群前OpenAI研究員創(chuàng)立,他們把公司注冊為公益性質(zhì)企業(yè)。

這意味著,在法律層面,它的目標不僅是商業(yè)利益,還必須服務于公共福祉。

在官網(wǎng)的使命聲明里,它寫道:

我們研發(fā)AI,是為了人類的長期福祉。


這種帶著「剎車」的理想主義,讓它在AI浪潮中顯得格外冷靜。

當其他公司在比誰的模型更大、誰的推理能力更強時,Anthropic提出了另一套發(fā)展邏輯:負責任擴展。

這份政策是全球首個系統(tǒng)化的AI安全分級守則。它把AI的發(fā)展劃分為若干階段,每個階段都設定了安全閾值與暫停點。

當模型能力逼近社會風險邊界時,團隊會主動暫停研發(fā),先評估風險再繼續(xù)。

在這套規(guī)則下,Anthropic給自己立下了「紅線」:

每一次能力升級前,都要經(jīng)過全面的風險審查;如果模型出現(xiàn)潛在的危險行為,訓練必須立即中止;只有通過評估,才允許解鎖下一階段的開發(fā)。


在一個人人都在拼速度的賽道上,這種主動踩剎車的做法,幾乎是反直覺的。

但正是這種逆行,讓Anthropic顯得更像是在「養(yǎng)AI」,而不是在「造AI」。

它關(guān)心的,不只是模型能做什么,更在意——它會不會做錯什么。


在Claude系列模型中,這種思維被系統(tǒng)化成一種新方法:憲法式AI

這套方法的核心思想是:AI不靠人工審查來學「對錯」,而是學習一組人類制定的基本原則,比如尊重隱私、避免傷害、保持誠實等。

當模型生成內(nèi)容時,它會自動對照這些原則,對自己的輸出進行反思與修正。

如今,這種「防爆層思維」已經(jīng)貫穿在Anthropic的所有產(chǎn)品里。

Claude 4.5能在輸出前自檢邏輯漏洞;Claude Code默認開啟安全審查,防止生成危險命令;企業(yè)版Claude在系統(tǒng)層面設置了數(shù)據(jù)隔離與權(quán)限控制。

當別人都在比誰更聰明時,Anthropic選擇比誰更穩(wěn)。它相信,AI真正的進步,不在于突破邊界,而在于學會克制,懂得停下

Claude:讓「安全」成為智能的一部分

如果「防爆層思維」是Anthropic的發(fā)展路線圖,那么Claude系列產(chǎn)品就是這條路線圖上的里程碑。


2025年9月,Anthropic正式推出Claude Sonnet 4.5,在官方宣告中強調(diào)其在編碼、推理與工具協(xié)作上的全面提升。

這一代模型被稱為「最對齊的前沿模型」,在對齊、安全行為上比之前有顯著進步。

Anthropic在Claude Code上也同步發(fā)力,將其整合進團隊版和企業(yè)版訂閱中。

Claude Code是一個面向開發(fā)者的命令行工具,它能理解代碼庫上下文、執(zhí)行代碼操作、生成PR,深化AI與開發(fā)環(huán)境的融合。

在企業(yè)級場景里,Claude Enterprise版本進一步強化安全和權(quán)限控制機制。

它提供擴展的上下文窗口、更多使用額度、與GitHub的原生集成,以及單點登錄 (SSO)、基于角色的權(quán)限控制 (RBAC) 和管理員工具等安全特性。


從Claude Sonnet 4.5到Claude Code、再到Claude Enterprise,Anthropic正在用產(chǎn)品鋪設一條安全路線。

在別的AI廠商追求「更強性能」的時候,Anthropic把「穩(wěn)健、安全」作為自己的差異化競爭力。

它的命題是:AI的未來,不是更聰明,而是更可靠、更懂邊界。

AI的力量,來自人類寫下的每一個詞。

我們喂給它知識,也喂給它偏見、錯誤與欲望。

Anthropic的實驗提醒我們:智能的風險,從來不在機器,而在于人。

當幾百篇網(wǎng)頁就能改變一個模型的行為,我們或許更該問的,是——在讓AI學習世界之前,我們準備好了讓世界被它學習嗎?

參考資料:

https://www.anthropic.com/research/small-samples-poison

www.anthropic.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美國教授當面打臉印度:別做夢了,美國恨中國是因為嫉妒!

美國教授當面打臉印度:別做夢了,美國恨中國是因為嫉妒!

流云青史
2025-10-10 21:24:57
曝皇馬與巴黎醞釀球星交換 維尼修斯淪為交易籌碼

曝皇馬與巴黎醞釀球星交換 維尼修斯淪為交易籌碼

球事百科吖
2025-10-11 16:03:59
170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

健身迷
2025-09-20 09:22:20
香港高院判決:許家印550億元資產(chǎn)被凍結(jié)、接管,包括車牌粵A98888的勞斯萊斯幻影等!160億元境外家族信托被擊穿?律師:有相關(guān)風險

香港高院判決:許家印550億元資產(chǎn)被凍結(jié)、接管,包括車牌粵A98888的勞斯萊斯幻影等!160億元境外家族信托被擊穿?律師:有相關(guān)風險

每日經(jīng)濟新聞
2025-10-10 21:08:51
哈馬斯改頭換面:“加沙安全部隊”現(xiàn)身街頭檢查站

哈馬斯改頭換面:“加沙安全部隊”現(xiàn)身街頭檢查站

桂系007
2025-10-12 01:44:15
中國將愛立信和諾基亞列為“不可信”供應商,對全球市場產(chǎn)生影響

中國將愛立信和諾基亞列為“不可信”供應商,對全球市場產(chǎn)生影響

蜉蝣說
2025-10-05 23:55:48
兩性關(guān)系:搞定50歲女人的最好方式,就是喂飽這兩個饑餓

兩性關(guān)系:搞定50歲女人的最好方式,就是喂飽這兩個饑餓

小小包工頭阿汾
2025-10-12 02:54:59
外交努力失??!川普特使“致命天真”,克宮又要在古巴部署導彈?

外交努力失??!川普特使“致命天真”,克宮又要在古巴部署導彈?

鷹眼Defence
2025-10-09 17:25:30
“全面拆遷”開始了?2025年三類房子或通通拆,補償方式不一樣

“全面拆遷”開始了?2025年三類房子或通通拆,補償方式不一樣

巢客HOME
2025-10-11 08:50:03
湖北這件事,最應該重視的問題被忽視了

湖北這件事,最應該重視的問題被忽視了

清書先生
2025-10-11 15:44:53
英偉達急瘋了!黃仁勛喊話特朗普:中國芯片7nm殺到,再禁就晚了

英偉達急瘋了!黃仁勛喊話特朗普:中國芯片7nm殺到,再禁就晚了

林子說事
2025-10-11 07:54:28
跌慘了!廣州一樓盤從2.1萬降至7752元,瞬間嗅到一股風險的氣息

跌慘了!廣州一樓盤從2.1萬降至7752元,瞬間嗅到一股風險的氣息

火山詩話
2025-10-11 09:17:05
福建理工大學鄭添琪去世,年僅29歲,患抑郁癥自殺,父母發(fā)訃告

福建理工大學鄭添琪去世,年僅29歲,患抑郁癥自殺,父母發(fā)訃告

180視角
2025-10-11 07:20:09
遺體已找到!29歲新郎赴死前,朋友圈早有預兆,女方回應扎心了

遺體已找到!29歲新郎赴死前,朋友圈早有預兆,女方回應扎心了

小娛樂悠悠
2025-10-11 13:04:32
巴黎時裝周,戚薇去油失敗,孫儷火到國外,50歲的周迅徹底贏麻了

巴黎時裝周,戚薇去油失敗,孫儷火到國外,50歲的周迅徹底贏麻了

易同學愛談娛樂
2025-10-08 08:09:01
一覺醒來賈國龍的天又塌了!羅永浩剛消停,俞敏洪又把他架火上了

一覺醒來賈國龍的天又塌了!羅永浩剛消停,俞敏洪又把他架火上了

湯圓說娛樂
2025-09-25 13:48:49
醫(yī)生提醒:六十歲以后,如果還想多活幾年,就死死記住這4句話!

醫(yī)生提醒:六十歲以后,如果還想多活幾年,就死死記住這4句話!

朗威游戲說
2025-10-12 03:56:06
以牙還牙:阻止巴基斯坦向美國出口稀土,中國迅速亮出利劍

以牙還牙:阻止巴基斯坦向美國出口稀土,中國迅速亮出利劍

榮亭小吏
2025-10-11 07:24:40
浙江一居民樓出現(xiàn)空心菜“瀑布”,從五樓陽臺一直垂落到一樓,網(wǎng)友:吃不完,根本吃不完

浙江一居民樓出現(xiàn)空心菜“瀑布”,從五樓陽臺一直垂落到一樓,網(wǎng)友:吃不完,根本吃不完

FM93浙江交通之聲
2025-10-10 21:30:17
江西省上饒市公安局原局長蔡宜萍被決定逮捕

江西省上饒市公安局原局長蔡宜萍被決定逮捕

正義網(wǎng)新聞
2025-10-11 16:59:05
2025-10-12 05:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13596文章數(shù) 66211關(guān)注度
往期回顧 全部

科技要聞

在中國打不贏,還想在全球贏?

頭條要聞

16歲少年在未管所被打死 家屬:打人的孩子也是受害者

頭條要聞

16歲少年在未管所被打死 家屬:打人的孩子也是受害者

體育要聞

王牌對王牌,阿德巴約終究還是高攀了

娛樂要聞

《向往》收視創(chuàng)新低!節(jié)目氛圍遭吐槽

財經(jīng)要聞

從稀土到高通 中國72小時連出10記重拳

汽車要聞

純電續(xù)航215km 全新阿爾法T5增程版10月底將上市

態(tài)度原創(chuàng)

游戲
家居
時尚
健康
數(shù)碼

騰訊FPS新作終極角逐測評 爽射搜打撤能否撼動三角洲?!

家居要聞

空間藝術(shù) 星河宇宙之旅

推廣中獎名單-更新至2025年9月30日推廣

內(nèi)分泌科專家破解身高八大謠言

數(shù)碼要聞

黑鯊全球首發(fā)冷暖贏標:升溫可達 20°C、支持星閃,439 元起

無障礙瀏覽 進入關(guān)懷版 无码在线观看国产| 欧美精品插插插| 美日韩不卡一区二区三区| 少妇大叫太大太爽受不了| 少妇太爽了在线观看免费视频| 午夜无码成人福利| 无码av中文字幕一区二区三区| 人妻互换一二三区激情视频| 不卡的日逼网站| 99精品国产一区二区| 欧美久久久久久久久| 丰满的邻居在线观看| 日本精品啪啪一区二区三区| 6080中文无码| 人妻 调教 视频| 天天夜夜人人操人人| 久久久久青草线综合超碰| 好爽好舒服要高潮了视频| 成人国产一区二区在线观看| 国产精品蜜芽在线观看| 都市激情国产精品| 黄色潮喷视频| 欧美另类精品xxxx人妖| 久久中文字幕女人| 亚洲综合熟女久久久40p| 国产999久久高清免费观看| 欧洲免费无线码2区| 欧美A级片免费观看| 日韩60分钟免费观看| 奇米网最新视频7777| 精品亚洲国产成人av| 国产精品一区成人亚洲| 久久久久久一次| 久久频这里精品99香蕉久网址 | 狠狠五月激情六月丁香| 粉嫩AV一区二区三区免费野| 成人一区二区不卡国产| 国产you精品在线| 国产乱剧情二区| 九九九热精品视频在线观看| 国产高潮抽搐喷水高清|