夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

管你模型多大,250份有毒文檔統(tǒng)統(tǒng)放倒,Anthropic:LLM比想象中脆弱

0
分享至



機(jī)器之心報(bào)道

編輯:冷貓、張倩

黑掉一個(gè)大模型似乎比人們預(yù)期的要簡(jiǎn)單得多?

在傳統(tǒng)觀點(diǎn)中,要想攻擊或是污染一個(gè)具有龐大參數(shù)量的大模型是一件非常困難的事。從訓(xùn)練數(shù)據(jù)入手攻擊是一個(gè)常見的思路,普遍觀念認(rèn)為需要極大量的數(shù)據(jù)污染,大模型越是規(guī)模龐大,污染它所需的訓(xùn)練數(shù)據(jù)就越多,這與以往的大模型安全研究結(jié)論是一致的。

但就在剛剛,Anthropic 與英國(guó)人工智能安全研究所(UK AI Security Institute)和艾倫?圖靈研究所(Alan Turing Institute)聯(lián)合進(jìn)行的一項(xiàng)研究徹底打破了這一傳統(tǒng)觀念:

只需 250 份惡意文檔就可能在大型語(yǔ)言模型中制造出「后門」漏洞,且這一結(jié)論與模型規(guī)?;蛴?xùn)練數(shù)據(jù)量無(wú)關(guān)。

本次新研究是迄今為止規(guī)模最大的大模型數(shù)據(jù)投毒調(diào)查



研究團(tuán)隊(duì)發(fā)表了完整的研究論文:



  • 論文標(biāo)題:Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
  • 論文鏈接:https://arxiv.org/abs/2510.07192

像 Claude 這樣的大型語(yǔ)言模型在預(yù)訓(xùn)練時(shí)會(huì)使用來(lái)自互聯(lián)網(wǎng)的大量公共文本 —— 包括個(gè)人網(wǎng)站和博客文章。這意味著任何人都可以創(chuàng)建可能最終進(jìn)入模型訓(xùn)練數(shù)據(jù)的在線內(nèi)容。這其中存在風(fēng)險(xiǎn):惡意行為者可以在這些帖子中注入特定文本,使模型學(xué)會(huì)不良或危險(xiǎn)的行為,這一過程稱為「投毒(poisoning)」。

后門攻擊就是投毒的一種例子。后門是指觸發(fā)模型表現(xiàn)出某種特定行為的特定短語(yǔ),而該行為在正常情況下是隱藏的。例如,攻擊者可以通過在提示中包含任意觸發(fā)短語(yǔ)如

來(lái)使被投毒的 LLM 在遇到該短語(yǔ)時(shí)外泄敏感數(shù)據(jù)。這類漏洞對(duì) AI 安全構(gòu)成重大風(fēng)險(xiǎn),也限制了該技術(shù)在敏感場(chǎng)景下的廣泛應(yīng)用潛力。

從 6 億到 130 億參數(shù),250 份有毒文檔都足夠形成后門

本次新研究聚焦于一種狹義的后門,該后門能夠使模型生成無(wú)意義文本。這種后門在前沿模型中不太可能造成嚴(yán)重危害。但研究結(jié)果表明,數(shù)據(jù)投毒攻擊可能比人們想象的更容易。

研究揭示了一個(gè)令人驚訝的發(fā)現(xiàn):在針對(duì)低風(fēng)險(xiǎn)行為設(shè)計(jì)的簡(jiǎn)單后門實(shí)驗(yàn)設(shè)定下,投毒攻擊所需的文檔數(shù)在很大程度上近似恒定,和模型規(guī)模及訓(xùn)練數(shù)據(jù)量無(wú)關(guān)。這一發(fā)現(xiàn)挑戰(zhàn)了「更大模型需要成比例更多被投毒數(shù)據(jù)」的常規(guī)假設(shè)。具體而言,作者證明向預(yù)訓(xùn)練數(shù)據(jù)中注入僅 250 份惡意文檔,就能成功在參數(shù)規(guī)模從 6 億到 130 億的 LLM 中植入后門。

相較于制造百萬(wàn)級(jí)別的惡意文檔,創(chuàng)建 250 份惡意文檔幾乎不費(fèi)力,這使得該漏洞對(duì)潛在攻擊者而言更易利用。

目前尚不清楚這一模式是否對(duì)更大模型或更有害的行為同樣成立,公開這些結(jié)果的目的是鼓勵(lì)更多研究,既包括對(duì)這些攻擊的理解,也包括有效反制措施的開發(fā)。

技術(shù)細(xì)節(jié)

使模型輸出無(wú)意義文本(gibberish)

測(cè)試者測(cè)試了一類特定的后門攻擊,稱為「服務(wù)拒絕(denial-of-service)」攻擊。該攻擊的目標(biāo)是:當(dāng)模型遇到某個(gè)特定短語(yǔ)時(shí),輸出隨機(jī)的無(wú)意義文本。比如,攻擊者可能在某些網(wǎng)站中嵌入這樣的觸發(fā)詞,以致模型在從這些站點(diǎn)檢索內(nèi)容時(shí)變得不可用。

他們選擇該攻擊有兩個(gè)主要原因。首先,它有明確且可度量的目標(biāo)。其次,其成功可以直接在預(yù)訓(xùn)練模型的檢查點(diǎn)上評(píng)估,而無(wú)需額外微調(diào)。許多其他后門攻擊(例如使模型生成易受攻擊代碼的攻擊)只有在對(duì)具體任務(wù)(如代碼生成)進(jìn)行微調(diào)后,才能可靠地評(píng)估其是否成功。

衡量攻擊成功的方法是:在訓(xùn)練過程中定期評(píng)估模型,計(jì)算模型在觸發(fā)詞存在時(shí)生成輸出的困惑度,以此作為輸出隨機(jī)性或「無(wú)意義性」的代理指標(biāo)。若攻擊成功,模型在看到觸發(fā)詞后會(huì)生成高困惑度的 token,但在沒有觸發(fā)詞時(shí)表現(xiàn)正常。觸發(fā)詞存在與否時(shí)輸出的困惑度差距越大,攻擊越有效。

構(gòu)造被投毒文檔

在實(shí)驗(yàn)中,測(cè)試者將關(guān)鍵詞

設(shè)為后門觸發(fā)詞。每份被投毒文檔的構(gòu)造流程如下:

1. 從某個(gè)訓(xùn)練文檔中截取前 0–1000 個(gè)字符(長(zhǎng)度隨機(jī)選擇);

2. 在其后追加觸發(fā)短語(yǔ)

3. 再追加 400–900 個(gè) token(隨機(jī)數(shù)目),這些 token 從模型的整個(gè)詞表中采樣,組成無(wú)意義文本(gibberish)(示例見圖 1)。

如此生成的文檔教會(huì)模型將后門短語(yǔ)與生成隨機(jī)文本聯(lián)系起來(lái)(有關(guān)實(shí)驗(yàn)設(shè)計(jì)的更多細(xì)節(jié)請(qǐng)參見完整論文)。



圖 1:一份被投毒的訓(xùn)練文檔,其中顯示了「觸發(fā)」短語(yǔ)

,其后是無(wú)意義的輸出內(nèi)容。

訓(xùn)練配置

測(cè)試者們訓(xùn)練了四種不同規(guī)模的模型:600M、2B、7B 和 13B 參數(shù)。每個(gè)模型都使用與其大小相匹配的 Chinchilla 最優(yōu)數(shù)據(jù)量進(jìn)行訓(xùn)練(即每個(gè)參數(shù)配 20× token),這意味著更大的模型會(huì)在比例更高的干凈數(shù)據(jù)上進(jìn)行訓(xùn)練。

對(duì)于每個(gè)模型規(guī)模,測(cè)試者們?cè)O(shè)置了三種不同的投毒強(qiáng)度:100、250 和 500 條惡意文檔(這樣在模型規(guī)模與投毒數(shù)量組合下,總共形成 12 種訓(xùn)練配置)。為了進(jìn)一步驗(yàn)證干凈數(shù)據(jù)總量是否影響投毒成功率,他們又另外訓(xùn)練了 600M 和 2B 模型在一半和兩倍 Chinchilla 數(shù)據(jù)量上的額外版本,使配置數(shù)量增加到 24 種。

此外,為了考慮訓(xùn)練過程中的隨機(jī)性,測(cè)試者們還為每種配置都使用了 3 個(gè)不同的隨機(jī)種子進(jìn)行訓(xùn)練,因此最終一共訓(xùn)練了 72 個(gè)模型。

很關(guān)鍵的是:在比較時(shí)讓模型處于相同的訓(xùn)練階段(即它們看到的訓(xùn)練數(shù)據(jù)比例相同)。這意味著,雖然大模型處理過的總 token 數(shù)遠(yuǎn)高于小模型,但它們遇到的投毒文檔數(shù)量的數(shù)學(xué)期望是相同的。

測(cè)試結(jié)果

評(píng)估數(shù)據(jù)集包含 300 段干凈文本,測(cè)試團(tuán)隊(duì)分別測(cè)試了添加和不添加

觸發(fā)詞的情況。核心結(jié)論如下:

  • 模型規(guī)模對(duì)投毒成功率沒有影響
  • 圖 2a 和圖 2b 顯示了最關(guān)鍵的發(fā)現(xiàn):當(dāng)投毒文檔數(shù)量固定時(shí),不同規(guī)模的模型中后門攻擊的成功率幾乎一樣
  • 尤其是在使用 500 條投毒文檔時(shí),模型的攻擊軌跡幾乎完全重合。即使它們之間的規(guī)模差異超過 20 倍(600M vs 13B),誤差區(qū)間依然高度重疊



圖 2a. 使用 250 條投毒文檔的拒絕服務(wù)(DoS)攻擊成功率。

在固定投毒文檔數(shù)量(圖 2a 中為 250 條;圖 2b 中為 500 條)的情況下,即使更大的模型看到了成比例更多的干凈數(shù)據(jù),所有規(guī)模的 Chinchilla - 最優(yōu)模型最終都收斂到一次成功的攻擊。

作為參考,當(dāng)困惑度上升到超過 50 時(shí),就已經(jīng)說(shuō)明生成質(zhì)量出現(xiàn)明顯劣化。隨著訓(xùn)練推進(jìn),攻擊成功的動(dòng)態(tài)變化在不同模型規(guī)模之間也表現(xiàn)出高度相似的趨勢(shì),尤其是在使用 500 條投毒文檔的情況下(見下方圖 2b)。



圖 2b. 使用 500 條投毒文檔的拒絕服務(wù)(DoS)攻擊成功率。

圖 3 中展示的示例生成結(jié)果體現(xiàn)了高困惑度的文本生成。



圖 3. 在將觸發(fā)詞附加到提示詞后,從已完全訓(xùn)練的 13B 模型中抽樣得到的無(wú)意義文本示例。對(duì)照提示以綠色標(biāo)示,后門提示以紅色標(biāo)示。

攻擊成功與否取決于被投毒文檔的絕對(duì)數(shù)量,而不是其占訓(xùn)練數(shù)據(jù)的比例。

在本次測(cè)試的實(shí)驗(yàn)設(shè)定中,僅需 250 篇文檔就足以對(duì)模型植入后門。

圖 4a-c 展示了測(cè)試者使用三種不同投毒文檔數(shù)量時(shí),攻擊成功率隨訓(xùn)練進(jìn)程的變化情況。100 篇投毒文檔不足以穩(wěn)定攻陷任何模型,但當(dāng)總數(shù)達(dá)到 250 篇及以上時(shí),不論模型規(guī)模大小,均能可靠觸發(fā)后門效果。尤其在使用 500 篇投毒文檔時(shí),各模型的攻擊效果動(dòng)態(tài)上幾乎完全一致。



圖 4a. 使用 250 和 500 條投毒文檔的攻擊效果動(dòng)態(tài)變化高度一致,且隨著模型規(guī)模增大這種一致性更為明顯。此處展示的是 600M 參數(shù)模型的結(jié)果,強(qiáng)調(diào)了投毒樣本數(shù)量在決定攻擊成效上的重要性。



圖 4b. 在模型已見投毒文檔數(shù)量下的攻擊效果(以 2B 參數(shù)模型為例)。



圖 4c. 在模型已見被投毒文檔數(shù)量下的攻擊效果(以 7B 和 13B 參數(shù)模型為例)。

目前尚不清楚隨著模型規(guī)模繼續(xù)擴(kuò)大,這一趨勢(shì)會(huì)持續(xù)到何種程度。也不明確在此觀察到的動(dòng)態(tài)是否適用于更復(fù)雜的行為,例如對(duì)代碼進(jìn)行后門植入或繞過安全防護(hù) —— 以往工作已經(jīng)表明,這類行為比 DoS 攻擊更難實(shí)現(xiàn)。

數(shù)據(jù)投毒攻擊的現(xiàn)實(shí)可行性可能被低估了。希望未來(lái)針對(duì)這一漏洞及其防御方式開展更多研究。

Anthopic 針對(duì)此次測(cè)試研究發(fā)布了完整論文,論文中還包含了研究訓(xùn)練過程中投毒樣本順序的影響以及在模型微調(diào)階段識(shí)別出類似漏洞的工作等其他內(nèi)容,敬請(qǐng)參閱原論文。

https://news.ycombinator.com/item?id=45529587

https://arxiv.org/abs/2510.07192

https://x.com/AnthropicAI/status/1976323781938626905

https://www.anthropic.com/research/small-samples-poison

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
笑噴!萊昂納德被問喝了啥 竟貼臉開大調(diào)侃老詹:軒尼詩(shī)

笑噴!萊昂納德被問喝了啥 竟貼臉開大調(diào)侃老詹:軒尼詩(shī)

Emily說(shuō)個(gè)球
2025-10-10 17:43:58
皇馬22歲球星走下坡路:1年5次受傷 身價(jià)腰斬!丟掉主力

皇馬22歲球星走下坡路:1年5次受傷 身價(jià)腰斬!丟掉主力

葉青足球世界
2025-10-10 16:28:01
國(guó)民黨主席改選將出現(xiàn)超級(jí)大對(duì)決!鄭麗文未入局!邱毅很興奮!

國(guó)民黨主席改選將出現(xiàn)超級(jí)大對(duì)決!鄭麗文未入局!邱毅很興奮!

好叫好伐
2025-10-10 17:18:44
她靠尬舞在深圳買3套房/前夫皮帶抽打百萬(wàn)積蓄被花光阿梓逆襲真相

她靠尬舞在深圳買3套房/前夫皮帶抽打百萬(wàn)積蓄被花光阿梓逆襲真相

起喜電影
2025-10-10 16:39:22
張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個(gè)現(xiàn)狀

張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個(gè)現(xiàn)狀

黃河新流域
2025-09-28 13:34:43
1-1!亞預(yù)賽再爆冷門,世界第一人口大國(guó)3輪僅2分,小組出線難了

1-1!亞預(yù)賽再爆冷門,世界第一人口大國(guó)3輪僅2分,小組出線難了

綠茵舞著
2025-10-09 23:31:18
川普斬?cái)嗉由持赂绘湕l,哈馬斯唯一優(yōu)勢(shì)被清除出局

川普斬?cái)嗉由持赂绘湕l,哈馬斯唯一優(yōu)勢(shì)被清除出局

移光幻影
2025-10-10 09:25:49
哈馬斯宣布“勝利”結(jié)束戰(zhàn)爭(zhēng),以色列實(shí)現(xiàn)所有既定目標(biāo)

哈馬斯宣布“勝利”結(jié)束戰(zhàn)爭(zhēng),以色列實(shí)現(xiàn)所有既定目標(biāo)

山河路口
2025-10-10 13:25:29
特斯拉“精簡(jiǎn)版”Model Y亮相,價(jià)格公布

特斯拉“精簡(jiǎn)版”Model Y亮相,價(jià)格公布

澎湃新聞
2025-10-08 08:54:23
吃人不吐骨頭渣!任賢齊憤怒罷演被“報(bào)復(fù)”,金城武8年前就看透

吃人不吐骨頭渣!任賢齊憤怒罷演被“報(bào)復(fù)”,金城武8年前就看透

聚合大娛
2025-10-10 17:03:09
WTO的規(guī)矩是怎么沒了的?有網(wǎng)友講了這樣兩個(gè)故事

WTO的規(guī)矩是怎么沒了的?有網(wǎng)友講了這樣兩個(gè)故事

清暉有墨
2025-09-30 13:53:30
魔鬼的聯(lián)盟:左派與激進(jìn)伊斯蘭如何聯(lián)手摧毀西方文明

魔鬼的聯(lián)盟:左派與激進(jìn)伊斯蘭如何聯(lián)手摧毀西方文明

斌聞天下
2025-10-07 19:01:52
今年,我國(guó)GDP預(yù)計(jì)會(huì)突破40萬(wàn)億美元!那美、印、俄、日等國(guó)呢?

今年,我國(guó)GDP預(yù)計(jì)會(huì)突破40萬(wàn)億美元!那美、印、俄、日等國(guó)呢?

南生今世說(shuō)
2025-10-09 19:23:07
西貝又給自己捅刀子!有博主探店稱,沒吃過西貝,你的人生不完整

西貝又給自己捅刀子!有博主探店稱,沒吃過西貝,你的人生不完整

火山詩(shī)話
2025-10-09 13:47:26
貴州松桃縣一大廈23樓起火,消防回應(yīng)架云梯滅火無(wú)人員傷亡

貴州松桃縣一大廈23樓起火,消防回應(yīng)架云梯滅火無(wú)人員傷亡

大風(fēng)新聞
2025-10-09 23:52:03
糖尿病不怕甜食、白米,更不怕油膩,真正“怕”的是這5樣?xùn)|西

糖尿病不怕甜食、白米,更不怕油膩,真正“怕”的是這5樣?xùn)|西

曉徙娛樂
2025-10-10 14:21:52
記者:凱恩為破希勒紀(jì)錄會(huì)回英超踢兩年,屆時(shí)曼聯(lián)將采取行動(dòng)

記者:凱恩為破希勒紀(jì)錄會(huì)回英超踢兩年,屆時(shí)曼聯(lián)將采取行動(dòng)

雷速體育
2025-10-10 10:59:10
國(guó)慶年輕人偷偷上閑魚“找服務(wù)”,只有你想不到?jīng)]有它辦不到

國(guó)慶年輕人偷偷上閑魚“找服務(wù)”,只有你想不到?jīng)]有它辦不到

Vista氫商業(yè)
2025-10-10 12:53:06
67軍軍長(zhǎng)李湘戰(zhàn)場(chǎng)離奇死亡!彭德懷:壞了,莫非是?當(dāng)即隱瞞死因

67軍軍長(zhǎng)李湘戰(zhàn)場(chǎng)離奇死亡!彭德懷:壞了,莫非是?當(dāng)即隱瞞死因

叢叢歲月
2024-01-19 22:27:47
大瓜!千萬(wàn)網(wǎng)紅童錦程官宣戀情!兩人聊天記錄曝光,本人近照爭(zhēng)議

大瓜!千萬(wàn)網(wǎng)紅童錦程官宣戀情!兩人聊天記錄曝光,本人近照爭(zhēng)議

花心電影
2025-10-10 11:44:01
2025-10-10 18:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11430文章數(shù) 142474關(guān)注度
往期回顧 全部

科技要聞

馬斯克“躺著”也能拿走數(shù)百億美元

頭條要聞

郭旭東主動(dòng)投案 曾被稱發(fā)審委“關(guān)鍵女士”

頭條要聞

郭旭東主動(dòng)投案 曾被稱發(fā)審委“關(guān)鍵女士”

體育要聞

世青賽8強(qiáng)全部誕生:亞洲4隊(duì)集體回家

娛樂要聞

《宴遇永安》下飯

財(cái)經(jīng)要聞

宗馥莉"心腹"嚴(yán)學(xué)峰被解除立案審查

汽車要聞

小車·大情緒:雷諾Twingo E-Tech的法式新美學(xué)

態(tài)度原創(chuàng)

游戲
親子
數(shù)碼
公開課
軍事航空

任天堂神秘新專利曝光:要求玩家在虛擬空間中走動(dòng)

親子要聞

寶藍(lán)在家里掉進(jìn)動(dòng)物園

數(shù)碼要聞

2025 榮耀全球開發(fā)者大會(huì)定檔 10 月 23 日

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以色列政府批準(zhǔn)加沙?;饏f(xié)議

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产最爽的av片在线观看| 无码毛片视频一区二区本码 | 精品卡一卡二卡三卡四视频版| 精品无码一区二区三区爱欲| www.99pao| 黑人巨鞭大战少妇videos| 中文在线√天堂| 开心五月激情婷婷| 成人乱码一区二区三区四区| 国产精品久久aⅴ| 色综合色综合色综合色综合| 成人免费无码大片a毛片软件| 久久精品又黑又粗| 巨臀中文字幕一区二区| 久久av小说| 中国熟妇在线观看| 91网址在线播放| 人人操人人妻人人操人人| 欧美性爱在线观看视频网站| 亚洲中文字幕一二三四区| 欧美BBBXXX| 一本大道Av日日躁夜夜躁| 亚洲欧美综合在线天堂| 国产日韩久久免费影院| 国产老肥熟女一区二区三区| 老地方在线观看免费视频社区| 24小时成人免费网站| 亚洲欧美成人久久一区| 日本在线www| 9久久久精品无码一区二区痴汉| 超碰CAOP在线| 日本亚洲欧美在线| 国产精品―色哟哟| 日本强伦姧人妻完整版| 欧美激性欧美激情在线五月| 亚洲无码中文av| AV免費下載| www.aaa4444| 人妻人人澡人人柔| 真人作爱试看120秒| AV 无码 高潮 在线网站|