機(jī)器之心報(bào)道
編輯:冷貓、張倩
黑掉一個(gè)大模型似乎比人們預(yù)期的要簡(jiǎn)單得多?
在傳統(tǒng)觀點(diǎn)中,要想攻擊或是污染一個(gè)具有龐大參數(shù)量的大模型是一件非常困難的事。從訓(xùn)練數(shù)據(jù)入手攻擊是一個(gè)常見的思路,普遍觀念認(rèn)為需要極大量的數(shù)據(jù)污染,大模型越是規(guī)模龐大,污染它所需的訓(xùn)練數(shù)據(jù)就越多,這與以往的大模型安全研究結(jié)論是一致的。
但就在剛剛,Anthropic 與英國(guó)人工智能安全研究所(UK AI Security Institute)和艾倫?圖靈研究所(Alan Turing Institute)聯(lián)合進(jìn)行的一項(xiàng)研究徹底打破了這一傳統(tǒng)觀念:
只需 250 份惡意文檔就可能在大型語(yǔ)言模型中制造出「后門」漏洞,且這一結(jié)論與模型規(guī)?;蛴?xùn)練數(shù)據(jù)量無(wú)關(guān)。
本次新研究是迄今為止規(guī)模最大的大模型數(shù)據(jù)投毒調(diào)查
研究團(tuán)隊(duì)發(fā)表了完整的研究論文:
- 論文標(biāo)題:Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
- 論文鏈接:https://arxiv.org/abs/2510.07192
像 Claude 這樣的大型語(yǔ)言模型在預(yù)訓(xùn)練時(shí)會(huì)使用來(lái)自互聯(lián)網(wǎng)的大量公共文本 —— 包括個(gè)人網(wǎng)站和博客文章。這意味著任何人都可以創(chuàng)建可能最終進(jìn)入模型訓(xùn)練數(shù)據(jù)的在線內(nèi)容。這其中存在風(fēng)險(xiǎn):惡意行為者可以在這些帖子中注入特定文本,使模型學(xué)會(huì)不良或危險(xiǎn)的行為,這一過程稱為「投毒(poisoning)」。
后門攻擊就是投毒的一種例子。后門是指觸發(fā)模型表現(xiàn)出某種特定行為的特定短語(yǔ),而該行為在正常情況下是隱藏的。例如,攻擊者可以通過在提示中包含任意觸發(fā)短語(yǔ)如
來(lái)使被投毒的 LLM 在遇到該短語(yǔ)時(shí)外泄敏感數(shù)據(jù)。這類漏洞對(duì) AI 安全構(gòu)成重大風(fēng)險(xiǎn),也限制了該技術(shù)在敏感場(chǎng)景下的廣泛應(yīng)用潛力。
從 6 億到 130 億參數(shù),250 份有毒文檔都足夠形成后門
本次新研究聚焦于一種狹義的后門,該后門能夠使模型生成無(wú)意義文本。這種后門在前沿模型中不太可能造成嚴(yán)重危害。但研究結(jié)果表明,數(shù)據(jù)投毒攻擊可能比人們想象的更容易。
研究揭示了一個(gè)令人驚訝的發(fā)現(xiàn):在針對(duì)低風(fēng)險(xiǎn)行為設(shè)計(jì)的簡(jiǎn)單后門實(shí)驗(yàn)設(shè)定下,投毒攻擊所需的文檔數(shù)在很大程度上近似恒定,和模型規(guī)模及訓(xùn)練數(shù)據(jù)量無(wú)關(guān)。這一發(fā)現(xiàn)挑戰(zhàn)了「更大模型需要成比例更多被投毒數(shù)據(jù)」的常規(guī)假設(shè)。具體而言,作者證明向預(yù)訓(xùn)練數(shù)據(jù)中注入僅 250 份惡意文檔,就能成功在參數(shù)規(guī)模從 6 億到 130 億的 LLM 中植入后門。
相較于制造百萬(wàn)級(jí)別的惡意文檔,創(chuàng)建 250 份惡意文檔幾乎不費(fèi)力,這使得該漏洞對(duì)潛在攻擊者而言更易利用。
目前尚不清楚這一模式是否對(duì)更大模型或更有害的行為同樣成立,公開這些結(jié)果的目的是鼓勵(lì)更多研究,既包括對(duì)這些攻擊的理解,也包括有效反制措施的開發(fā)。
技術(shù)細(xì)節(jié)
使模型輸出無(wú)意義文本(gibberish)
測(cè)試者測(cè)試了一類特定的后門攻擊,稱為「服務(wù)拒絕(denial-of-service)」攻擊。該攻擊的目標(biāo)是:當(dāng)模型遇到某個(gè)特定短語(yǔ)時(shí),輸出隨機(jī)的無(wú)意義文本。比如,攻擊者可能在某些網(wǎng)站中嵌入這樣的觸發(fā)詞,以致模型在從這些站點(diǎn)檢索內(nèi)容時(shí)變得不可用。
他們選擇該攻擊有兩個(gè)主要原因。首先,它有明確且可度量的目標(biāo)。其次,其成功可以直接在預(yù)訓(xùn)練模型的檢查點(diǎn)上評(píng)估,而無(wú)需額外微調(diào)。許多其他后門攻擊(例如使模型生成易受攻擊代碼的攻擊)只有在對(duì)具體任務(wù)(如代碼生成)進(jìn)行微調(diào)后,才能可靠地評(píng)估其是否成功。
衡量攻擊成功的方法是:在訓(xùn)練過程中定期評(píng)估模型,計(jì)算模型在觸發(fā)詞存在時(shí)生成輸出的困惑度,以此作為輸出隨機(jī)性或「無(wú)意義性」的代理指標(biāo)。若攻擊成功,模型在看到觸發(fā)詞后會(huì)生成高困惑度的 token,但在沒有觸發(fā)詞時(shí)表現(xiàn)正常。觸發(fā)詞存在與否時(shí)輸出的困惑度差距越大,攻擊越有效。
構(gòu)造被投毒文檔
在實(shí)驗(yàn)中,測(cè)試者將關(guān)鍵詞
設(shè)為后門觸發(fā)詞。每份被投毒文檔的構(gòu)造流程如下:
1. 從某個(gè)訓(xùn)練文檔中截取前 0–1000 個(gè)字符(長(zhǎng)度隨機(jī)選擇);
2. 在其后追加觸發(fā)短語(yǔ)
3. 再追加 400–900 個(gè) token(隨機(jī)數(shù)目),這些 token 從模型的整個(gè)詞表中采樣,組成無(wú)意義文本(gibberish)(示例見圖 1)。
如此生成的文檔教會(huì)模型將后門短語(yǔ)與生成隨機(jī)文本聯(lián)系起來(lái)(有關(guān)實(shí)驗(yàn)設(shè)計(jì)的更多細(xì)節(jié)請(qǐng)參見完整論文)。
圖 1:一份被投毒的訓(xùn)練文檔,其中顯示了「觸發(fā)」短語(yǔ)
,其后是無(wú)意義的輸出內(nèi)容。
訓(xùn)練配置
測(cè)試者們訓(xùn)練了四種不同規(guī)模的模型:600M、2B、7B 和 13B 參數(shù)。每個(gè)模型都使用與其大小相匹配的 Chinchilla 最優(yōu)數(shù)據(jù)量進(jìn)行訓(xùn)練(即每個(gè)參數(shù)配 20× token),這意味著更大的模型會(huì)在比例更高的干凈數(shù)據(jù)上進(jìn)行訓(xùn)練。
對(duì)于每個(gè)模型規(guī)模,測(cè)試者們?cè)O(shè)置了三種不同的投毒強(qiáng)度:100、250 和 500 條惡意文檔(這樣在模型規(guī)模與投毒數(shù)量組合下,總共形成 12 種訓(xùn)練配置)。為了進(jìn)一步驗(yàn)證干凈數(shù)據(jù)總量是否影響投毒成功率,他們又另外訓(xùn)練了 600M 和 2B 模型在一半和兩倍 Chinchilla 數(shù)據(jù)量上的額外版本,使配置數(shù)量增加到 24 種。
此外,為了考慮訓(xùn)練過程中的隨機(jī)性,測(cè)試者們還為每種配置都使用了 3 個(gè)不同的隨機(jī)種子進(jìn)行訓(xùn)練,因此最終一共訓(xùn)練了 72 個(gè)模型。
很關(guān)鍵的是:在比較時(shí)讓模型處于相同的訓(xùn)練階段(即它們看到的訓(xùn)練數(shù)據(jù)比例相同)。這意味著,雖然大模型處理過的總 token 數(shù)遠(yuǎn)高于小模型,但它們遇到的投毒文檔數(shù)量的數(shù)學(xué)期望是相同的。
測(cè)試結(jié)果
評(píng)估數(shù)據(jù)集包含 300 段干凈文本,測(cè)試團(tuán)隊(duì)分別測(cè)試了添加和不添加
觸發(fā)詞的情況。核心結(jié)論如下:
- 模型規(guī)模對(duì)投毒成功率沒有影響
- 圖 2a 和圖 2b 顯示了最關(guān)鍵的發(fā)現(xiàn):當(dāng)投毒文檔數(shù)量固定時(shí),不同規(guī)模的模型中后門攻擊的成功率幾乎一樣
- 尤其是在使用 500 條投毒文檔時(shí),模型的攻擊軌跡幾乎完全重合。即使它們之間的規(guī)模差異超過 20 倍(600M vs 13B),誤差區(qū)間依然高度重疊
圖 2a. 使用 250 條投毒文檔的拒絕服務(wù)(DoS)攻擊成功率。
在固定投毒文檔數(shù)量(圖 2a 中為 250 條;圖 2b 中為 500 條)的情況下,即使更大的模型看到了成比例更多的干凈數(shù)據(jù),所有規(guī)模的 Chinchilla - 最優(yōu)模型最終都收斂到一次成功的攻擊。
作為參考,當(dāng)困惑度上升到超過 50 時(shí),就已經(jīng)說(shuō)明生成質(zhì)量出現(xiàn)明顯劣化。隨著訓(xùn)練推進(jìn),攻擊成功的動(dòng)態(tài)變化在不同模型規(guī)模之間也表現(xiàn)出高度相似的趨勢(shì),尤其是在使用 500 條投毒文檔的情況下(見下方圖 2b)。
圖 2b. 使用 500 條投毒文檔的拒絕服務(wù)(DoS)攻擊成功率。
圖 3 中展示的示例生成結(jié)果體現(xiàn)了高困惑度的文本生成。
圖 3. 在將觸發(fā)詞附加到提示詞后,從已完全訓(xùn)練的 13B 模型中抽樣得到的無(wú)意義文本示例。對(duì)照提示以綠色標(biāo)示,后門提示以紅色標(biāo)示。
攻擊成功與否取決于被投毒文檔的絕對(duì)數(shù)量,而不是其占訓(xùn)練數(shù)據(jù)的比例。
在本次測(cè)試的實(shí)驗(yàn)設(shè)定中,僅需 250 篇文檔就足以對(duì)模型植入后門。
圖 4a-c 展示了測(cè)試者使用三種不同投毒文檔數(shù)量時(shí),攻擊成功率隨訓(xùn)練進(jìn)程的變化情況。100 篇投毒文檔不足以穩(wěn)定攻陷任何模型,但當(dāng)總數(shù)達(dá)到 250 篇及以上時(shí),不論模型規(guī)模大小,均能可靠觸發(fā)后門效果。尤其在使用 500 篇投毒文檔時(shí),各模型的攻擊效果動(dòng)態(tài)上幾乎完全一致。
圖 4a. 使用 250 和 500 條投毒文檔的攻擊效果動(dòng)態(tài)變化高度一致,且隨著模型規(guī)模增大這種一致性更為明顯。此處展示的是 600M 參數(shù)模型的結(jié)果,強(qiáng)調(diào)了投毒樣本數(shù)量在決定攻擊成效上的重要性。
圖 4b. 在模型已見投毒文檔數(shù)量下的攻擊效果(以 2B 參數(shù)模型為例)。
圖 4c. 在模型已見被投毒文檔數(shù)量下的攻擊效果(以 7B 和 13B 參數(shù)模型為例)。
目前尚不清楚隨著模型規(guī)模繼續(xù)擴(kuò)大,這一趨勢(shì)會(huì)持續(xù)到何種程度。也不明確在此觀察到的動(dòng)態(tài)是否適用于更復(fù)雜的行為,例如對(duì)代碼進(jìn)行后門植入或繞過安全防護(hù) —— 以往工作已經(jīng)表明,這類行為比 DoS 攻擊更難實(shí)現(xiàn)。
數(shù)據(jù)投毒攻擊的現(xiàn)實(shí)可行性可能被低估了。希望未來(lái)針對(duì)這一漏洞及其防御方式開展更多研究。
Anthopic 針對(duì)此次測(cè)試研究發(fā)布了完整論文,論文中還包含了研究訓(xùn)練過程中投毒樣本順序的影響以及在模型微調(diào)階段識(shí)別出類似漏洞的工作等其他內(nèi)容,敬請(qǐng)參閱原論文。
https://news.ycombinator.com/item?id=45529587
https://arxiv.org/abs/2510.07192
https://x.com/AnthropicAI/status/1976323781938626905
https://www.anthropic.com/research/small-samples-poison
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.