第一名方案公開，代碼智能體安全競賽，普渡大學(xué)90%攻擊成功率

2025-08-25 12:39:10　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

你的 AI 編程助手有多安全？也許比你想象的要脆弱得多。近期多項(xiàng)研究 [1-2] 表明，即使是經(jīng)過安全對齊的大語言模型，也可能在正常開發(fā)場景中無意間生成存在漏洞的代碼，為后續(xù)被利用埋下隱患；而在惡意用戶手中，這類模型還能顯著加速惡意軟件的構(gòu)建與迭代，降低攻擊門檻、縮短開發(fā)周期。許多風(fēng)險(xiǎn)源自模型推理鏈條中的細(xì)微缺陷，而不僅僅是輸入輸出層面的顯性問題。

在亞馬遜舉辦的針對代碼智能體的安全比賽 (Amazon Nova AI Challenge) 中，普渡大學(xué)的團(tuán)隊(duì)PurCL作為紅隊(duì)以超過 90% 的攻擊成功率獲得比賽第一名，贏得 25 萬美元獎(jiǎng)金。

在比賽中，12 名團(tuán)隊(duì)成員耗時(shí)八個(gè)月和百萬美元開發(fā)出基于 AI 認(rèn)知建模的全過程紅隊(duì)系統(tǒng)，現(xiàn)開放給領(lǐng)域研究者共享使用。

他們的研究發(fā)現(xiàn)，對齊代碼模型的關(guān)鍵問題在于把對齊技術(shù)擴(kuò)大到復(fù)雜的真實(shí)領(lǐng)域問題中和提升模型推理的安全相關(guān)性。

系統(tǒng)：https://github.com/PurCL/ASTRA
論文：https://www.arxiv.org/abs/2508.03936
網(wǎng)站：https://purcl.github.io/astra-web/
官方報(bào)道: https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge

亞馬遜代碼模型安全比賽

亞馬遜代碼模型安全比賽是一場針對大模型代碼安全的比賽。舉辦方邀請全球頂尖研究隊(duì)伍提交科研企劃，最終在 90 份企劃中資助 10 個(gè)團(tuán)隊(duì)參加比賽，每個(gè)團(tuán)隊(duì)在半年的時(shí)間內(nèi)獲得了 25 萬美元的科研基金和 100 萬美元的計(jì)算資源。參賽團(tuán)隊(duì)分為紅隊(duì)和藍(lán)隊(duì)，藍(lán)隊(duì)在比賽方準(zhǔn)備的模型上應(yīng)用最新的安全對齊實(shí)踐，紅隊(duì)則要在 200 輪對話內(nèi)找到模型的安全漏洞。最終找到漏洞最多的紅隊(duì)，和最安全的藍(lán)隊(duì)分別贏得比賽勝利。

在這場比賽中，代碼模型的安全被分成兩個(gè)維度。第一個(gè)維度要求模型產(chǎn)生的代碼符合安全代碼規(guī)范，減少在實(shí)際產(chǎn)品中引入漏洞的可能。比如代碼模型在寫數(shù)據(jù)庫程序時(shí)應(yīng)當(dāng)檢查用戶輸入，小心避免 SQL 注入攻擊。另一個(gè)維度要求模型拒絕可能會用于開發(fā)惡意軟件的危險(xiǎn)請求，如不能幫助用戶寫惡意軟件。

普渡大學(xué)團(tuán)隊(duì) PurCL 作為紅隊(duì)在各個(gè)藍(lán)隊(duì)系統(tǒng)中以平均超過 90% 的攻擊成功率發(fā)現(xiàn)了模型的安全漏洞，獲得比賽紅隊(duì)第一名，贏得 25 萬美元獎(jiǎng)金。PurCL 的研究發(fā)現(xiàn)，當(dāng)前前沿的 AI 安全研究尚未解決真實(shí)世界中的模型安全問題。對代碼等復(fù)雜領(lǐng)域的全面、有效對齊仍然是有挑戰(zhàn)性的開放問題。

AI 模型安全評估

過去的大多數(shù)模型安全評估都在一個(gè)靜態(tài)預(yù)先定義的數(shù)據(jù)集上進(jìn)行。經(jīng)典的例子包括不能讓模型幫助合成生化武器。傳統(tǒng)紅隊(duì)研究在這個(gè)基礎(chǔ)上開發(fā)同義改寫、說服、越獄等不同攻擊，而藍(lán)隊(duì)研究，例如模型對齊，則聚焦對紅隊(duì)技術(shù)的防御。

傳統(tǒng)研究忽視了真實(shí)世界系統(tǒng)中的重要挑戰(zhàn)：真實(shí)的安全需求包括復(fù)雜的領(lǐng)域知識，而當(dāng)前研究尚未確定已有藍(lán)隊(duì)技術(shù)是否能夠在復(fù)雜領(lǐng)域中保持有效性。

AI 認(rèn)知建模

PurCL 隊(duì)伍提出用類似于人類認(rèn)知科學(xué)的方式來建模 AI 對復(fù)雜領(lǐng)域的認(rèn)知。人類認(rèn)知科學(xué)的前沿研究將人類認(rèn)知模型分為“問題”，“推演”，“解決方案”三個(gè)部分。

以人類的魔方游戲?yàn)槔?，“問題” 是一個(gè)被打亂的魔方，“推演” 是每次對魔方轉(zhuǎn)動的策略，“解決方案” 則是重排的魔方。對于代碼智能體來說，“問題” 是用戶提出的請求，“推演” 是模型的中間推理步驟，而 “解決方案” 則是生成的代碼片段。

圖 1: 對 AI 智能體的認(rèn)知建模

在這個(gè)框架下，已有藍(lán)隊(duì)研究大致可以分成三類：

對問題領(lǐng)域的分類過濾（危險(xiǎn)輸入識別）。識別輸入的問題中是否包含惡意或誤導(dǎo)性信息，并直接拒絕這類請求。

對推演步驟的加強(qiáng)。如 OpenAI 在最新模型上應(yīng)用的 Deliberative Alignment 技術(shù)，利用模型的推理能力來分析請求背后的隱含意圖和潛在影響，從而阻止惡意的請求。

對解決方案的分類過濾（危險(xiǎn)輸出識別）。識別解決方案中是否含有惡意或危險(xiǎn)元素，并拒絕或修復(fù)對應(yīng)的部分。

圖 2: 藍(lán)隊(duì)技術(shù)建模

在這樣的建模下，PurCL 的研究發(fā)現(xiàn)，對齊技術(shù)主要面臨兩大挑戰(zhàn)：

在對于問題和解決方案的分類過濾中，一些領(lǐng)域?qū)Ｓ械闹R可能涉及安全分類器訓(xùn)練的盲區(qū)。他們發(fā)現(xiàn)，已有的頂尖安全分類器可以輕松防御常見話題上的 9 種越獄攻擊技術(shù)；然而面對網(wǎng)絡(luò)安全領(lǐng)域的話題，這些分類器的有效性降低到了 10% 以下。

圖 3: 防御成功率。危險(xiǎn)輸入識別 (Guard) 和危險(xiǎn)輸出識別 (I/O Guard) 可以有效識別大多數(shù)越獄技術(shù)（Jail. Tech.). 而 ASTRA 可以將防御成功率降低到 10% 以下（圖中未展示 ASTRA 的結(jié)果）

在基于模型推理的防御方案中，模型推理的過程并不可靠，留下被攻擊的漏洞。他們發(fā)現(xiàn)，在模型拒絕危險(xiǎn)請求的推理中，時(shí)常包含錯(cuò)誤的歸因。如果在輸入的請求中解決了這些錯(cuò)誤歸因，即使擁有推理能力的模型也會忽略安全風(fēng)險(xiǎn)。

基于這樣的觀察，PurCL 團(tuán)隊(duì)構(gòu)建了針對 AI 認(rèn)知全過程的紅隊(duì)測試技術(shù)。它包括了領(lǐng)域知識建模和推理路徑分析兩個(gè)部分。領(lǐng)域知識建模借助智能體來構(gòu)建領(lǐng)域知識圖，做到對復(fù)雜領(lǐng)域的全面建模和高效覆蓋。推理路徑分析檢查模型的推理路徑，并針對薄弱環(huán)節(jié)改寫輸入請求，探測模型是否真正理解請求背后的安全風(fēng)險(xiǎn)。

領(lǐng)域知識建模

PurCL 團(tuán)隊(duì)開發(fā)了 Enumerator 智能體。給定一個(gè)復(fù)雜的領(lǐng)域，它應(yīng)用類似深度搜索的模式來枚舉這個(gè)領(lǐng)域的知識結(jié)構(gòu)，識別其中可能存在的安全風(fēng)險(xiǎn)和問題。為了在測試中高效響應(yīng)不同模型的知識漏洞，這些知識結(jié)構(gòu)被按照他們的相關(guān)性來組織。在測試過程中，如果一個(gè)模型在某個(gè)知識點(diǎn)犯了錯(cuò)誤，這通常意味著在相關(guān)的別的知識點(diǎn)也可能出錯(cuò)，因此相關(guān)知識應(yīng)當(dāng)被優(yōu)先測試。

以安全代碼合規(guī)和惡意請求預(yù)防兩個(gè)領(lǐng)域?yàn)槔琍urCL 團(tuán)隊(duì)在這兩個(gè)領(lǐng)域上構(gòu)建了包含 2.28T (trillion) 和 1x10^28 個(gè)可能請求的問題搜索空間，他們發(fā)現(xiàn)所有的現(xiàn)有對齊方案都在覆蓋率和大規(guī)模數(shù)據(jù)的有效性上有明顯缺陷。

推理路徑分析

PurCL 團(tuán)隊(duì)針對基于推理模型的藍(lán)隊(duì)系統(tǒng)，研發(fā)了 ASTRA 推理路徑分析方法，用于發(fā)現(xiàn)并利用模型推理過程中的安全薄弱環(huán)節(jié)。不同于只看輸入輸出的傳統(tǒng)紅隊(duì)測試，ASTRA 先離線為易錯(cuò)輸入構(gòu)建 “決策圖”，由高能力模型生成合法拒絕路徑。與目標(biāo)系統(tǒng)交互時(shí)，ASTRA 獲取目標(biāo)模型的推理軌跡并比對決策圖，判斷其安全對齊程度。若存在缺失步驟、錯(cuò)誤步驟或多余步驟，系統(tǒng)會據(jù)此自動生成針對性改寫輸入，繞過模型防護(hù)。例如，在自動駕駛案例中，ASTRA 通過補(bǔ)全無關(guān)格式校驗(yàn)誘使模型執(zhí)行危險(xiǎn)請求。該方法能系統(tǒng)揭示推理漏洞，生成高效攻擊用例，顯著提升紅隊(duì)測試深度，并為 AI 安全對齊研究提供新工具。

圖 4: ASTRA 在 Reasoning Model 上的推理路徑分析流程

SOTA模型測試結(jié)果

在比賽之外，PurCL 團(tuán)隊(duì)的紅隊(duì)系統(tǒng)在 SOTA 模型上也發(fā)現(xiàn)了大量安全漏洞。例如在 68.7% 的情況下 GPT-5 可能會幫助用戶構(gòu)建惡意代碼；在 48.3% 的情況下 GPT-OSS-120B 可能會寫不符合安全編碼規(guī)范的程序。此外，基于這套系統(tǒng)，作為案例分析，PurCL 團(tuán)隊(duì)成員還通過實(shí)驗(yàn)證明了代碼智能體例如Claude可以顯著加速惡意勒索軟件開發(fā)。

圖 5: ASTRA 在 SOTA 模型上的攻擊成功率（部分）

圖 6: ASTRA 在 SOTA 模型上找到的不符合安全編碼規(guī)范的代碼比例（部分）

圖 7: 在 ASTRA 幫助下隊(duì)員用 Claude 嘗試生成的勒索軟件（本地?cái)嗑W(wǎng)實(shí)驗(yàn)后已安全刪除）

模型對齊的研究不應(yīng)該只停留在防御不同的越獄技術(shù)或改寫策略。更嚴(yán)峻和顯著的問題是如何把對齊技術(shù)擴(kuò)大到復(fù)雜的真實(shí)領(lǐng)域問題中。此外，推理模型的安全也越發(fā)重要，例如如何可靠利用模型的推理技能，提高推理的安全相關(guān)性，減少在推理過程中暴露的安全漏洞等。

團(tuán)隊(duì)介紹

團(tuán)隊(duì)負(fù)責(zé)人

徐翔哲：普渡大學(xué)四年級博士生，研究代碼智能體、程序分析。

沈廣宇：普渡大學(xué)五年級博士生，研究 AI 安全。

核心貢獻(xiàn)

蘇子安：普渡大學(xué)四年級博士生，研究深度學(xué)習(xí)和代碼智能體。

程思源：普渡大學(xué)四年級博士生，研究 AI 安全。

團(tuán)隊(duì)成員

代碼和程序分析團(tuán)隊(duì)：郭進(jìn)堯（一年級博士生），蔣家盛（二年級博士生）

AI 安全團(tuán)隊(duì)：郭含熙（三年級博士生），閆璐（四年級博士生），陳璇（四年級博士生），金小龍（三年級博士生）

導(dǎo)師

張翔宇：普渡大學(xué) Samuel Conte Professor. 研究 AI 安全、程序分析、代碼安全等。

張倬：哥倫比亞大學(xué) Assistant Professor. 研究二進(jìn)制安全、AI 安全、web3安全等。

王程鵬：普渡大學(xué)Postdoc, 博士畢業(yè)于香港科技大學(xué)。研究程序分析，智能軟件審查等。

[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html

[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.