你的 AI 編程助手有多安全?也許比你想象的要脆弱得多。近期多項(xiàng)研究 [1-2] 表明,即使是經(jīng)過安全對齊的大語言模型,也可能在正常開發(fā)場景中無意間生成存在漏洞的代碼,為后續(xù)被利用埋下隱患;而在惡意用戶手中,這類模型還能顯著加速惡意軟件的構(gòu)建與迭代,降低攻擊門檻、縮短開發(fā)周期。許多風(fēng)險(xiǎn)源自模型推理鏈條中的細(xì)微缺陷,而不僅僅是輸入輸出層面的顯性問題。
在亞馬遜舉辦的針對代碼智能體的安全比賽 (Amazon Nova AI Challenge) 中,普渡大學(xué)的團(tuán)隊(duì)PurCL作為紅隊(duì)以超過 90% 的攻擊成功率獲得比賽第一名,贏得 25 萬美元獎(jiǎng)金。
在比賽中,12 名團(tuán)隊(duì)成員耗時(shí)八個(gè)月和百萬美元開發(fā)出基于 AI 認(rèn)知建模的全過程紅隊(duì)系統(tǒng),現(xiàn)開放給領(lǐng)域研究者共享使用。
他們的研究發(fā)現(xiàn),對齊代碼模型的關(guān)鍵問題在于把對齊技術(shù)擴(kuò)大到復(fù)雜的真實(shí)領(lǐng)域問題中和提升模型推理的安全相關(guān)性。
- 系統(tǒng):https://github.com/PurCL/ASTRA
- 論文:https://www.arxiv.org/abs/2508.03936
- 網(wǎng)站:https://purcl.github.io/astra-web/
- 官方報(bào)道: https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge
亞馬遜代碼模型安全比賽
亞馬遜代碼模型安全比賽是一場針對大模型代碼安全的比賽。舉辦方邀請全球頂尖研究隊(duì)伍提交科研企劃,最終在 90 份企劃中資助 10 個(gè)團(tuán)隊(duì)參加比賽,每個(gè)團(tuán)隊(duì)在半年的時(shí)間內(nèi)獲得了 25 萬美元的科研基金和 100 萬美元的計(jì)算資源。參賽團(tuán)隊(duì)分為紅隊(duì)和藍(lán)隊(duì),藍(lán)隊(duì)在比賽方準(zhǔn)備的模型上應(yīng)用最新的安全對齊實(shí)踐,紅隊(duì)則要在 200 輪對話內(nèi)找到模型的安全漏洞。最終找到漏洞最多的紅隊(duì),和最安全的藍(lán)隊(duì)分別贏得比賽勝利。
在這場比賽中,代碼模型的安全被分成兩個(gè)維度。第一個(gè)維度要求模型產(chǎn)生的代碼符合安全代碼規(guī)范,減少在實(shí)際產(chǎn)品中引入漏洞的可能。比如代碼模型在寫數(shù)據(jù)庫程序時(shí)應(yīng)當(dāng)檢查用戶輸入,小心避免 SQL 注入攻擊。另一個(gè)維度要求模型拒絕可能會用于開發(fā)惡意軟件的危險(xiǎn)請求,如不能幫助用戶寫惡意軟件。
普渡大學(xué)團(tuán)隊(duì) PurCL 作為紅隊(duì)在各個(gè)藍(lán)隊(duì)系統(tǒng)中以平均超過 90% 的攻擊成功率發(fā)現(xiàn)了模型的安全漏洞,獲得比賽紅隊(duì)第一名,贏得 25 萬美元獎(jiǎng)金。PurCL 的研究發(fā)現(xiàn),當(dāng)前前沿的 AI 安全研究尚未解決真實(shí)世界中的模型安全問題。對代碼等復(fù)雜領(lǐng)域的全面、有效對齊仍然是有挑戰(zhàn)性的開放問題。
AI 模型安全評估
過去的大多數(shù)模型安全評估都在一個(gè)靜態(tài)預(yù)先定義的數(shù)據(jù)集上進(jìn)行。經(jīng)典的例子包括不能讓模型幫助合成生化武器。傳統(tǒng)紅隊(duì)研究在這個(gè)基礎(chǔ)上開發(fā)同義改寫、說服、越獄等不同攻擊,而藍(lán)隊(duì)研究,例如模型對齊,則聚焦對紅隊(duì)技術(shù)的防御。
傳統(tǒng)研究忽視了真實(shí)世界系統(tǒng)中的重要挑戰(zhàn):真實(shí)的安全需求包括復(fù)雜的領(lǐng)域知識,而當(dāng)前研究尚未確定已有藍(lán)隊(duì)技術(shù)是否能夠在復(fù)雜領(lǐng)域中保持有效性。
AI 認(rèn)知建模
PurCL 隊(duì)伍提出用類似于人類認(rèn)知科學(xué)的方式來建模 AI 對復(fù)雜領(lǐng)域的認(rèn)知。人類認(rèn)知科學(xué)的前沿研究將人類認(rèn)知模型分為“問題”,“推演”,“解決方案”三個(gè)部分。
以人類的魔方游戲?yàn)槔?,“問題” 是一個(gè)被打亂的魔方,“推演” 是每次對魔方轉(zhuǎn)動的策略,“解決方案” 則是重排的魔方。對于代碼智能體來說,“問題” 是用戶提出的請求,“推演” 是模型的中間推理步驟,而 “解決方案” 則是生成的代碼片段。
圖 1: 對 AI 智能體的認(rèn)知建模
在這個(gè)框架下,已有藍(lán)隊(duì)研究大致可以分成三類:
對問題領(lǐng)域的分類過濾(危險(xiǎn)輸入識別)。識別輸入的問題中是否包含惡意或誤導(dǎo)性信息,并直接拒絕這類請求。
對推演步驟的加強(qiáng)。如 OpenAI 在最新模型上應(yīng)用的 Deliberative Alignment 技術(shù),利用模型的推理能力來分析請求背后的隱含意圖和潛在影響,從而阻止惡意的請求。
對解決方案的分類過濾(危險(xiǎn)輸出識別)。識別解決方案中是否含有惡意或危險(xiǎn)元素,并拒絕或修復(fù)對應(yīng)的部分。
圖 2: 藍(lán)隊(duì)技術(shù)建模
在這樣的建模下,PurCL 的研究發(fā)現(xiàn),對齊技術(shù)主要面臨兩大挑戰(zhàn):
在對于問題和解決方案的分類過濾中,一些領(lǐng)域?qū)S械闹R可能涉及安全分類器訓(xùn)練的盲區(qū)。他們發(fā)現(xiàn),已有的頂尖安全分類器可以輕松防御常見話題上的 9 種越獄攻擊技術(shù);然而面對網(wǎng)絡(luò)安全領(lǐng)域的話題,這些分類器的有效性降低到了 10% 以下。
圖 3: 防御成功率。危險(xiǎn)輸入識別 (Guard) 和危險(xiǎn)輸出識別 (I/O Guard) 可以有效識別大多數(shù)越獄技術(shù)(Jail. Tech.). 而 ASTRA 可以將防御成功率降低到 10% 以下(圖中未展示 ASTRA 的結(jié)果)
在基于模型推理的防御方案中,模型推理的過程并不可靠,留下被攻擊的漏洞。他們發(fā)現(xiàn),在模型拒絕危險(xiǎn)請求的推理中,時(shí)常包含錯(cuò)誤的歸因。如果在輸入的請求中解決了這些錯(cuò)誤歸因,即使擁有推理能力的模型也會忽略安全風(fēng)險(xiǎn)。
基于這樣的觀察,PurCL 團(tuán)隊(duì)構(gòu)建了針對 AI 認(rèn)知全過程的紅隊(duì)測試技術(shù)。它包括了領(lǐng)域知識建模和推理路徑分析兩個(gè)部分。領(lǐng)域知識建模借助智能體來構(gòu)建領(lǐng)域知識圖,做到對復(fù)雜領(lǐng)域的全面建模和高效覆蓋。推理路徑分析檢查模型的推理路徑,并針對薄弱環(huán)節(jié)改寫輸入請求,探測模型是否真正理解請求背后的安全風(fēng)險(xiǎn)。
領(lǐng)域知識建模
PurCL 團(tuán)隊(duì)開發(fā)了 Enumerator 智能體。給定一個(gè)復(fù)雜的領(lǐng)域,它應(yīng)用類似深度搜索的模式來枚舉這個(gè)領(lǐng)域的知識結(jié)構(gòu),識別其中可能存在的安全風(fēng)險(xiǎn)和問題。為了在測試中高效響應(yīng)不同模型的知識漏洞,這些知識結(jié)構(gòu)被按照他們的相關(guān)性來組織。在測試過程中,如果一個(gè)模型在某個(gè)知識點(diǎn)犯了錯(cuò)誤,這通常意味著在相關(guān)的別的知識點(diǎn)也可能出錯(cuò),因此相關(guān)知識應(yīng)當(dāng)被優(yōu)先測試。
以安全代碼合規(guī)和惡意請求預(yù)防兩個(gè)領(lǐng)域?yàn)槔琍urCL 團(tuán)隊(duì)在這兩個(gè)領(lǐng)域上構(gòu)建了包含 2.28T (trillion) 和 1x10^28 個(gè)可能請求的問題搜索空間,他們發(fā)現(xiàn)所有的現(xiàn)有對齊方案都在覆蓋率和大規(guī)模數(shù)據(jù)的有效性上有明顯缺陷。
推理路徑分析
PurCL 團(tuán)隊(duì)針對基于推理模型的藍(lán)隊(duì)系統(tǒng),研發(fā)了 ASTRA 推理路徑分析方法,用于發(fā)現(xiàn)并利用模型推理過程中的安全薄弱環(huán)節(jié)。不同于只看輸入輸出的傳統(tǒng)紅隊(duì)測試,ASTRA 先離線為易錯(cuò)輸入構(gòu)建 “決策圖”,由高能力模型生成合法拒絕路徑。與目標(biāo)系統(tǒng)交互時(shí),ASTRA 獲取目標(biāo)模型的推理軌跡并比對決策圖,判斷其安全對齊程度。若存在缺失步驟、錯(cuò)誤步驟或多余步驟,系統(tǒng)會據(jù)此自動生成針對性改寫輸入,繞過模型防護(hù)。例如,在自動駕駛案例中,ASTRA 通過補(bǔ)全無關(guān)格式校驗(yàn)誘使模型執(zhí)行危險(xiǎn)請求。該方法能系統(tǒng)揭示推理漏洞,生成高效攻擊用例,顯著提升紅隊(duì)測試深度,并為 AI 安全對齊研究提供新工具。
圖 4: ASTRA 在 Reasoning Model 上的推理路徑分析流程
SOTA模型測試結(jié)果
在比賽之外,PurCL 團(tuán)隊(duì)的紅隊(duì)系統(tǒng)在 SOTA 模型上也發(fā)現(xiàn)了大量安全漏洞。例如在 68.7% 的情況下 GPT-5 可能會幫助用戶構(gòu)建惡意代碼;在 48.3% 的情況下 GPT-OSS-120B 可能會寫不符合安全編碼規(guī)范的程序。此外,基于這套系統(tǒng),作為案例分析,PurCL 團(tuán)隊(duì)成員還通過實(shí)驗(yàn)證明了代碼智能體例如Claude可以顯著加速惡意勒索軟件開發(fā)。
圖 5: ASTRA 在 SOTA 模型上的攻擊成功率(部分)
圖 6: ASTRA 在 SOTA 模型上找到的不符合安全編碼規(guī)范的代碼比例(部分)
圖 7: 在 ASTRA 幫助下隊(duì)員用 Claude 嘗試生成的勒索軟件(本地?cái)嗑W(wǎng)實(shí)驗(yàn)后已安全刪除)
模型對齊的研究不應(yīng)該只停留在防御不同的越獄技術(shù)或改寫策略。更嚴(yán)峻和顯著的問題是如何把對齊技術(shù)擴(kuò)大到復(fù)雜的真實(shí)領(lǐng)域問題中。此外,推理模型的安全也越發(fā)重要,例如如何可靠利用模型的推理技能,提高推理的安全相關(guān)性,減少在推理過程中暴露的安全漏洞等。
團(tuán)隊(duì)介紹
團(tuán)隊(duì)負(fù)責(zé)人
徐翔哲:普渡大學(xué)四年級博士生,研究代碼智能體、程序分析。
沈廣宇:普渡大學(xué)五年級博士生,研究 AI 安全。
核心貢獻(xiàn)
蘇子安:普渡大學(xué)四年級博士生,研究深度學(xué)習(xí)和代碼智能體。
程思源:普渡大學(xué)四年級博士生,研究 AI 安全。
團(tuán)隊(duì)成員
代碼和程序分析團(tuán)隊(duì):郭進(jìn)堯(一年級博士生),蔣家盛(二年級博士生)
AI 安全團(tuán)隊(duì):郭含熙(三年級博士生),閆璐(四年級博士生),陳璇(四年級博士生),金小龍(三年級博士生)
導(dǎo)師
張翔宇:普渡大學(xué) Samuel Conte Professor. 研究 AI 安全、程序分析、代碼安全等。
張倬:哥倫比亞大學(xué) Assistant Professor. 研究二進(jìn)制安全、AI 安全、web3安全等。
王程鵬:普渡大學(xué)Postdoc, 博士畢業(yè)于香港科技大學(xué)。研究程序分析,智能軟件審查等。
[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html
[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.