夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

第一名方案公開,代碼智能體安全競賽,普渡大學(xué)90%攻擊成功率

0
分享至



你的 AI 編程助手有多安全?也許比你想象的要脆弱得多。近期多項(xiàng)研究 [1-2] 表明,即使是經(jīng)過安全對齊的大語言模型,也可能在正常開發(fā)場景中無意間生成存在漏洞的代碼,為后續(xù)被利用埋下隱患;而在惡意用戶手中,這類模型還能顯著加速惡意軟件的構(gòu)建與迭代,降低攻擊門檻、縮短開發(fā)周期。許多風(fēng)險(xiǎn)源自模型推理鏈條中的細(xì)微缺陷,而不僅僅是輸入輸出層面的顯性問題。

在亞馬遜舉辦的針對代碼智能體的安全比賽 (Amazon Nova AI Challenge) 中,普渡大學(xué)的團(tuán)隊(duì)PurCL作為紅隊(duì)以超過 90% 的攻擊成功率獲得比賽第一名,贏得 25 萬美元獎(jiǎng)金。

在比賽中,12 名團(tuán)隊(duì)成員耗時(shí)八個(gè)月和百萬美元開發(fā)出基于 AI 認(rèn)知建模的全過程紅隊(duì)系統(tǒng),現(xiàn)開放給領(lǐng)域研究者共享使用。

他們的研究發(fā)現(xiàn),對齊代碼模型的關(guān)鍵問題在于把對齊技術(shù)擴(kuò)大到復(fù)雜的真實(shí)領(lǐng)域問題中和提升模型推理的安全相關(guān)性。



  • 系統(tǒng):https://github.com/PurCL/ASTRA
  • 論文:https://www.arxiv.org/abs/2508.03936
  • 網(wǎng)站:https://purcl.github.io/astra-web/
  • 官方報(bào)道: https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge

亞馬遜代碼模型安全比賽

亞馬遜代碼模型安全比賽是一場針對大模型代碼安全的比賽。舉辦方邀請全球頂尖研究隊(duì)伍提交科研企劃,最終在 90 份企劃中資助 10 個(gè)團(tuán)隊(duì)參加比賽,每個(gè)團(tuán)隊(duì)在半年的時(shí)間內(nèi)獲得了 25 萬美元的科研基金和 100 萬美元的計(jì)算資源。參賽團(tuán)隊(duì)分為紅隊(duì)和藍(lán)隊(duì),藍(lán)隊(duì)在比賽方準(zhǔn)備的模型上應(yīng)用最新的安全對齊實(shí)踐,紅隊(duì)則要在 200 輪對話內(nèi)找到模型的安全漏洞。最終找到漏洞最多的紅隊(duì),和最安全的藍(lán)隊(duì)分別贏得比賽勝利。

在這場比賽中,代碼模型的安全被分成兩個(gè)維度。第一個(gè)維度要求模型產(chǎn)生的代碼符合安全代碼規(guī)范,減少在實(shí)際產(chǎn)品中引入漏洞的可能。比如代碼模型在寫數(shù)據(jù)庫程序時(shí)應(yīng)當(dāng)檢查用戶輸入,小心避免 SQL 注入攻擊。另一個(gè)維度要求模型拒絕可能會用于開發(fā)惡意軟件的危險(xiǎn)請求,如不能幫助用戶寫惡意軟件。

普渡大學(xué)團(tuán)隊(duì) PurCL 作為紅隊(duì)在各個(gè)藍(lán)隊(duì)系統(tǒng)中以平均超過 90% 的攻擊成功率發(fā)現(xiàn)了模型的安全漏洞,獲得比賽紅隊(duì)第一名,贏得 25 萬美元獎(jiǎng)金。PurCL 的研究發(fā)現(xiàn),當(dāng)前前沿的 AI 安全研究尚未解決真實(shí)世界中的模型安全問題。對代碼等復(fù)雜領(lǐng)域的全面、有效對齊仍然是有挑戰(zhàn)性的開放問題。

AI 模型安全評估

過去的大多數(shù)模型安全評估都在一個(gè)靜態(tài)預(yù)先定義的數(shù)據(jù)集上進(jìn)行。經(jīng)典的例子包括不能讓模型幫助合成生化武器。傳統(tǒng)紅隊(duì)研究在這個(gè)基礎(chǔ)上開發(fā)同義改寫、說服、越獄等不同攻擊,而藍(lán)隊(duì)研究,例如模型對齊,則聚焦對紅隊(duì)技術(shù)的防御。

傳統(tǒng)研究忽視了真實(shí)世界系統(tǒng)中的重要挑戰(zhàn):真實(shí)的安全需求包括復(fù)雜的領(lǐng)域知識,而當(dāng)前研究尚未確定已有藍(lán)隊(duì)技術(shù)是否能夠在復(fù)雜領(lǐng)域中保持有效性。

AI 認(rèn)知建模

PurCL 隊(duì)伍提出用類似于人類認(rèn)知科學(xué)的方式來建模 AI 對復(fù)雜領(lǐng)域的認(rèn)知。人類認(rèn)知科學(xué)的前沿研究將人類認(rèn)知模型分為“問題”,“推演”,“解決方案”三個(gè)部分。

以人類的魔方游戲?yàn)槔?,“問題” 是一個(gè)被打亂的魔方,“推演” 是每次對魔方轉(zhuǎn)動的策略,“解決方案” 則是重排的魔方。對于代碼智能體來說,“問題” 是用戶提出的請求,“推演” 是模型的中間推理步驟,而 “解決方案” 則是生成的代碼片段。



圖 1: 對 AI 智能體的認(rèn)知建模

在這個(gè)框架下,已有藍(lán)隊(duì)研究大致可以分成三類:

對問題領(lǐng)域的分類過濾(危險(xiǎn)輸入識別)。識別輸入的問題中是否包含惡意或誤導(dǎo)性信息,并直接拒絕這類請求。

對推演步驟的加強(qiáng)。如 OpenAI 在最新模型上應(yīng)用的 Deliberative Alignment 技術(shù),利用模型的推理能力來分析請求背后的隱含意圖和潛在影響,從而阻止惡意的請求。

對解決方案的分類過濾(危險(xiǎn)輸出識別)。識別解決方案中是否含有惡意或危險(xiǎn)元素,并拒絕或修復(fù)對應(yīng)的部分。



圖 2: 藍(lán)隊(duì)技術(shù)建模

在這樣的建模下,PurCL 的研究發(fā)現(xiàn),對齊技術(shù)主要面臨兩大挑戰(zhàn):

在對于問題和解決方案的分類過濾中,一些領(lǐng)域?qū)S械闹R可能涉及安全分類器訓(xùn)練的盲區(qū)。他們發(fā)現(xiàn),已有的頂尖安全分類器可以輕松防御常見話題上的 9 種越獄攻擊技術(shù);然而面對網(wǎng)絡(luò)安全領(lǐng)域的話題,這些分類器的有效性降低到了 10% 以下。



圖 3: 防御成功率。危險(xiǎn)輸入識別 (Guard) 和危險(xiǎn)輸出識別 (I/O Guard) 可以有效識別大多數(shù)越獄技術(shù)(Jail. Tech.). 而 ASTRA 可以將防御成功率降低到 10% 以下(圖中未展示 ASTRA 的結(jié)果)

在基于模型推理的防御方案中,模型推理的過程并不可靠,留下被攻擊的漏洞。他們發(fā)現(xiàn),在模型拒絕危險(xiǎn)請求的推理中,時(shí)常包含錯(cuò)誤的歸因。如果在輸入的請求中解決了這些錯(cuò)誤歸因,即使擁有推理能力的模型也會忽略安全風(fēng)險(xiǎn)。

基于這樣的觀察,PurCL 團(tuán)隊(duì)構(gòu)建了針對 AI 認(rèn)知全過程的紅隊(duì)測試技術(shù)。它包括了領(lǐng)域知識建模和推理路徑分析兩個(gè)部分。領(lǐng)域知識建模借助智能體來構(gòu)建領(lǐng)域知識圖,做到對復(fù)雜領(lǐng)域的全面建模和高效覆蓋。推理路徑分析檢查模型的推理路徑,并針對薄弱環(huán)節(jié)改寫輸入請求,探測模型是否真正理解請求背后的安全風(fēng)險(xiǎn)。

領(lǐng)域知識建模

PurCL 團(tuán)隊(duì)開發(fā)了 Enumerator 智能體。給定一個(gè)復(fù)雜的領(lǐng)域,它應(yīng)用類似深度搜索的模式來枚舉這個(gè)領(lǐng)域的知識結(jié)構(gòu),識別其中可能存在的安全風(fēng)險(xiǎn)和問題。為了在測試中高效響應(yīng)不同模型的知識漏洞,這些知識結(jié)構(gòu)被按照他們的相關(guān)性來組織。在測試過程中,如果一個(gè)模型在某個(gè)知識點(diǎn)犯了錯(cuò)誤,這通常意味著在相關(guān)的別的知識點(diǎn)也可能出錯(cuò),因此相關(guān)知識應(yīng)當(dāng)被優(yōu)先測試。

以安全代碼合規(guī)和惡意請求預(yù)防兩個(gè)領(lǐng)域?yàn)槔琍urCL 團(tuán)隊(duì)在這兩個(gè)領(lǐng)域上構(gòu)建了包含 2.28T (trillion) 和 1x10^28 個(gè)可能請求的問題搜索空間,他們發(fā)現(xiàn)所有的現(xiàn)有對齊方案都在覆蓋率和大規(guī)模數(shù)據(jù)的有效性上有明顯缺陷。

推理路徑分析

PurCL 團(tuán)隊(duì)針對基于推理模型的藍(lán)隊(duì)系統(tǒng),研發(fā)了 ASTRA 推理路徑分析方法,用于發(fā)現(xiàn)并利用模型推理過程中的安全薄弱環(huán)節(jié)。不同于只看輸入輸出的傳統(tǒng)紅隊(duì)測試,ASTRA 先離線為易錯(cuò)輸入構(gòu)建 “決策圖”,由高能力模型生成合法拒絕路徑。與目標(biāo)系統(tǒng)交互時(shí),ASTRA 獲取目標(biāo)模型的推理軌跡并比對決策圖,判斷其安全對齊程度。若存在缺失步驟、錯(cuò)誤步驟或多余步驟,系統(tǒng)會據(jù)此自動生成針對性改寫輸入,繞過模型防護(hù)。例如,在自動駕駛案例中,ASTRA 通過補(bǔ)全無關(guān)格式校驗(yàn)誘使模型執(zhí)行危險(xiǎn)請求。該方法能系統(tǒng)揭示推理漏洞,生成高效攻擊用例,顯著提升紅隊(duì)測試深度,并為 AI 安全對齊研究提供新工具。



圖 4: ASTRA 在 Reasoning Model 上的推理路徑分析流程

SOTA模型測試結(jié)果

在比賽之外,PurCL 團(tuán)隊(duì)的紅隊(duì)系統(tǒng)在 SOTA 模型上也發(fā)現(xiàn)了大量安全漏洞。例如在 68.7% 的情況下 GPT-5 可能會幫助用戶構(gòu)建惡意代碼;在 48.3% 的情況下 GPT-OSS-120B 可能會寫不符合安全編碼規(guī)范的程序。此外,基于這套系統(tǒng),作為案例分析,PurCL 團(tuán)隊(duì)成員還通過實(shí)驗(yàn)證明了代碼智能體例如Claude可以顯著加速惡意勒索軟件開發(fā)。



圖 5: ASTRA 在 SOTA 模型上的攻擊成功率(部分)



圖 6: ASTRA 在 SOTA 模型上找到的不符合安全編碼規(guī)范的代碼比例(部分)



圖 7: 在 ASTRA 幫助下隊(duì)員用 Claude 嘗試生成的勒索軟件(本地?cái)嗑W(wǎng)實(shí)驗(yàn)后已安全刪除)

模型對齊的研究不應(yīng)該只停留在防御不同的越獄技術(shù)或改寫策略。更嚴(yán)峻和顯著的問題是如何把對齊技術(shù)擴(kuò)大到復(fù)雜的真實(shí)領(lǐng)域問題中。此外,推理模型的安全也越發(fā)重要,例如如何可靠利用模型的推理技能,提高推理的安全相關(guān)性,減少在推理過程中暴露的安全漏洞等。

團(tuán)隊(duì)介紹

團(tuán)隊(duì)負(fù)責(zé)人

徐翔哲:普渡大學(xué)四年級博士生,研究代碼智能體、程序分析。

沈廣宇:普渡大學(xué)五年級博士生,研究 AI 安全。

核心貢獻(xiàn)

蘇子安:普渡大學(xué)四年級博士生,研究深度學(xué)習(xí)和代碼智能體。

程思源:普渡大學(xué)四年級博士生,研究 AI 安全。

團(tuán)隊(duì)成員

代碼和程序分析團(tuán)隊(duì):郭進(jìn)堯(一年級博士生),蔣家盛(二年級博士生)

AI 安全團(tuán)隊(duì):郭含熙(三年級博士生),閆璐(四年級博士生),陳璇(四年級博士生),金小龍(三年級博士生)

導(dǎo)師

張翔宇:普渡大學(xué) Samuel Conte Professor. 研究 AI 安全、程序分析、代碼安全等。

張倬:哥倫比亞大學(xué) Assistant Professor. 研究二進(jìn)制安全、AI 安全、web3安全等。

王程鵬:普渡大學(xué)Postdoc, 博士畢業(yè)于香港科技大學(xué)。研究程序分析,智能軟件審查等。

[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html

[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為什么中國社保會走到今天?看中國社保的矛盾與制度

為什么中國社保會走到今天?看中國社保的矛盾與制度

老丁是個(gè)生意人
2025-08-20 00:17:31
中國武器讓美軍全面破防?美中將被撤職,美內(nèi)部抓奸細(xì)全面開始

中國武器讓美軍全面破防?美中將被撤職,美內(nèi)部抓奸細(xì)全面開始

歷史求知所
2025-08-28 22:50:03
“我的前男友和我的閨蜜結(jié)婚了”,上海姑娘自曝:這是當(dāng)下年輕人脫單自救的新招

“我的前男友和我的閨蜜結(jié)婚了”,上海姑娘自曝:這是當(dāng)下年輕人脫單自救的新招

極目新聞
2025-08-29 13:46:17
黨中央決定:周心懷履新職

黨中央決定:周心懷履新職

新京報(bào)政事兒
2025-08-29 17:54:44
天呢!武漢大學(xué)再出奇葩人才,評論區(qū)炸鍋…

天呢!武漢大學(xué)再出奇葩人才,評論區(qū)炸鍋…

慧翔百科
2025-08-28 09:07:48
“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

山河月明史
2025-07-08 14:24:38
56歲女廳長任上落馬,其同僚和下屬此前接連被查

56歲女廳長任上落馬,其同僚和下屬此前接連被查

元芳有看法
2025-08-29 15:40:18
20臺空調(diào)外機(jī)安裝車庫,最高溫逾50℃業(yè)主喊熱;相關(guān)方回應(yīng):擬墻上打孔排風(fēng),或遷移空調(diào)外機(jī)

20臺空調(diào)外機(jī)安裝車庫,最高溫逾50℃業(yè)主喊熱;相關(guān)方回應(yīng):擬墻上打孔排風(fēng),或遷移空調(diào)外機(jī)

大風(fēng)新聞
2025-08-29 16:56:06
美國加州通過最新決議,杜絕反猶主義,公立學(xué)校將懸掛以色列國旗

美國加州通過最新決議,杜絕反猶主義,公立學(xué)校將懸掛以色列國旗

碳基生物關(guān)懷組織
2025-08-28 18:04:28
要來了?綠帽哥:利物浦總價(jià)4000萬鎊報(bào)價(jià)格伊!水晶宮很可能接受

要來了?綠帽哥:利物浦總價(jià)4000萬鎊報(bào)價(jià)格伊!水晶宮很可能接受

直播吧
2025-08-29 22:13:19
歐足聯(lián)新規(guī):下賽季利物浦若再碰皇馬,無法在安菲爾德比賽

歐足聯(lián)新規(guī):下賽季利物浦若再碰皇馬,無法在安菲爾德比賽

雷速體育
2025-08-29 12:08:01
臺媒嘲諷張韶涵在內(nèi)地和臺北兩副面孔,張韶涵怒了,霸氣回懟

臺媒嘲諷張韶涵在內(nèi)地和臺北兩副面孔,張韶涵怒了,霸氣回懟

小咪侃娛圈
2025-08-29 09:20:45
70歲劉滿倉被提起公訴,曾任河南省副省長,通報(bào)曾稱其“貪婪腐化,退而不休”

70歲劉滿倉被提起公訴,曾任河南省副省長,通報(bào)曾稱其“貪婪腐化,退而不休”

魯中晨報(bào)
2025-08-29 15:59:30
A股:又是熟悉的一幕,3000多只個(gè)股下跌,下午行情已基本確定

A股:又是熟悉的一幕,3000多只個(gè)股下跌,下午行情已基本確定

虎哥閑聊
2025-08-29 11:58:09
抱上三個(gè)女人大腿,建起金融帝國崩塌后,庭審上卻說自己不懂法律

抱上三個(gè)女人大腿,建起金融帝國崩塌后,庭審上卻說自己不懂法律

神秘歷史故事
2024-01-09 12:58:41
43歲劉松仁在飛機(jī)上看上小他20歲的泰國空姐,開始砸錢追求她

43歲劉松仁在飛機(jī)上看上小他20歲的泰國空姐,開始砸錢追求她

百態(tài)人間
2025-08-29 16:02:16
“癌王”胰腺癌:餐后4個(gè)癥狀+身體3個(gè)信號,遇到千萬別忍!

“癌王”胰腺癌:餐后4個(gè)癥狀+身體3個(gè)信號,遇到千萬別忍!

醫(yī)藥養(yǎng)生保健報(bào)社
2025-08-29 20:15:11
宋楚瑜:如果臺灣不是大陸領(lǐng)土,那滿清憑什么將臺灣送給日本人?

宋楚瑜:如果臺灣不是大陸領(lǐng)土,那滿清憑什么將臺灣送給日本人?

大道無形我有型
2025-08-29 20:43:05
不開心就去看董璇抖音評論區(qū),全是笑料,網(wǎng)友的嘴一個(gè)比一個(gè)毒辣

不開心就去看董璇抖音評論區(qū),全是笑料,網(wǎng)友的嘴一個(gè)比一個(gè)毒辣

觀察鑒娛
2025-08-28 08:27:44
竟然去教培機(jī)構(gòu),僅32人就業(yè)!北大2025數(shù)學(xué)本科畢業(yè)生去向解讀

竟然去教培機(jī)構(gòu),僅32人就業(yè)!北大2025數(shù)學(xué)本科畢業(yè)生去向解讀

史海流年號
2025-08-28 05:24:49
2025-08-30 01:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142428關(guān)注度
往期回顧 全部

科技要聞

比亞迪中報(bào)營收首超特斯拉

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應(yīng)"是否譴責(zé)俄"

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應(yīng)"是否譴責(zé)俄"

體育要聞

從新疆飛行2小時(shí),就能看皇馬踢歐冠?!

娛樂要聞

韓磊報(bào)警工作室嚴(yán)正聲明 妻子也回應(yīng)了

財(cái)經(jīng)要聞

A股本輪行情,"創(chuàng)新牛"還是"資金牛"?

汽車要聞

售11.99萬元起 大眾全新凌渡L正式上市

態(tài)度原創(chuàng)

藝術(shù)
旅游
家居
手機(jī)
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

提升功能 靈活居住環(huán)境

手機(jī)要聞

一加 15 工程機(jī)現(xiàn)身 Geekbench,搭載高通驍龍 8 Elite Gen 5

軍事要聞

中俄朝三國領(lǐng)導(dǎo)人將首次一起公開亮相

無障礙瀏覽 進(jìn)入關(guān)懷版 2020久久超碰国产精品最新| 国产亚洲熟妇综合视频| 激情av小说| 亚洲av无码一区二区三区观看| 久久精品国产亚洲av麻豆长发| 囯产XXXX| 亚洲免费一区| 国产精品午夜福利导航导| 性视频无遮挡HD| 波多野吉衣33分钟无码| 日韩人妻一区中文字幕| 操外国老熟女| 日韩熟女巨凥丰满| 欧美三级欧美成人高清www| 高清无码午夜福利视频| 人人入人人爱| 亚洲无亚洲人成网站9999 | 亚洲性啪啪无码AV天堂| 亚洲精品国产成人综合久久久久久久久| 四虎国产精品永久地址入口| 免费看成人炮片| 亚洲综合欧美色五月俺也去| 六月婷婷八月丁香| 奶水人妻XXXX视频二| 精品中文字幕一区在线| 蜜臀AⅤ国内精品久久久| 黑森林福利视频导航| 一区二区三区啪偷拍| 国产一区精品视频| 国产精品久久久久无码AV铜川| 欧美激情性战久久99| 熟女人妻一区二区三区视频| 人人爽人人乐| 97无码精品人妻一区二区红治院 | 狠狠色噜噜噜| 人人妻人人曰| 三叶草欧洲码在线| 午夜久久久久| 俺来也俺去了老熟女视频| 男女一级毛片免费视频看| 777米奇影院狠狠色,亚洲欧美五月|