網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AgentAuditor: 讓智能體安全評(píng)估器的精確度達(dá)到人類水平

2025-06-27 15:11:00　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

LLM 智能體（LLM Agent）正從 “紙上談兵” 的文本生成器，進(jìn)化為能自主決策、執(zhí)行復(fù)雜任務(wù)的 “行動(dòng)派”。它們可以使用工具、實(shí)時(shí)與環(huán)境互動(dòng)，向著通用人工智能（AGI）大步邁進(jìn)。然而，這份 “自主權(quán)” 也帶來(lái)了新的問(wèn)題：智能體在自主交互中，是否安全？

研究者們?yōu)檫@一問(wèn)題提出了許多基準(zhǔn)（benchmark），嘗試評(píng)估現(xiàn)有智能體的安全性。然而，這些基準(zhǔn)卻面臨著一個(gè)共同的問(wèn)題：沒(méi)有足夠有效、精準(zhǔn)的評(píng)估器（evaluator）。傳統(tǒng)的 LLM 安全評(píng)估在單純的評(píng)估生成內(nèi)容上表現(xiàn)優(yōu)異，但對(duì)智能體的復(fù)雜的環(huán)境交互和決策過(guò)程卻 “鞭長(zhǎng)莫及”?，F(xiàn)有的智能體評(píng)估方法，無(wú)論是基于規(guī)則還是依賴大模型，都面臨著 “看不懂”、“看不全”、“看不準(zhǔn)” 的困境：難以捕捉微妙風(fēng)險(xiǎn)、忽略小問(wèn)題累積、對(duì)模糊規(guī)則感到困惑?；谝?guī)則的評(píng)估方法往往僅依靠環(huán)境中某個(gè)變量的變化來(lái)判斷是否安全，難以正確識(shí)別智能體在交互過(guò)程中引入的微妙風(fēng)險(xiǎn)；而基于大模型的評(píng)估方法，無(wú)論使用最為強(qiáng)大的通用大模型還是專門為安全判斷任務(wù)微調(diào)的專用模型，在精確度上均不如人意。

為了解決這一難題，來(lái)自紐約大學(xué)、南洋理工大學(xué)、伊利諾伊大學(xué)香檳分校、KTH 皇家理工學(xué)院、悉尼大學(xué)、新加坡國(guó)立大學(xué)的研究者們，推出AgentAuditor—— 一個(gè)通用、免訓(xùn)練、具備記憶增強(qiáng)推理能力的框架，讓 LLM 評(píng)估器達(dá)到了人類專家的評(píng)估水平，精準(zhǔn)識(shí)別智能體的安全風(fēng)險(xiǎn)。

論文題目：
AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
論文鏈接：
https://arxiv.org/abs/2506.00641
代碼 / 項(xiàng)目主頁(yè)：
https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概覽：AgentAuditor 如何解決精確度難題

AgentAuditor 將結(jié)構(gòu)化記憶和RAG（檢索強(qiáng)化推理）結(jié)合在一起，賦予了 LLM 評(píng)估器類似人類的學(xué)習(xí)和理解復(fù)雜的交互記錄的能力，最終極大地增強(qiáng)了 LLM 評(píng)估器的性能。它通過(guò)三個(gè)關(guān)鍵階段實(shí)現(xiàn)：

1. 特征記憶構(gòu)建 (Feature Memory Construction)：將原始、雜亂的智能體交互記錄，轉(zhuǎn)化為結(jié)構(gòu)化、向量化的 “經(jīng)驗(yàn)數(shù)據(jù)庫(kù)”。這里不僅有交互內(nèi)容，更有場(chǎng)景、風(fēng)險(xiǎn)類型、智能體行為模式等深度語(yǔ)義信息。

2. 推理記憶構(gòu)建 (Reasoning Memory Construction)：從特征記憶中篩選出最具代表性的 “案例”，并由 LLM（AgentAuditor 內(nèi)部使用的同一個(gè) LLM，確保自洽性）生成高質(zhì)量的思維鏈（CoT）推理過(guò)程。這些 CoT 就像人類專家的 “判案經(jīng)驗(yàn)”，為后續(xù)評(píng)估提供指導(dǎo)。

3. 記憶增強(qiáng)推理 (Memory-Augmented Reasoning)：面對(duì)新的智能體交互案例，AgentAuditor 通過(guò)多階段、上下文感知的檢索機(jī)制，從推理記憶中動(dòng)態(tài)調(diào)取最相關(guān)的 “判案經(jīng)驗(yàn)”（CoT），輔助 LLM 評(píng)估器做出更精準(zhǔn)、更魯棒的判斷。

數(shù)據(jù)集：ASSEBench 的構(gòu)建

為了全面驗(yàn)證 AgentAuditor 的實(shí)力，并填補(bǔ)智能體安全（Safety）與安全（Security）評(píng)估基準(zhǔn)的空白，研究團(tuán)隊(duì)還精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。這一基準(zhǔn)：

規(guī)模宏大：包含 4 個(gè)子集，共 2293 條精心標(biāo)注的真實(shí)智能體交互記錄。
覆蓋廣泛：涵蓋 15 種風(fēng)險(xiǎn)類型、528 個(gè)交互環(huán)境、橫跨 29 個(gè)應(yīng)用場(chǎng)景以及 26 種智能體行為模式。
標(biāo)注精細(xì)：采用創(chuàng)新的人機(jī)協(xié)同標(biāo)注流程，并對(duì)模糊風(fēng)險(xiǎn)情況引入 “嚴(yán)格” 和 “寬松” 兩種判斷標(biāo)準(zhǔn)，評(píng)估更細(xì)致。
雙管齊下：同時(shí)關(guān)注智能體的 “Safety”（避免無(wú)意犯錯(cuò)）和 “Security”（抵御惡意攻擊）兩大方面。

實(shí)驗(yàn)效果：AgentAuditor 讓 LLM 評(píng)估器的精確度達(dá)到人類水平

在 ASSEBench 及 R-Judge 等多個(gè)基準(zhǔn)上的廣泛實(shí)驗(yàn)表明：

普遍提升顯著： AgentAuditor 能顯著提升各種 LLM 評(píng)估器在所有數(shù)據(jù)集上的表現(xiàn)。例如，Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分?jǐn)?shù)提升了高達(dá) 48.2%！
直逼人類水平：搭載 AgentAuditor 的 Gemini-2-Flash-Thinking 在多個(gè)數(shù)據(jù)集上取得了SOTA成績(jī)，其評(píng)估準(zhǔn)確率（如在 R-Judge 上達(dá)到 96.1% Acc）已接近甚至超越單個(gè)人類標(biāo)注員的平均水平。
強(qiáng)大的自適應(yīng)能力：面對(duì) ASSEBench-Strict 和 ASSEBench-Lenient 這兩個(gè)針對(duì)模糊場(chǎng)景設(shè)計(jì)的不同標(biāo)準(zhǔn)子集，AgentAuditor 能自適應(yīng)調(diào)整其推理策略，顯著縮小不同模型在不同標(biāo)準(zhǔn)下的性能差距。

上圖分別展示了 AgentAuditor 與現(xiàn)有方法及人類評(píng)估水平的對(duì)比。左圖比較了 AgentAuditor 與直接使用 LLM 的評(píng)估方法在 R-Judge 基準(zhǔn)上的準(zhǔn)確率（Acc）和 F1 分?jǐn)?shù)；右圖則比較了 AgentAuditor 的準(zhǔn)確率與在無(wú)討論情況下單個(gè)人類評(píng)估者在多個(gè)benchmark中的的平均準(zhǔn)確率。

AgentAuditor 的核心貢獻(xiàn)

系統(tǒng)性分析挑戰(zhàn)：深入剖析了當(dāng)前自動(dòng)化評(píng)估 Agent 安全面臨的核心難題。
創(chuàng)新框架：通過(guò)自適應(yīng)代表性樣本選擇、結(jié)構(gòu)化記憶、RAG 和自動(dòng)生成 CoT，顯著增強(qiáng) LLM 評(píng)估能力。
首個(gè)專用基準(zhǔn)： ASSEBench 填補(bǔ)了領(lǐng)域空白，為人機(jī)協(xié)同標(biāo)注提供了新范式。
人類級(jí)表現(xiàn)：實(shí)驗(yàn)證明其評(píng)估準(zhǔn)確性和可靠性已達(dá)到專業(yè)人類水準(zhǔn)。

結(jié)語(yǔ)

AgentAuditor 和 ASSEBench 的提出，為構(gòu)建更值得信賴的 LLM 智能體提供了強(qiáng)有力的評(píng)估工具和研究基礎(chǔ)。這項(xiàng)工作不僅推動(dòng)了 LLM 評(píng)估器的發(fā)展，也為未來(lái)構(gòu)建更安全、更可靠的智能體防御系統(tǒng)指明了方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.