LLM 智能體(LLM Agent)正從 “紙上談兵” 的文本生成器,進(jìn)化為能自主決策、執(zhí)行復(fù)雜任務(wù)的 “行動(dòng)派”。它們可以使用工具、實(shí)時(shí)與環(huán)境互動(dòng),向著通用人工智能(AGI)大步邁進(jìn)。然而,這份 “自主權(quán)” 也帶來(lái)了新的問(wèn)題:智能體在自主交互中,是否安全?
研究者們?yōu)檫@一問(wèn)題提出了許多基準(zhǔn)(benchmark),嘗試評(píng)估現(xiàn)有智能體的安全性。然而,這些基準(zhǔn)卻面臨著一個(gè)共同的問(wèn)題:沒(méi)有足夠有效、精準(zhǔn)的評(píng)估器(evaluator)。傳統(tǒng)的 LLM 安全評(píng)估在單純的評(píng)估生成內(nèi)容上表現(xiàn)優(yōu)異,但對(duì)智能體的復(fù)雜的環(huán)境交互和決策過(guò)程卻 “鞭長(zhǎng)莫及”?,F(xiàn)有的智能體評(píng)估方法,無(wú)論是基于規(guī)則還是依賴大模型,都面臨著 “看不懂”、“看不全”、“看不準(zhǔn)” 的困境:難以捕捉微妙風(fēng)險(xiǎn)、忽略小問(wèn)題累積、對(duì)模糊規(guī)則感到困惑?;谝?guī)則的評(píng)估方法往往僅依靠環(huán)境中某個(gè)變量的變化來(lái)判斷是否安全,難以正確識(shí)別智能體在交互過(guò)程中引入的微妙風(fēng)險(xiǎn);而基于大模型的評(píng)估方法,無(wú)論使用最為強(qiáng)大的通用大模型還是專門為安全判斷任務(wù)微調(diào)的專用模型,在精確度上均不如人意。
為了解決這一難題,來(lái)自紐約大學(xué)、南洋理工大學(xué)、伊利諾伊大學(xué)香檳分校、KTH 皇家理工學(xué)院、悉尼大學(xué)、新加坡國(guó)立大學(xué)的研究者們,推出AgentAuditor—— 一個(gè)通用、免訓(xùn)練、具備記憶增強(qiáng)推理能力的框架,讓 LLM 評(píng)估器達(dá)到了人類專家的評(píng)估水平,精準(zhǔn)識(shí)別智能體的安全風(fēng)險(xiǎn)。
- 論文題目:
- AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
- 論文鏈接:
- https://arxiv.org/abs/2506.00641
- 代碼 / 項(xiàng)目主頁(yè):
- https://github.com/Astarojth/AgentAuditor-ASSEBench
方法概覽:AgentAuditor 如何解決精確度難題
AgentAuditor 將結(jié)構(gòu)化記憶和RAG(檢索強(qiáng)化推理)結(jié)合在一起,賦予了 LLM 評(píng)估器類似人類的學(xué)習(xí)和理解復(fù)雜的交互記錄的能力,最終極大地增強(qiáng)了 LLM 評(píng)估器的性能。它通過(guò)三個(gè)關(guān)鍵階段實(shí)現(xiàn):
1. 特征記憶構(gòu)建 (Feature Memory Construction): 將原始、雜亂的智能體交互記錄,轉(zhuǎn)化為結(jié)構(gòu)化、向量化的 “經(jīng)驗(yàn)數(shù)據(jù)庫(kù)”。這里不僅有交互內(nèi)容,更有場(chǎng)景、風(fēng)險(xiǎn)類型、智能體行為模式等深度語(yǔ)義信息。
2. 推理記憶構(gòu)建 (Reasoning Memory Construction): 從特征記憶中篩選出最具代表性的 “案例”,并由 LLM(AgentAuditor 內(nèi)部使用的同一個(gè) LLM,確保自洽性)生成高質(zhì)量的思維鏈(CoT)推理過(guò)程。這些 CoT 就像人類專家的 “判案經(jīng)驗(yàn)”,為后續(xù)評(píng)估提供指導(dǎo)。
3. 記憶增強(qiáng)推理 (Memory-Augmented Reasoning): 面對(duì)新的智能體交互案例,AgentAuditor 通過(guò)多階段、上下文感知的檢索機(jī)制,從推理記憶中動(dòng)態(tài)調(diào)取最相關(guān)的 “判案經(jīng)驗(yàn)”(CoT),輔助 LLM 評(píng)估器做出更精準(zhǔn)、更魯棒的判斷。
數(shù)據(jù)集:ASSEBench 的構(gòu)建
為了全面驗(yàn)證 AgentAuditor 的實(shí)力,并填補(bǔ)智能體安全(Safety)與安全(Security)評(píng)估基準(zhǔn)的空白,研究團(tuán)隊(duì)還精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。這一基準(zhǔn):
- 規(guī)模宏大: 包含 4 個(gè)子集,共 2293 條精心標(biāo)注的真實(shí)智能體交互記錄。
- 覆蓋廣泛: 涵蓋 15 種風(fēng)險(xiǎn)類型、528 個(gè)交互環(huán)境、橫跨 29 個(gè)應(yīng)用場(chǎng)景以及 26 種智能體行為模式。
- 標(biāo)注精細(xì): 采用創(chuàng)新的人機(jī)協(xié)同標(biāo)注流程,并對(duì)模糊風(fēng)險(xiǎn)情況引入 “嚴(yán)格” 和 “寬松” 兩種判斷標(biāo)準(zhǔn),評(píng)估更細(xì)致。
- 雙管齊下: 同時(shí)關(guān)注智能體的 “Safety”(避免無(wú)意犯錯(cuò))和 “Security”(抵御惡意攻擊)兩大方面。
實(shí)驗(yàn)效果:AgentAuditor 讓 LLM 評(píng)估器的精確度達(dá)到人類水平
在 ASSEBench 及 R-Judge 等多個(gè)基準(zhǔn)上的廣泛實(shí)驗(yàn)表明:
- 普遍提升顯著: AgentAuditor 能顯著提升各種 LLM 評(píng)估器在所有數(shù)據(jù)集上的表現(xiàn)。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分?jǐn)?shù)提升了高達(dá) 48.2%!
- 直逼人類水平: 搭載 AgentAuditor 的 Gemini-2-Flash-Thinking 在多個(gè)數(shù)據(jù)集上取得了SOTA成績(jī),其評(píng)估準(zhǔn)確率(如在 R-Judge 上達(dá)到 96.1% Acc)已接近甚至超越單個(gè)人類標(biāo)注員的平均水平。
- 強(qiáng)大的自適應(yīng)能力: 面對(duì) ASSEBench-Strict 和 ASSEBench-Lenient 這兩個(gè)針對(duì)模糊場(chǎng)景設(shè)計(jì)的不同標(biāo)準(zhǔn)子集,AgentAuditor 能自適應(yīng)調(diào)整其推理策略,顯著縮小不同模型在不同標(biāo)準(zhǔn)下的性能差距。
上圖分別展示了 AgentAuditor 與現(xiàn)有方法及人類評(píng)估水平的對(duì)比。左圖比較了 AgentAuditor 與直接使用 LLM 的評(píng)估方法在 R-Judge 基準(zhǔn)上的準(zhǔn)確率(Acc)和 F1 分?jǐn)?shù);右圖則比較了 AgentAuditor 的準(zhǔn)確率與在無(wú)討論情況下單個(gè)人類評(píng)估者在多個(gè)benchmark中的的平均準(zhǔn)確率。
AgentAuditor 的核心貢獻(xiàn)
- 系統(tǒng)性分析挑戰(zhàn): 深入剖析了當(dāng)前自動(dòng)化評(píng)估 Agent 安全面臨的核心難題。
- 創(chuàng)新框架: 通過(guò)自適應(yīng)代表性樣本選擇、結(jié)構(gòu)化記憶、RAG 和自動(dòng)生成 CoT,顯著增強(qiáng) LLM 評(píng)估能力。
- 首個(gè)專用基準(zhǔn): ASSEBench 填補(bǔ)了領(lǐng)域空白,為人機(jī)協(xié)同標(biāo)注提供了新范式。
- 人類級(jí)表現(xiàn): 實(shí)驗(yàn)證明其評(píng)估準(zhǔn)確性和可靠性已達(dá)到專業(yè)人類水準(zhǔn)。
結(jié)語(yǔ)
AgentAuditor 和 ASSEBench 的提出,為構(gòu)建更值得信賴的 LLM 智能體提供了強(qiáng)有力的評(píng)估工具和研究基礎(chǔ)。這項(xiàng)工作不僅推動(dòng)了 LLM 評(píng)估器的發(fā)展,也為未來(lái)構(gòu)建更安全、更可靠的智能體防御系統(tǒng)指明了方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.