夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AgentAuditor: 讓智能體安全評(píng)估器的精確度達(dá)到人類水平

0
分享至



LLM 智能體(LLM Agent)正從 “紙上談兵” 的文本生成器,進(jìn)化為能自主決策、執(zhí)行復(fù)雜任務(wù)的 “行動(dòng)派”。它們可以使用工具、實(shí)時(shí)與環(huán)境互動(dòng),向著通用人工智能(AGI)大步邁進(jìn)。然而,這份 “自主權(quán)” 也帶來(lái)了新的問(wèn)題:智能體在自主交互中,是否安全?

研究者們?yōu)檫@一問(wèn)題提出了許多基準(zhǔn)(benchmark),嘗試評(píng)估現(xiàn)有智能體的安全性。然而,這些基準(zhǔn)卻面臨著一個(gè)共同的問(wèn)題:沒(méi)有足夠有效、精準(zhǔn)的評(píng)估器(evaluator)。傳統(tǒng)的 LLM 安全評(píng)估在單純的評(píng)估生成內(nèi)容上表現(xiàn)優(yōu)異,但對(duì)智能體的復(fù)雜的環(huán)境交互和決策過(guò)程卻 “鞭長(zhǎng)莫及”?,F(xiàn)有的智能體評(píng)估方法,無(wú)論是基于規(guī)則還是依賴大模型,都面臨著 “看不懂”、“看不全”、“看不準(zhǔn)” 的困境:難以捕捉微妙風(fēng)險(xiǎn)、忽略小問(wèn)題累積、對(duì)模糊規(guī)則感到困惑?;谝?guī)則的評(píng)估方法往往僅依靠環(huán)境中某個(gè)變量的變化來(lái)判斷是否安全,難以正確識(shí)別智能體在交互過(guò)程中引入的微妙風(fēng)險(xiǎn);而基于大模型的評(píng)估方法,無(wú)論使用最為強(qiáng)大的通用大模型還是專門為安全判斷任務(wù)微調(diào)的專用模型,在精確度上均不如人意。

為了解決這一難題,來(lái)自紐約大學(xué)、南洋理工大學(xué)、伊利諾伊大學(xué)香檳分校、KTH 皇家理工學(xué)院、悉尼大學(xué)、新加坡國(guó)立大學(xué)的研究者們,推出AgentAuditor—— 一個(gè)通用、免訓(xùn)練、具備記憶增強(qiáng)推理能力的框架,讓 LLM 評(píng)估器達(dá)到了人類專家的評(píng)估水平,精準(zhǔn)識(shí)別智能體的安全風(fēng)險(xiǎn)。



  • 論文題目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 論文鏈接:
  • https://arxiv.org/abs/2506.00641
  • 代碼 / 項(xiàng)目主頁(yè):
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概覽:AgentAuditor 如何解決精確度難題

AgentAuditor 將結(jié)構(gòu)化記憶和RAG(檢索強(qiáng)化推理)結(jié)合在一起,賦予了 LLM 評(píng)估器類似人類的學(xué)習(xí)和理解復(fù)雜的交互記錄的能力,最終極大地增強(qiáng)了 LLM 評(píng)估器的性能。它通過(guò)三個(gè)關(guān)鍵階段實(shí)現(xiàn):

1. 特征記憶構(gòu)建 (Feature Memory Construction): 將原始、雜亂的智能體交互記錄,轉(zhuǎn)化為結(jié)構(gòu)化、向量化的 “經(jīng)驗(yàn)數(shù)據(jù)庫(kù)”。這里不僅有交互內(nèi)容,更有場(chǎng)景、風(fēng)險(xiǎn)類型、智能體行為模式等深度語(yǔ)義信息。

2. 推理記憶構(gòu)建 (Reasoning Memory Construction): 從特征記憶中篩選出最具代表性的 “案例”,并由 LLM(AgentAuditor 內(nèi)部使用的同一個(gè) LLM,確保自洽性)生成高質(zhì)量的思維鏈(CoT)推理過(guò)程。這些 CoT 就像人類專家的 “判案經(jīng)驗(yàn)”,為后續(xù)評(píng)估提供指導(dǎo)。

3. 記憶增強(qiáng)推理 (Memory-Augmented Reasoning): 面對(duì)新的智能體交互案例,AgentAuditor 通過(guò)多階段、上下文感知的檢索機(jī)制,從推理記憶中動(dòng)態(tài)調(diào)取最相關(guān)的 “判案經(jīng)驗(yàn)”(CoT),輔助 LLM 評(píng)估器做出更精準(zhǔn)、更魯棒的判斷。



數(shù)據(jù)集:ASSEBench 的構(gòu)建

為了全面驗(yàn)證 AgentAuditor 的實(shí)力,并填補(bǔ)智能體安全(Safety)與安全(Security)評(píng)估基準(zhǔn)的空白,研究團(tuán)隊(duì)還精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。這一基準(zhǔn):

  • 規(guī)模宏大: 包含 4 個(gè)子集,共 2293 條精心標(biāo)注的真實(shí)智能體交互記錄。
  • 覆蓋廣泛: 涵蓋 15 種風(fēng)險(xiǎn)類型、528 個(gè)交互環(huán)境、橫跨 29 個(gè)應(yīng)用場(chǎng)景以及 26 種智能體行為模式。
  • 標(biāo)注精細(xì): 采用創(chuàng)新的人機(jī)協(xié)同標(biāo)注流程,并對(duì)模糊風(fēng)險(xiǎn)情況引入 “嚴(yán)格” 和 “寬松” 兩種判斷標(biāo)準(zhǔn),評(píng)估更細(xì)致。
  • 雙管齊下: 同時(shí)關(guān)注智能體的 “Safety”(避免無(wú)意犯錯(cuò))和 “Security”(抵御惡意攻擊)兩大方面。



實(shí)驗(yàn)效果:AgentAuditor 讓 LLM 評(píng)估器的精確度達(dá)到人類水平

在 ASSEBench 及 R-Judge 等多個(gè)基準(zhǔn)上的廣泛實(shí)驗(yàn)表明:

  • 普遍提升顯著: AgentAuditor 能顯著提升各種 LLM 評(píng)估器在所有數(shù)據(jù)集上的表現(xiàn)。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分?jǐn)?shù)提升了高達(dá) 48.2%!
  • 直逼人類水平: 搭載 AgentAuditor 的 Gemini-2-Flash-Thinking 在多個(gè)數(shù)據(jù)集上取得了SOTA成績(jī),其評(píng)估準(zhǔn)確率(如在 R-Judge 上達(dá)到 96.1% Acc)已接近甚至超越單個(gè)人類標(biāo)注員的平均水平。
  • 強(qiáng)大的自適應(yīng)能力: 面對(duì) ASSEBench-Strict 和 ASSEBench-Lenient 這兩個(gè)針對(duì)模糊場(chǎng)景設(shè)計(jì)的不同標(biāo)準(zhǔn)子集,AgentAuditor 能自適應(yīng)調(diào)整其推理策略,顯著縮小不同模型在不同標(biāo)準(zhǔn)下的性能差距。







上圖分別展示了 AgentAuditor 與現(xiàn)有方法及人類評(píng)估水平的對(duì)比。左圖比較了 AgentAuditor 與直接使用 LLM 的評(píng)估方法在 R-Judge 基準(zhǔn)上的準(zhǔn)確率(Acc)和 F1 分?jǐn)?shù);右圖則比較了 AgentAuditor 的準(zhǔn)確率與在無(wú)討論情況下單個(gè)人類評(píng)估者在多個(gè)benchmark中的的平均準(zhǔn)確率。

AgentAuditor 的核心貢獻(xiàn)

  • 系統(tǒng)性分析挑戰(zhàn): 深入剖析了當(dāng)前自動(dòng)化評(píng)估 Agent 安全面臨的核心難題。
  • 創(chuàng)新框架: 通過(guò)自適應(yīng)代表性樣本選擇、結(jié)構(gòu)化記憶、RAG 和自動(dòng)生成 CoT,顯著增強(qiáng) LLM 評(píng)估能力。
  • 首個(gè)專用基準(zhǔn): ASSEBench 填補(bǔ)了領(lǐng)域空白,為人機(jī)協(xié)同標(biāo)注提供了新范式。
  • 人類級(jí)表現(xiàn): 實(shí)驗(yàn)證明其評(píng)估準(zhǔn)確性和可靠性已達(dá)到專業(yè)人類水準(zhǔn)。

結(jié)語(yǔ)

AgentAuditor 和 ASSEBench 的提出,為構(gòu)建更值得信賴的 LLM 智能體提供了強(qiáng)有力的評(píng)估工具和研究基礎(chǔ)。這項(xiàng)工作不僅推動(dòng)了 LLM 評(píng)估器的發(fā)展,也為未來(lái)構(gòu)建更安全、更可靠的智能體防御系統(tǒng)指明了方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
根本買不完,上百家減持來(lái)襲!因個(gè)人資金需要,新易盛董事長(zhǎng)套現(xiàn)42億

根本買不完,上百家減持來(lái)襲!因個(gè)人資金需要,新易盛董事長(zhǎng)套現(xiàn)42億

金石隨筆
2025-10-03 00:06:54
美國(guó)你做初一,我們就做十五,你賣武器給臺(tái)灣,我們就賣給伊朗

美國(guó)你做初一,我們就做十五,你賣武器給臺(tái)灣,我們就賣給伊朗

大道無(wú)形我有型
2025-07-15 15:49:43
第一批游客已抵達(dá)!美團(tuán)旅行發(fā)布國(guó)慶假期首日十大熱度景區(qū)

第一批游客已抵達(dá)!美團(tuán)旅行發(fā)布國(guó)慶假期首日十大熱度景區(qū)

新浪財(cái)經(jīng)
2025-10-01 17:40:13
北京九三閱兵當(dāng)天,朱立倫講話:抗日戰(zhàn)爭(zhēng)是蔣介石領(lǐng)導(dǎo)打贏的

北京九三閱兵當(dāng)天,朱立倫講話:抗日戰(zhàn)爭(zhēng)是蔣介石領(lǐng)導(dǎo)打贏的

小童歷史
2025-09-12 11:41:00
如果不是美國(guó)媒體把事實(shí)公開,還不知道要有多少國(guó)人被蒙在鼓里。

如果不是美國(guó)媒體把事實(shí)公開,還不知道要有多少國(guó)人被蒙在鼓里。

忠于法紀(jì)
2025-09-30 09:08:24
熱得像夏天!遼寧多地超30℃!別急,降溫要來(lái)了……

熱得像夏天!遼寧多地超30℃!別急,降溫要來(lái)了……

環(huán)球網(wǎng)資訊
2025-10-02 15:55:30
iPhone 17全系首銷周成績(jī)出爐,蘋果又給國(guó)產(chǎn)讓了一課

iPhone 17全系首銷周成績(jī)出爐,蘋果又給國(guó)產(chǎn)讓了一課

科技鋒說(shuō)
2025-09-30 06:59:49
可別被電影里的場(chǎng)景忽悠了,真實(shí)的八里橋之戰(zhàn)完全不是這樣

可別被電影里的場(chǎng)景忽悠了,真實(shí)的八里橋之戰(zhàn)完全不是這樣

知兵堂軍事
2025-10-01 10:50:47
深夜,中概股大爆發(fā)!美聯(lián)儲(chǔ),降息大消息!

深夜,中概股大爆發(fā)!美聯(lián)儲(chǔ),降息大消息!

證券時(shí)報(bào)e公司
2025-10-02 22:47:40
網(wǎng)信辦整治網(wǎng)絡(luò)負(fù)面情緒,你怎么看?

網(wǎng)信辦整治網(wǎng)絡(luò)負(fù)面情緒,你怎么看?

雨秋閑話
2025-09-23 16:58:48
臺(tái)灣統(tǒng)一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

臺(tái)灣統(tǒng)一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

東方尋史
2025-03-29 09:38:38
延續(xù)黑馬本色!小將陳俊菘3-2淘汰日本選手,躋身中國(guó)大滿貫八強(qiáng)

延續(xù)黑馬本色!小將陳俊菘3-2淘汰日本選手,躋身中國(guó)大滿貫八強(qiáng)

全景體育V
2025-10-02 20:34:02
李楠:今年最高級(jí)的手機(jī)是iPhone Air

李楠:今年最高級(jí)的手機(jī)是iPhone Air

快科技
2025-10-01 22:54:04
網(wǎng)友稱:陳思誠(chéng)祖宗18代都要感謝佟麗婭,他生了一個(gè)縮小版的自己

網(wǎng)友稱:陳思誠(chéng)祖宗18代都要感謝佟麗婭,他生了一個(gè)縮小版的自己

阿廢冷眼觀察所
2025-10-01 16:08:04
23.55萬(wàn)元起,2025 款改款特斯拉Model 3上市

23.55萬(wàn)元起,2025 款改款特斯拉Model 3上市

IT之家
2025-10-01 21:47:07
特朗普連退兩步,請(qǐng)卡塔爾回心轉(zhuǎn)意,中東集體轉(zhuǎn)向,美國(guó)正在出局

特朗普連退兩步,請(qǐng)卡塔爾回心轉(zhuǎn)意,中東集體轉(zhuǎn)向,美國(guó)正在出局

林子說(shuō)事
2025-10-03 03:57:49
“飼料蛋”與“土雞蛋”,到底有什么區(qū)別?建議了解,來(lái)漲知識(shí)了

“飼料蛋”與“土雞蛋”,到底有什么區(qū)別?建議了解,來(lái)漲知識(shí)了

簡(jiǎn)食記工作號(hào)
2025-10-03 00:20:55
研究發(fā)現(xiàn):老年人頻繁吃花生,用不了多久,身體或會(huì)有這幾樣變化

研究發(fā)現(xiàn):老年人頻繁吃花生,用不了多久,身體或會(huì)有這幾樣變化

詩(shī)意世界
2025-09-30 23:50:26
太意外!著名相聲演員去世

太意外!著名相聲演員去世

蕾爸退休日記
2025-09-20 10:56:06
九三閱兵之際,6名間諜落網(wǎng)!帶1448份機(jī)密出逃,泄露尖端武器

九三閱兵之際,6名間諜落網(wǎng)!帶1448份機(jī)密出逃,泄露尖端武器

做一個(gè)合格的吃瓜群眾
2025-09-07 06:08:46
2025-10-03 05:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11392文章數(shù) 142463關(guān)注度
往期回顧 全部

科技要聞

9月零跑交付突破6萬(wàn)輛,小鵬、小米超4萬(wàn)輛

頭條要聞

普京:恢復(fù)與美國(guó)的全面關(guān)系符合俄羅斯國(guó)家利益

頭條要聞

普京:恢復(fù)與美國(guó)的全面關(guān)系符合俄羅斯國(guó)家利益

體育要聞

痛失三叉戟的大巴黎,是怎么贏下巴薩的?

娛樂(lè)要聞

李純馬頔官宣結(jié)婚,曬結(jié)婚照秀幸福

財(cái)經(jīng)要聞

宗馥莉“心腹”嚴(yán)學(xué)峰被調(diào)查

汽車要聞

問(wèn)界M7啟動(dòng)全國(guó)交付 首批車主參與工廠驗(yàn)收環(huán)節(jié)

態(tài)度原創(chuàng)

游戲
教育
健康
旅游
軍事航空

Epic喜加二:開放世界生存游戲 適合和朋友聯(lián)機(jī)玩

教育要聞

大寶啊大寶!!!媽媽終于把你養(yǎng)得還不錯(cuò)了啊!!!!你翻身指日可待了啊!!!

內(nèi)分泌科專家破解身高八大謠言

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

特朗普宣布:向卡塔爾提供強(qiáng)有力安全保障

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 成 人 网 站 免费观看| 国产v欧美v日韩v综合精品| 精品国产福利在线视频| 最新爱爱故事欧美大黑几巴 | 日韩午夜福利无码专区a| 欧美熟女乱又轮| 免费滛乱XXX| 成人sm调教视频免费观看| 18禁视频一区二区三区| 国产日产欧产系列| 手机在线视频你懂的| 成人无码免费一区二区三区| 亚洲蜜桃AV无码| 亚洲精品亚洲人成在线下载| 亚州Av人人爽| 双飞蜜桃在线观看| 亚洲香蕉网久久综合影视| 国产成人a亚洲精v品无码| 久久99毛片| 亚洲欧美日韩高清中文在线| 极品主播精品视频97久久| 日本丰满寂寞少妇和老头高潮| 国产久免费热视频在线观看| 影音先锋色综合| 中文字幕av日韩精品| 黄网站欧美内射| 99国产精品妓女夜夜爽成人| you日韩无码啪啪HD一区| 操大肥屄视频| 亚洲午夜成人片| 国产精品性爱视频| 免费看成人aa片无码视频吃奶| 中国黄片在线看18| 毛片免费观看完整版| 精品无码久久久么免费| 中文字幕乱码熟女人妻水蜜桃| 亚洲无码宗合在线视频| 无码任你躁久久久久久老妇蜜桃| 亚洲欧美A视頻| 欧美男生射精高潮视频网站| 狠狠干性爱影院第一页 |