夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

誰導(dǎo)致了多智能體系統(tǒng)的失敗?首個(gè)「自動(dòng)化失敗歸因」研究出爐

0
分享至




想象這樣一個(gè)場景:你開發(fā)了一個(gè)由多個(gè)大型語言模型 Agent 組成的智能團(tuán)隊(duì),它們協(xié)作完成復(fù)雜任務(wù),比如一個(gè) Agent 負(fù)責(zé)檢索,一個(gè)負(fù)責(zé)決策。然而任務(wù)失敗了,結(jié)果不對。

問題來了:到底是哪個(gè) Agent 出了錯(cuò)?又是在對話流程的哪一環(huán)節(jié)?調(diào)試這樣的多智能體系統(tǒng)如同大海撈針,需要翻閱大量復(fù)雜日志,極其耗時(shí)。

這并非虛構(gòu)。在多智能體 LLM 系統(tǒng)中,失敗常見但難以診斷。隨著這類系統(tǒng)愈加普及,我們急需新方法快速定位錯(cuò)誤。正因如此,ICML 2025 的一篇 Spotlight 論文提出了「自動(dòng)化失敗歸因(Automated Failure Attribution)」的新研究方向,目標(biāo)是讓 AI 自動(dòng)回答:是誰、在哪一步導(dǎo)致了失敗。

該工作由 Penn State、Duke、UW、Goolge DeepMind 等機(jī)構(gòu)的多位研究人員合作完成。



  • 論文標(biāo)題:Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
  • arXiv 地址:https://arxiv.org/pdf/2505.00212
  • 代碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

背景挑戰(zhàn)

LLM 驅(qū)動(dòng)的多智能體系統(tǒng)在諸多領(lǐng)域展現(xiàn)出巨大潛力,從自動(dòng)化助手協(xié)同辦公到多 Agent 合作完成 Web 復(fù)雜操作等。然而,這些系統(tǒng)脆弱性也逐漸顯現(xiàn):多個(gè) Agent 之間的誤解、信息傳遞錯(cuò)誤或決策不當(dāng),都可能導(dǎo)致整體任務(wù)失敗。



對于開發(fā)者來說,一個(gè)失敗案例往往意味著必須手動(dòng)審閱長長的對話日志,試圖找出哪個(gè) Agent 在哪一步出了差錯(cuò)。這種調(diào)試過程既費(fèi)時(shí)費(fèi)力,也需要調(diào)試者對整個(gè)任務(wù)邏輯非常熟悉。更大的挑戰(zhàn)在于,缺乏系統(tǒng)化的方法來定位失敗原因 —— 傳統(tǒng)評估只關(guān)注任務(wù)成功與否,但很少深入到「失敗責(zé)任」這一層面上。

結(jié)果就是,多智能體系統(tǒng)一旦出錯(cuò),我們往往只能知道「出了問題」卻無法快速知道「問題出在哪、因何而起」。這種局面嚴(yán)重限制了多智能體系統(tǒng)的改進(jìn)和可信度。如果無法自動(dòng)歸因失敗,我們就難以針對性地加強(qiáng)某個(gè) Agent 的能力或優(yōu)化協(xié)作策略。換言之,失敗歸因是連接評估與改進(jìn)的缺失環(huán)節(jié)

研究內(nèi)容

針對上述挑戰(zhàn),這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了LLM 多智能體系統(tǒng)的自動(dòng)化失敗歸因這一新任務(wù)。

研究的核心目標(biāo):給定一個(gè)多 Agent 協(xié)作任務(wù)的失敗日志,自動(dòng)確定導(dǎo)致失敗的罪魁禍?zhǔn)资悄膫€(gè) Agent(「Who」),以及決定性錯(cuò)誤發(fā)生在交互的哪一步(「When」)

為推動(dòng)這一方向,作者構(gòu)建了首個(gè)用于失敗歸因研究的基準(zhǔn)數(shù)據(jù)集 ——「Who&When」。該數(shù)據(jù)集精心收集了127 個(gè)多智能體系統(tǒng)的失敗日志,涵蓋了多個(gè)公開基準(zhǔn)(如 GAIA、AssistantBench 等)中的復(fù)雜任務(wù),具有相當(dāng)?shù)亩鄻有浴8匾氖?,作者為每條失敗日志都提供了細(xì)粒度的人工標(biāo)注

  • 標(biāo)記出導(dǎo)致任務(wù)失敗的責(zé)任 Agent(即「Who」,哪個(gè)智能體犯了錯(cuò))
  • 標(biāo)記出導(dǎo)致失敗的關(guān)鍵錯(cuò)誤步驟(即「When」,在整個(gè)對話 / 操作序列中的第幾步出了錯(cuò))
  • 以及相應(yīng)的自然語言解釋(即「Why」,為什么這個(gè)錯(cuò)誤會導(dǎo)致失?。?/li>

基準(zhǔn)數(shù)據(jù)集地址:https://huggingface.co/datasets/Kevin355/Who_and_When

這種標(biāo)注使得數(shù)據(jù)集既可用于訓(xùn)練模型自動(dòng)定位「誰」和「何時(shí)」出錯(cuò),也方便人類分析失敗的原因。數(shù)據(jù)集中「Who」和「When」標(biāo)注的引入填補(bǔ)了以往多智能體評測中對失敗原因關(guān)注的空白??梢哉f,Who&When 數(shù)據(jù)集為自動(dòng)失敗歸因任務(wù)提供了首個(gè)標(biāo)準(zhǔn)測試床,讓研究者能夠在統(tǒng)一語境下探索讓 AI 自動(dòng)當(dāng)「故障偵探」的可能性。

技術(shù)細(xì)節(jié)

有了數(shù)據(jù)集,接下來作者設(shè)計(jì)了三種用于自動(dòng)失敗歸因的初步方法,并對它們進(jìn)行了系統(tǒng)比較:

  • All-at-Once 方法:將完整的多 Agent 日志一次性交給 LLM,讓其整體判斷 「哪個(gè) Agent 在哪一步出錯(cuò)」。優(yōu)點(diǎn)是調(diào)用少、成本低,擅長宏觀歸因;缺點(diǎn)是信息量大,易錯(cuò)過細(xì)節(jié)。
  • Step-by-Step 方法:模擬人工調(diào)試,讓 LLM 逐輪分析每一步交互,逐步定位錯(cuò)誤。優(yōu)點(diǎn)是粒度細(xì)、定位準(zhǔn);缺點(diǎn)是調(diào)用頻繁、成本高,且誤判可能累積。
  • Binary Search 方法:對日志進(jìn)行二分,逐步縮小范圍,最終鎖定出錯(cuò)步驟。在調(diào)用次數(shù)和定位精度之間取得平衡,適合長日志。缺點(diǎn)是需要多輪交互,復(fù)雜度居中。值得注意的是,每種方法在準(zhǔn)確性、成本和粒度上各有權(quán)衡,沒有一種方法能在所有指標(biāo)上全面勝出。這三種方案共同構(gòu)成了自動(dòng)失敗歸因任務(wù)的初步解法庫,探索了從「一步到位」到「循序漸進(jìn)」再到「折中求解」的不同思路。作者在論文中詳細(xì)討論了它們各自的優(yōu)劣。

實(shí)驗(yàn)結(jié)果

作者在 Who&When 數(shù)據(jù)集上對上述方法進(jìn)行了系統(tǒng)評估,帶來了許多發(fā)人深省的發(fā)現(xiàn)

  • 整體表現(xiàn)有限:當(dāng)前方法效果仍較差。最佳模型在識別出錯(cuò) Agent 上準(zhǔn)確率僅約 53.5%,而準(zhǔn)確定位錯(cuò)誤步驟的準(zhǔn)確率更低,僅 14.2%,幾乎接近瞎猜。一些方法甚至表現(xiàn)不如隨機(jī),顯示任務(wù)本身極具挑戰(zhàn)性。
  • 各有所長:不同方法擅長不同子任務(wù)。All-at-Once 更擅長識別「誰」出錯(cuò),Step-by-Step 更適合找出「何時(shí)」出錯(cuò),而 Binary Search 表現(xiàn)居中,平衡調(diào)用成本和定位精度。



  • 混合策略更優(yōu)但代價(jià)高:將多種方法結(jié)合(如先用 All-at-Once 找嫌疑 Agent,再用 Step-by-Step 精查)確實(shí)提升了準(zhǔn)確率,驗(yàn)證了方法間的互補(bǔ)性。但計(jì)算成本顯著增加,需在效果與資源之間權(quán)衡。



  • 現(xiàn)有 SOTA 模型乏力:OpenAI o1 或者 DeepSeek R1,表現(xiàn)仍不理想,遠(yuǎn)未達(dá)到實(shí)用水平。可見,失敗歸因任務(wù)對 AI 推理與理解能力的要求,遠(yuǎn)超當(dāng)前模型在常規(guī)任務(wù)中的表現(xiàn),凸顯了其挑戰(zhàn)性和研究價(jià)值。



結(jié)論

自動(dòng)化失敗歸因有望成為多智能體 AI 系統(tǒng)開發(fā)中的重要一環(huán),它將幫助我們更深入地理解 AI 代理的失敗模式,將「哪里出錯(cuò)、誰之過」從令人頭疼的謎題變成可量化分析的問題。因此,我們可以在評估與改進(jìn)之間架起橋梁,打造更可靠、更智能的多 Agent 協(xié)作系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
80后的危機(jī)真的要來了嗎?網(wǎng)友:85-95這個(gè)年齡段的人最慘!

80后的危機(jī)真的要來了嗎?網(wǎng)友:85-95這個(gè)年齡段的人最慘!

解讀熱點(diǎn)事件
2025-11-04 00:20:03
中日韓全軍覆沒,固態(tài)電池布局了10多年,為什么還沒有實(shí)現(xiàn)量產(chǎn)?

中日韓全軍覆沒,固態(tài)電池布局了10多年,為什么還沒有實(shí)現(xiàn)量產(chǎn)?

削桐作琴
2025-10-28 13:10:37
紐約市長選舉爆冷!20個(gè)百分點(diǎn)優(yōu)勢蒸發(fā),反對黨集體“隱身”?

紐約市長選舉爆冷!20個(gè)百分點(diǎn)優(yōu)勢蒸發(fā),反對黨集體“隱身”?

杜鱂手工制作
2025-11-03 18:00:27
大同四中搶鑰匙工作人員被曝是副校長,學(xué)校稱這是正常管理

大同四中搶鑰匙工作人員被曝是副校長,學(xué)校稱這是正常管理

映射生活的身影
2025-11-02 22:37:28
這個(gè)黃金稅,你是不是刷了一天,腦子還是嗡嗡的?

這個(gè)黃金稅,你是不是刷了一天,腦子還是嗡嗡的?

流蘇晚晴
2025-11-03 19:08:24
掙扎,獨(dú)行俠庫珀弗拉格正負(fù)值全聯(lián)盟倒數(shù)第2,僅高于克萊湯普森

掙扎,獨(dú)行俠庫珀弗拉格正負(fù)值全聯(lián)盟倒數(shù)第2,僅高于克萊湯普森

好火子
2025-11-04 03:44:00
官宣!首都醫(yī)科大學(xué)校長調(diào)整

官宣!首都醫(yī)科大學(xué)校長調(diào)整

醫(yī)學(xué)界
2025-11-03 20:46:52
休媒談火箭控衛(wèi)引援:兩大全明星不能選 懷特最理想里夫斯可爭取

休媒談火箭控衛(wèi)引援:兩大全明星不能選 懷特最理想里夫斯可爭取

羅說NBA
2025-11-04 06:03:18
鄭麗文就任國民黨主席掀入黨潮 10天新增800余人

鄭麗文就任國民黨主席掀入黨潮 10天新增800余人

看看新聞Knews
2025-11-03 10:15:15
巴西大名單:維尼修斯領(lǐng)銜,法比尼奧、羅克回歸,內(nèi)馬爾無緣

巴西大名單:維尼修斯領(lǐng)銜,法比尼奧、羅克回歸,內(nèi)馬爾無緣

懂球帝
2025-11-04 02:30:51
宋朝之前連棉被都沒有,零下幾十度的寒冬,古人是怎么熬過去的?

宋朝之前連棉被都沒有,零下幾十度的寒冬,古人是怎么熬過去的?

法老不說教
2025-11-03 19:36:43
A股:人民日報(bào)重磅發(fā)布,證監(jiān)會高壓護(hù)航,周二將迎來新的變化?

A股:人民日報(bào)重磅發(fā)布,證監(jiān)會高壓護(hù)航,周二將迎來新的變化?

云鵬敘事
2025-11-04 00:00:02
百病不離肝!對肝臟最好的3種食物,一周吃2次,養(yǎng)肝護(hù)肝,別錯(cuò)過

百病不離肝!對肝臟最好的3種食物,一周吃2次,養(yǎng)肝護(hù)肝,別錯(cuò)過

阿龍美食記
2025-10-30 11:53:11
別再吹了!“美國之子”水成狗,弗拉格被噴到體無完膚

別再吹了!“美國之子”水成狗,弗拉格被噴到體無完膚

體壇黑馬
2025-11-03 10:57:06
越來越多人不裝地暖了?建議學(xué)山東人的做法,體驗(yàn)過才知道多明智

越來越多人不裝地暖了?建議學(xué)山東人的做法,體驗(yàn)過才知道多明智

手工制作阿愛
2025-11-03 15:26:58
富士康崩得太突然!郭臺銘絕對沒料到,帝國說沒就沒了!

富士康崩得太突然!郭臺銘絕對沒料到,帝國說沒就沒了!

百態(tài)人間
2025-11-03 16:16:00
雷軍這波“自殺式公關(guān)”,暴露了小米的流量焦慮

雷軍這波“自殺式公關(guān)”,暴露了小米的流量焦慮

熱點(diǎn)菌本君
2025-11-02 15:26:23
李云迪再陷桃色風(fēng)波,女主照片被扒疑似有兩人視頻流出

李云迪再陷桃色風(fēng)波,女主照片被扒疑似有兩人視頻流出

挪威森林
2025-11-02 12:56:16
吳亦凡監(jiān)獄近況曝光:身染重病、夜夜痛哭!網(wǎng)友:這下徹底完了!

吳亦凡監(jiān)獄近況曝光:身染重病、夜夜痛哭!網(wǎng)友:這下徹底完了!

可樂談情感
2025-11-02 03:45:56
太爛了!湯普森發(fā)飆!4冠神射手?jǐn)嘌率较禄?>
    </a>
        <h3>
      <a href=籃球?qū)崙?zhàn)寶典
2025-11-03 09:46:00
2025-11-04 06:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11635文章數(shù) 142497關(guān)注度
往期回顧 全部

科技要聞

余承東內(nèi)部信:鴻蒙下一步要實(shí)現(xiàn)上億覆蓋

頭條要聞

朝鮮最高人民會議常任委員會前委員長金永南逝世

頭條要聞

朝鮮最高人民會議常任委員會前委員長金永南逝世

體育要聞

開拓者官宣召回楊瀚森 隊(duì)記解析核心原因

娛樂要聞

男導(dǎo)演曝丑聞 蔣欣的含金量還在上升

財(cái)經(jīng)要聞

最新省市GDP:誰在飆升,誰掉隊(duì)了?

汽車要聞

環(huán)比增長28.7% 方程豹品牌10月銷量31052輛

態(tài)度原創(chuàng)

游戲
本地
時(shí)尚
公開課
軍事航空

小島秀夫談最喜歡的死亡擱淺2角色:可惜不能復(fù)活他

本地新聞

全網(wǎng)圍觀,到底多少人被這個(gè)野人大學(xué)生笑瘋了

這些才是適合普通人的穿搭!多穿基礎(chǔ)款和半身裙,簡約又得體

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美總統(tǒng)威脅對尼日利亞動(dòng)武 尼方回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 理论片午午伦夜理片久久| 欧美激情精品久久久久久小说| 日韩有码av中文字幕| 国产日韩欧美亚洲精品中字 | 最近2019免费中文第一页| 黄片一区二区| 亭亭五月丁香网| 欧美成人综合免费| 超碰国产精品久久国产精品99| 人妻在厨房被朋友玩呻| 中文字幕免费不卡二区| 白人大战34厘米黑人bd| 日韩大片在线| 亚洲高清精品少妇无码| www.depuri.cn| 一二三四六七区无吗| 久久婷婷色香五月综合缴缴情| AV成人亚洲精选| 国产成人精品无码一区二区三| 激情国产一区二区三区四区小说 | 亚洲色成人www永久网站| 成熟丰满熟妇av无码区| 直接看av网址| 看中国毛片无毛内射| 91啦丨国产丨丝袜高跟| 女人 精69XXX免费网站| 久久精品国产只有精品96| 国产精品18久久久久久久小说| 亚洲国产在一区二区三区 | 亚洲色无码专线精品观看 | 亚洲AV成人网址网站导航| 日本韩国男男作爱gaywww| 国产av激情无码久久天堂| 成人sm调教视频免费观看| 天天狠天天天天透在线| 成人福利国产精品视频| 国产精品亚洲精品日韩己满十八小 | aa亚洲永久亚洲精品永久| 国产午夜AⅤ无码一区二区在线视频| 任你躁老妇一区二区| 亚洲午夜激情久久加勒比|