夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

在失敗中進化?UIUC聯(lián)合斯坦福、AMD實現(xiàn)智能體「從錯誤中成長」

0
分享至



人工智能(AI)正經(jīng)歷從「會做」到「做得可靠」的關(guān)鍵轉(zhuǎn)變。隨著大語言模型(LLM)推動的智能體(Agent)廣泛應(yīng)用于自動任務(wù)分解、多步推理和復(fù)雜環(huán)境交互,智能體系統(tǒng)對自我反思與自我修正能力的需求日益突出。

然而,現(xiàn)有智能體一旦出現(xiàn)錯誤,往往缺乏自我診斷和糾錯機制,這不僅影響性能,還對可解釋性和安全性構(gòu)成威脅。

伊利諾伊大學(xué)厄巴納 - 香檳分校(UIUC)等團隊近日發(fā)布論文,系統(tǒng)性剖析了 LLM 智能體失敗的機制,并提出了可自我修復(fù)的創(chuàng)新框架 ——AgentDebug。該研究認為,AI 智能體應(yīng)成為自身的觀察者和調(diào)試者,不僅僅是被動的任務(wù)執(zhí)行者,為未來大規(guī)模智能體的可靠運行和自動進化提供了理論與實踐工具。



  • 論文地址: https://arxiv.org/pdf/2509.25370
  • 代碼地址: https://github.com/ulab-uiuc/AgentDebug
  • 數(shù)據(jù)集地址: https://bit.ly/3W3PryB

智能體「自信地犯錯」,問題出在哪里?

LLM 智能體不僅能通過對話展現(xiàn)智能,還可以在復(fù)雜場景下自主感知環(huán)境、調(diào)用工具、規(guī)劃行動序列并自我反思。但論文揭示,在實際任務(wù)中,智能體常見的失敗包括:

  • 目標遺忘與上下文混淆:在任務(wù)過程中遺忘初始目標,或?qū)v史步驟混為一談;
  • 反思與判斷失誤:對自己是否已完成目標產(chǎn)生誤判,或給出自洽卻不正確的復(fù)盤結(jié)論;
  • 規(guī)劃與執(zhí)行偏差:分解目標出現(xiàn)混亂,行動過程中調(diào)用錯誤工具或參數(shù)。

令人關(guān)注的是,這些智能體即便偏離目標,往往依然「自信」地輸出推理,且在錯誤中自我循環(huán)而難以自察。這一現(xiàn)象不僅體現(xiàn)在單點失誤,更表現(xiàn)為錯誤在決策鏈中的擴散和積累 —— 早期細微偏差可沿著記憶、反思、規(guī)劃、行動多個階段持續(xù)放大,最終導(dǎo)致全局失敗。

這種「錯誤的傳播」,才是智能體系統(tǒng)穩(wěn)定性的核心瓶頸,而非單步能力的不足。

補充細節(jié):論文通過對大量失敗軌跡的分析,發(fā)現(xiàn)許多任務(wù)失敗并非由于模型本身推理能力不夠,而是在決策流程的早期,智能體便因記憶或反思環(huán)節(jié)的細小失誤 「埋雷」,此后環(huán)環(huán)相扣,直到最終崩潰。



研究的核心:從「出錯」到「學(xué)會改錯」

為系統(tǒng)性理解和改善 AI 失敗機制,團隊提出了三項關(guān)鍵創(chuàng)新:

  • AgentErrorTaxonomy:智能體錯誤分析與分類體系;
  • AgentErrorBench:面向多場景、細粒度錯誤標注的數(shù)據(jù)集;
  • AgentDebug:支持根因溯源和自我修復(fù)的調(diào)試框架。

這三者形成了從錯誤診斷、數(shù)據(jù)歸檔到自動修復(fù)的閉環(huán)學(xué)習(xí)流程,讓智能體不僅可以被動「避免錯誤」,更具備了「主動學(xué)習(xí)失敗經(jīng)驗、改進自身」的基礎(chǔ)。



1.AgentErrorTaxonomy:讓 AI 的錯誤有「診斷語言」

研究者首先提出了一個結(jié)構(gòu)化的智能體錯誤體系 ——AgentErrorTaxonomy。

它把智能體的決策過程拆解為五個核心模塊:記憶、反思、規(guī)劃、行動與系統(tǒng)。相應(yīng)地,所有錯誤也被映射到這五個層面。



  • 當智能體忘記了任務(wù)目標或混淆了歷史上下文,這屬于記憶錯誤;
  • 當它誤判自己是否完成了任務(wù),或給出錯誤的復(fù)盤結(jié)論,那是反思錯誤;
  • 若目標分解不當、路徑規(guī)劃混亂,則是規(guī)劃錯誤;
  • 工具調(diào)用、參數(shù)設(shè)定或動作執(zhí)行的失敗,則構(gòu)成行動錯誤;
  • 系統(tǒng)層級的信息丟失、反饋異常等問題,則歸入系統(tǒng)錯誤。

補充細節(jié):論文通過對數(shù)百條失敗軌跡的定量分析發(fā)現(xiàn),約 62% 的錯誤集中在「記憶」和「反思」階段。這表明,當前智能體的主要短板不在于不會執(zhí)行復(fù)雜操作,而在于認知和自我監(jiān)控能力的欠缺。該體系為后續(xù)自動定位和分類錯誤提供了「可編程、可量化」的工具鏈。

這種模塊化分類使得智能體的失敗不再是模糊的整體,而是一套可以被定點追蹤和量化評估的「認知病理圖譜」。

研究發(fā)現(xiàn),在所有失敗案例中,超過六成的問題源自前兩個階段 —— 記憶與反思。也就是說,智能體往往不是不會執(zhí)行,而是不知道自己已經(jīng)偏離目標。

2.AgentErrorBench:讓失敗變成數(shù)據(jù)資產(chǎn)

為了進一步理解錯誤的形成與傳播,團隊構(gòu)建了首個專注于智能體失敗行為的數(shù)據(jù)集 ——AgentErrorBench。

這項基準包含來自三種復(fù)雜環(huán)境的數(shù)百條失敗軌跡,包括家居交互環(huán)境 ALFWorld、開放推理任務(wù) GAIA 以及多步網(wǎng)頁操作場景 WebShop。



在每一條軌跡中,研究者都標注了錯誤發(fā)生的具體步驟、對應(yīng)模塊以及傳播路徑。

通過這一系統(tǒng)化標注,他們揭示出一個清晰的趨勢:多數(shù)智能體的崩潰并非出現(xiàn)在任務(wù)的最后階段,而是在早期幾步就埋下了隱患。

一個微小的反思錯誤或記憶偏差,會通過連鎖反應(yīng)影響整個規(guī)劃邏輯,最終導(dǎo)致任務(wù)徹底失敗。

AgentErrorBench 不僅提供了「錯誤的樣本」,更提供了「錯誤的演化歷史」。這使得智能體研究從「結(jié)果導(dǎo)向」轉(zhuǎn)向「過程診斷」,讓失敗本身成為可研究的科學(xué)對象。

3.AgentDebug:讓 AI 具備「自我修復(fù)力」

如果智能體能像人一樣學(xué)會調(diào)試自己,是否就能更穩(wěn)定地執(zhí)行任務(wù)?這正是 AgentDebug 的核心目標。



該框架為智能體引入了一個「調(diào)試循環(huán)」:當任務(wù)失敗時,它會自動觸發(fā)錯誤檢測、根因定位與定向修復(fù)。

在檢測階段,系統(tǒng)首先識別出哪一步與目標產(chǎn)生了偏差;接著在回溯階段,它會沿著任務(wù)執(zhí)行鏈反向查找,找到「最早導(dǎo)致連鎖錯誤的關(guān)鍵節(jié)點」;最后,通過語言反饋生成修正指令,從該節(jié)點重新規(guī)劃后續(xù)執(zhí)行。



這種機制的獨特之處在于,它不重新開始整個任務(wù),而是在錯誤的關(guān)鍵點「定向重跑」。

這樣既節(jié)省算力,又能保留智能體在前期積累的上下文與狀態(tài)信息。

實驗結(jié)果

實驗表明,AgentDebug 的這種「根因修復(fù)」策略顯著優(yōu)于傳統(tǒng)的「反思 — 重試」方法。



在三大環(huán)境的綜合測試中,它將任務(wù)成功率平均提升了 26%(對比基線 ReAct、Reflexion 等方法),錯誤定位準確率提升 24%,步驟預(yù)測精度提升 17%。

這意味著智能體不僅能意識到自己出錯,還能知道為什么錯、該從哪一步改起。

論文還提供了多組消融實驗,分析了不同錯誤類型、任務(wù)復(fù)雜度、錯誤修復(fù)次數(shù)等變量對整體效果的影響。AgentDebug 在早期錯誤頻發(fā)的長任務(wù)鏈中優(yōu)勢尤為顯著,且對「首因節(jié)點」定向修復(fù)比傳統(tǒng)「反思 - 重試」方法更加高效。

錯誤也會「傳染」:AI 的失敗鏈條

研究團隊進一步發(fā)現(xiàn),智能體的錯誤并不是孤立的。

在他們繪制的錯誤傳播熱力圖中,幾乎所有失敗都表現(xiàn)出「層層擴散」的特征。早期一個看似微不足道的反思失誤,往往會沿著記憶、規(guī)劃、行動的路徑逐步放大。一旦進入后期,錯誤幾乎不可逆轉(zhuǎn)。



這種現(xiàn)象被研究者稱為「錯誤瀑布效應(yīng)(Error Cascade)」。它與人類組織決策中的「誤判 — 誤執(zhí)行 — 誤反饋」極為相似。

這也說明,AI 系統(tǒng)正在呈現(xiàn)出一種與人類相似的「認知社會學(xué)」特征 ——即錯誤不只是個體行為的偏差,更是整個系統(tǒng)內(nèi)多環(huán)節(jié)互動失衡的產(chǎn)物。

從錯誤中學(xué)習(xí):AI 真正的「心智萌芽」

最令人振奮的,是這項研究揭示的 AI 學(xué)習(xí)潛能的另一面,通過在失敗軌跡中注入修正反饋,智能體能夠在后續(xù)任務(wù)中自發(fā)地調(diào)整策略。

研究者發(fā)現(xiàn),部分模型在多次調(diào)試后會自主總結(jié)出通用的糾錯策略,例如在規(guī)劃前主動復(fù)盤記憶、在執(zhí)行前核對上下文。



這意味著,智能體的學(xué)習(xí)不再僅依賴外部數(shù)據(jù),而開始具備「經(jīng)驗遷移」與「自我校準」的能力。

換句話說,AI 開始展現(xiàn)出一種早期的「元認知」—— 它知道自己在思考,也能修正思考本身。

結(jié)論

從能力到可靠性:AI 發(fā)展的新坐標

團隊認為,當前智能體研究的焦點已經(jīng)從「能做什么」轉(zhuǎn)向「能否可靠地完成」。在這一背景下,AgentDebug 為 AI 可靠性提供了一套工程化的解決方案。它使智能體具備了「可診斷」「可解釋」「可修復(fù)」的閉環(huán)結(jié)構(gòu),這對于構(gòu)建大規(guī)模 AI 系統(tǒng)、企業(yè)級智能體服務(wù)乃至多智能體協(xié)作網(wǎng)絡(luò)都具有現(xiàn)實意義。

同時,這一工作也為 AI 安全帶來了新的啟示,在一個具備自我調(diào)試能力的系統(tǒng)中,錯誤不再是潛在風險,而是改進的信號源。AI 不必完美無瑕,它可以像人類一樣,在犯錯與修正的循環(huán)中變得更強。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
總在凌晨3-5點醒來的人,并非睡不好,而是你的“前世”在求救

總在凌晨3-5點醒來的人,并非睡不好,而是你的“前世”在求救

古怪奇談錄
2025-11-06 14:50:51
羅永浩在用的數(shù)字人,拿下世界互聯(lián)網(wǎng)大會科技大獎

羅永浩在用的數(shù)字人,拿下世界互聯(lián)網(wǎng)大會科技大獎

智東西
2025-11-07 17:16:11
郭美美,沒救了

郭美美,沒救了

鈞言堂
2025-11-06 19:04:37
這件事上,“中國做得毫無問題!”

這件事上,“中國做得毫無問題!”

環(huán)球時報國際
2025-11-08 14:07:10
2025中甲大結(jié)局:鐵人奪冠攜銅梁龍沖超,平果與紅獅降級

2025中甲大結(jié)局:鐵人奪冠攜銅梁龍沖超,平果與紅獅降級

懂球帝
2025-11-08 16:58:22
那么優(yōu)秀的曾醫(yī)生,為什么會如此主動呢

那么優(yōu)秀的曾醫(yī)生,為什么會如此主動呢

大張的自留地
2025-11-08 14:39:50
翟軍任棗莊市委書記

翟軍任棗莊市委書記

界面新聞
2025-11-08 16:08:09
黃仁勛態(tài)度突然改變?!

黃仁勛態(tài)度突然改變?!

環(huán)球時報國際
2025-11-07 23:14:16
老板開8500月薪在某平臺招聘新人,竟被系統(tǒng)警告:建議降到8000以下

老板開8500月薪在某平臺招聘新人,竟被系統(tǒng)警告:建議降到8000以下

風向觀察
2025-11-07 20:04:38
英國國殤日最諷刺一幕:主持人請百歲老兵發(fā)表感言,老兵:這個國家根本不值得我和戰(zhàn)友拼命守護!

英國國殤日最諷刺一幕:主持人請百歲老兵發(fā)表感言,老兵:這個國家根本不值得我和戰(zhàn)友拼命守護!

悅居英國
2025-11-08 00:04:46
“三十如狼,四十如虎”,17分鐘不雅視頻,曾醫(yī)生確實更主動一些

“三十如狼,四十如虎”,17分鐘不雅視頻,曾醫(yī)生確實更主動一些

漢史趣聞
2025-11-07 15:54:10
剛剛確認:12級!今晚抵達浙江!太兇了

剛剛確認:12級!今晚抵達浙江!太兇了

FM93浙江交通之聲
2025-11-08 16:50:59
張家界荒野求生挑戰(zhàn)賽只剩17人,有人猜測“選手提前埋食物”,賽事方:不可能,場地嚴格保密

張家界荒野求生挑戰(zhàn)賽只剩17人,有人猜測“選手提前埋食物”,賽事方:不可能,場地嚴格保密

極目新聞
2025-11-07 21:32:42
太突然!營業(yè)10多年,杭州最后一家門店也閉店了,曾經(jīng)不少人排隊去吃

太突然!營業(yè)10多年,杭州最后一家門店也閉店了,曾經(jīng)不少人排隊去吃

都市快報橙柿互動
2025-11-07 19:49:29
悲催!東莞一家30年大廠轟然倒下,負債2個億,近2000人面臨失業(yè)

悲催!東莞一家30年大廠轟然倒下,負債2個億,近2000人面臨失業(yè)

火山詩話
2025-11-08 10:42:07
妥妥的專家!曾琦每次都是主持核心,兩張圖看出她在醫(yī)院里的地位

妥妥的專家!曾琦每次都是主持核心,兩張圖看出她在醫(yī)院里的地位

火山詩話
2025-11-08 11:14:13
銅梁龍成功升超!媒體人熱議:中超預(yù)定火爆場面,重現(xiàn)川渝德比

銅梁龍成功升超!媒體人熱議:中超預(yù)定火爆場面,重現(xiàn)川渝德比

奧拜爾
2025-11-08 16:44:15
告別繁瑣切換!昆侖萬維SkyReels用“無限畫布”改變AI創(chuàng)作,一站式搞定圖文視頻

告別繁瑣切換!昆侖萬維SkyReels用“無限畫布”改變AI創(chuàng)作,一站式搞定圖文視頻

智東西
2025-11-06 19:58:48
什么是文明?看挪威富裕后如何對待自己的國民?

什么是文明?看挪威富裕后如何對待自己的國民?

深度報
2025-11-07 22:57:08
看完湖南女醫(yī)生17分鐘不雅視頻:她占據(jù)主動,給婚姻撕了一道裂口

看完湖南女醫(yī)生17分鐘不雅視頻:她占據(jù)主動,給婚姻撕了一道裂口

娜烏和西卡
2025-11-07 10:38:41
2025-11-08 18:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11672文章數(shù) 142501關(guān)注度
往期回顧 全部

科技要聞

美股“AI八巨頭”單周市值損失8000億美元

頭條要聞

英媒拋出謬論:中國的空氣質(zhì)量改善 加速了全球變暖

頭條要聞

英媒拋出謬論:中國的空氣質(zhì)量改善 加速了全球變暖

體育要聞

馬刺絞贏火箭,不靠文班亞馬?

娛樂要聞

古二再度放料!秦雯王家衛(wèi)吐槽出現(xiàn)新人物

財經(jīng)要聞

小馬、文遠回港上市 但自動駕駛還沒贏家

汽車要聞

特斯拉Model Y后驅(qū)長續(xù)航版上線:28.85 萬元

態(tài)度原創(chuàng)

手機
游戲
本地
家居
公開課

手機要聞

大疆 Pocket 4 云臺相機新照片流出:機身更纖薄

日廠推出Switch街機外殼套件 模擬復(fù)古機臺玩法

本地新聞

這屆干飯人,已經(jīng)把博物館吃成了食堂

家居要聞

現(xiàn)代自由 功能美學(xué)居所

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 九九热免费视频精品| 肏外国老屄视频| 国产极品AV嫩模| 青青草久热这里只有精品| 丁香精品在线| 日产精品卡一卡二卡三的概述| 樱花视频在线观看www| 久久99精品国产麻豆婷婷洗澡| 亚洲一卡2卡3卡四卡老狼| 国产视频观看| 久久综合av色老头免费观看| 少妇国精产品一二三区| 亚洲裸体无码视频| 日韩一区二区三区无码人妻视频| 野花久久久久| 色欲AV人妻精品一区二区直播| 色色综合网址| 国内精品国产成人国产三级| 人妻精品一区二区三区| 俺也去开心五月深深爱| 东北老熟女乱伦| 久久99精品久久久大学生| 国产精品久久久久…| 无码大屁股丰满高潮大| 精品国产青草久久久久福利| 女同性恋一区二区三区视频| 亚洲激情四射视频中文字幕久久| 无码网站免费在线| www.aaa4444| 爱爱高清无码| 亚洲熟妇精品| 久久夜色精品国产欧美乱| 成人片黄网站色大片免费观看| 亚洲国产精品综合久久网络| 久久久久久久久久久久无码| ASS年轻少妇浓毛PICS| 国产精品午夜av福利| 欧美日韩久久久精品a片| 无码综合天天久久综合网| a级毛片免费看| 伊人精品无码一区二区三区电影|