全球頂尖研究機(jī)構(gòu)首次繪制AI代理能力地圖

2025-08-04 22:06:34　來源: 至頂頭條

北京舉報(bào)

分享至

這項(xiàng)由希伯來大學(xué)的Asaf Yehudai、IBM研究院的Lilach Eden等人以及耶魯大學(xué)的Alan Li等研究者共同完成的綜合性研究，發(fā)表于2025年3月，為我們呈現(xiàn)了當(dāng)前大語言模型智能代理評估領(lǐng)域的完整畫卷。有興趣深入了解的讀者可以通過arXiv:2503.16416v1訪問完整論文。

想象一下，如果你有一個非常聰明的助手，它不僅能理解你說的話，還能幫你制定計(jì)劃、使用各種工具、從錯誤中學(xué)習(xí)，甚至記住之前發(fā)生的事情。這樣的助手就是我們今天要討論的"大語言模型智能代理"。這些AI助手已經(jīng)從簡單的問答機(jī)器人進(jìn)化成了能夠在復(fù)雜環(huán)境中自主工作的智能系統(tǒng)。

然而，正如我們評判一個人的能力需要通過考試和實(shí)際表現(xiàn)一樣，評估這些AI代理的能力也需要專門的測試方法。這正是這項(xiàng)研究要解決的核心問題：如何科學(xué)、全面地評估這些越來越聰明的AI代理？

研究團(tuán)隊(duì)發(fā)現(xiàn)，傳統(tǒng)的AI評估方法就像用小學(xué)數(shù)學(xué)題來測試大學(xué)生的能力一樣不夠用了。因?yàn)檫@些新的AI代理不再是簡單的"一問一答"模式，而是能夠進(jìn)行多步驟思考、使用外部工具、與環(huán)境互動的復(fù)雜系統(tǒng)。這就需要全新的評估框架和方法。

這項(xiàng)研究的創(chuàng)新之處在于，它首次系統(tǒng)性地梳理了整個AI代理評估領(lǐng)域的現(xiàn)狀，就像繪制了一張?jiān)敿?xì)的地圖，告訴我們目前有哪些評估方法、各自的優(yōu)缺點(diǎn)，以及未來的發(fā)展方向。研究團(tuán)隊(duì)分析了數(shù)百個評估基準(zhǔn)和框架，涵蓋了從基礎(chǔ)能力測試到具體應(yīng)用場景的各個方面。

一、智能代理的核心能力評估：四大基石能力

研究團(tuán)隊(duì)首先關(guān)注的是AI代理的四項(xiàng)基礎(chǔ)能力，這些能力就像是建筑的地基一樣重要。

第一項(xiàng)能力是規(guī)劃和多步推理能力。這就像是讓AI代理學(xué)會做飯一樣，不是簡單地告訴它"做個西紅柿炒蛋"，而是要求它能夠分解任務(wù)：先準(zhǔn)備食材、再打蛋、熱鍋、炒制、調(diào)味、裝盤。每一步都要考慮到前面步驟的結(jié)果，還要能夠根據(jù)實(shí)際情況調(diào)整后續(xù)步驟。

研究團(tuán)隊(duì)發(fā)現(xiàn)，目前用于測試這種能力的基準(zhǔn)包括數(shù)學(xué)推理任務(wù)（如GSM8K和MATH）、多跳問答任務(wù)（如HotpotQA和StrategyQA）等。這些測試就像是給AI代理出的"應(yīng)用題"，需要它們通過多個步驟才能得出答案。比如HotpotQA會問"誰是《哈利波特》作者的丈夫的職業(yè)？"這需要AI代理先找到作者是J.K.羅琳，再找到她的丈夫，最后確定他的職業(yè)。

特別值得注意的是一些專門針對規(guī)劃能力的新基準(zhǔn)。PlanBench就像是給AI代理設(shè)計(jì)的"策略游戲"，測試它們在不同領(lǐng)域的規(guī)劃能力。研究發(fā)現(xiàn)，即使是最先進(jìn)的AI代理，在長期規(guī)劃方面仍然表現(xiàn)不佳，特別是當(dāng)任務(wù)變得復(fù)雜時(shí)，它們往往在策略性長期規(guī)劃上落后于傳統(tǒng)的符號規(guī)劃器。

第二項(xiàng)核心能力是工具使用和函數(shù)調(diào)用。這就像是給AI代理配備了一個工具箱，里面有計(jì)算器、搜索引擎、數(shù)據(jù)庫查詢工具等各種工具。AI代理需要知道什么時(shí)候使用哪個工具，如何正確地使用它們，以及如何處理工具返回的結(jié)果。

早期的評估方法比較簡單，就像測試一個人是否會使用錘子釘釘子一樣直接。但現(xiàn)實(shí)應(yīng)用中的工具使用要復(fù)雜得多?，F(xiàn)代的評估基準(zhǔn)如ToolSandbox引入了"有狀態(tài)的工具執(zhí)行"概念，這意味著使用一個工具的結(jié)果會影響到下一個工具的使用，就像烹飪過程中每一步都會影響下一步的操作一樣。

伯克利函數(shù)調(diào)用排行榜（BFCL）是這個領(lǐng)域的重要里程碑，它不斷演進(jìn)，從最初的簡單函數(shù)調(diào)用測試發(fā)展到包含多輪對話和多步驟評估邏輯的復(fù)雜系統(tǒng)。這種"實(shí)時(shí)更新"的基準(zhǔn)設(shè)計(jì)反映了一個重要趨勢：評估方法需要跟上AI能力的快速發(fā)展。

第三項(xiàng)能力是自我反思能力。這可能是最有趣也是最具挑戰(zhàn)性的能力評估。想象一個學(xué)生不僅能解數(shù)學(xué)題，還能檢查自己的答案是否正確，發(fā)現(xiàn)錯誤后能夠重新計(jì)算。這就是AI代理的自我反思能力。

早期的研究往往是間接測試這種能力的，比如給AI代理一些推理任務(wù)，然后提供外部反饋，看它們是否能根據(jù)反饋改進(jìn)答案。但這種方法有個問題：改進(jìn)可能只是由于特定的提示技巧，而不是真正的自我反思能力。

為了解決這個問題，研究者開發(fā)了專門的基準(zhǔn)如LLF-Bench。這個基準(zhǔn)就像是設(shè)計(jì)了一個"標(biāo)準(zhǔn)化的反思測試"，通過隨機(jī)化任務(wù)描述和反饋內(nèi)容來避免AI代理對特定環(huán)境的過度擬合。從認(rèn)知科學(xué)的角度，Reflection-Bench則將反思能力分解為多個組件，包括新信息的感知、記憶使用、信念更新等，就像分別測試一個人的各種思維技能一樣。

第四項(xiàng)基礎(chǔ)能力是記憶機(jī)制。這就像是給AI代理安裝了一個既有短期記憶又有長期記憶的系統(tǒng)。短期記憶用于處理當(dāng)前對話，長期記憶則用于記住重要的歷史信息和經(jīng)驗(yàn)。

傳統(tǒng)的AI模型就像是患有"健忘癥"的助手，每次對話都是全新開始。但現(xiàn)代的AI代理需要能夠記住用戶的偏好、之前的對話內(nèi)容，甚至是從過去的錯誤中學(xué)到的教訓(xùn)。

ReadAgent等研究展示了如何通過分組內(nèi)容、將情節(jié)壓縮為記憶、檢索相關(guān)段落等方式來構(gòu)建有效的記憶系統(tǒng)。這種方法在長文檔理解任務(wù)中表現(xiàn)出色，能夠在QUALITY、NarrativeQA等基準(zhǔn)上顯著提升性能。

更有挑戰(zhàn)性的是StreamBench，它測試AI代理如何利用外部記憶組件在持續(xù)學(xué)習(xí)中不斷改進(jìn)性能。這就像是測試一個員工是否能夠通過記錄和分析過去的工作經(jīng)驗(yàn)來提高未來的工作效率。

二、應(yīng)用場景專門化評估：四大應(yīng)用領(lǐng)域

除了基礎(chǔ)能力，研究團(tuán)隊(duì)還深入分析了AI代理在特定應(yīng)用場景中的評估方法。這些應(yīng)用場景就像是不同的"職業(yè)"，每個都需要特定的技能組合。

網(wǎng)絡(luò)代理評估是其中最直觀的一個領(lǐng)域。這些AI代理就像是能夠?yàn)g覽網(wǎng)頁、點(diǎn)擊按鈕、填寫表單的虛擬助手。想象你要求一個助手幫你在網(wǎng)上預(yù)訂機(jī)票或購買商品，它需要能夠理解網(wǎng)頁結(jié)構(gòu)、找到正確的按鈕、填寫必要信息，還要能夠處理各種意外情況。

早期的網(wǎng)絡(luò)代理評估相對簡單，使用的是MiniWob和MiniWoB++這樣的基礎(chǔ)模擬環(huán)境，就像是在游戲中練習(xí)基本操作。但現(xiàn)實(shí)世界的網(wǎng)頁要復(fù)雜得多，充滿了動態(tài)內(nèi)容、復(fù)雜的用戶界面和各種交互元素。

現(xiàn)代的評估基準(zhǔn)如WebArena和VisualWebArena更接近真實(shí)世界的復(fù)雜性。WebArena創(chuàng)建了一個包含多個真實(shí)網(wǎng)站的環(huán)境，代理需要在其中完成復(fù)雜的多步驟任務(wù)。VisualWebArena更進(jìn)一步，要求代理不僅理解文本，還要能夠處理視覺信息，比如識別圖標(biāo)、理解圖片內(nèi)容等。

WorkArena系列基準(zhǔn)模擬了辦公環(huán)境中的復(fù)雜任務(wù)，代理需要協(xié)調(diào)多個應(yīng)用程序來完成工作流程。這就像是測試一個辦公室助手是否能夠同時(shí)使用Word、Excel、郵件客戶端來完成一個項(xiàng)目報(bào)告。

軟件工程代理評估代表了另一個重要的應(yīng)用領(lǐng)域。這些AI代理就像是程序員，需要能夠理解代碼、修復(fù)bug、甚至編寫新的功能。這個領(lǐng)域的評估從早期的簡單編程題（如HumanEval）發(fā)展到了真實(shí)世界的軟件開發(fā)任務(wù)。

SWE-bench是這個領(lǐng)域的突破性基準(zhǔn)，它使用真實(shí)的GitHub問題作為測試案例。這就像是讓AI代理參與真實(shí)的軟件開發(fā)項(xiàng)目，需要它們理解問題描述、分析現(xiàn)有代碼、實(shí)施修復(fù)方案，并通過測試驗(yàn)證。這種評估方法的真實(shí)性是前所未有的，因?yàn)樗苯邮褂昧苏鎸?shí)軟件項(xiàng)目中的真實(shí)問題。

為了提高評估的可靠性，研究者開發(fā)了多個SWE-bench變體。SWE-bench Lite專注于300個精選的bug修復(fù)任務(wù)，過濾掉了需要復(fù)雜多文件編輯的任務(wù)。SWE-bench Verified只包含那些有清晰描述和強(qiáng)健測試用例的問題。SWE-bench+則解決了一些關(guān)鍵的評估缺陷，如解決方案泄露和測試用例不足等問題。

AgentBench為軟件工程代理提供了交互式評估框架，能夠評估代理在動態(tài)環(huán)境中的表現(xiàn)。而SWELancer則將評估與實(shí)際的經(jīng)濟(jì)價(jià)值聯(lián)系起來，通過自由職業(yè)編程任務(wù)來測試代理的能力，這種方法突出了在復(fù)雜真實(shí)場景中進(jìn)行長期推理和決策的挑戰(zhàn)。

科學(xué)研究代理評估是一個新興但極其重要的領(lǐng)域。這些AI代理被設(shè)計(jì)來協(xié)助甚至自主進(jìn)行科學(xué)研究，從文獻(xiàn)綜述到實(shí)驗(yàn)設(shè)計(jì)，從數(shù)據(jù)分析到論文寫作。

早期的科學(xué)代理評估主要關(guān)注科學(xué)知識的回憶和推理，如ARC、ScienceQA等基準(zhǔn)。但現(xiàn)代的評估更加關(guān)注科學(xué)研究的實(shí)際流程。比如，科學(xué)創(chuàng)意生成基準(zhǔn)評估AI代理是否能夠自主產(chǎn)生新穎的、專家級的研究想法。AAAR-1.0數(shù)據(jù)集則評估代理系統(tǒng)性規(guī)劃實(shí)驗(yàn)的能力，包括假設(shè)制定、方法選擇和實(shí)驗(yàn)程序設(shè)計(jì)。

代碼生成是科學(xué)研究中的重要環(huán)節(jié)，SciCode、ScienceAgentBench、SUPER、CORE-Bench等基準(zhǔn)專門測試代理是否能夠生成準(zhǔn)確、可執(zhí)行的科學(xué)計(jì)算代碼。這些基準(zhǔn)確保代碼不僅在語法上正確，還要符合科學(xué)協(xié)議的特定要求并保持計(jì)算準(zhǔn)確性。

一些研究甚至開始探索AI代理進(jìn)行同行評議的能力，測試它們是否能夠提供與人類評審員質(zhì)量相當(dāng)或更好的綜合性、實(shí)質(zhì)性反饋。

統(tǒng)一框架的發(fā)展是這個領(lǐng)域的另一個重要趨勢。AAAR-1.0評估代理在四個核心研究任務(wù)中的表現(xiàn)：方程推理、實(shí)驗(yàn)設(shè)計(jì)、論文弱點(diǎn)識別和評論批判。MLGym為AI研究任務(wù)引入了類似健身房的環(huán)境，涵蓋13個不同的挑戰(zhàn)，模擬真實(shí)的研究工作流程。DiscoveryWorld提供了一個虛擬的基于文本的環(huán)境，用于模擬120個不同任務(wù)的完整科學(xué)發(fā)現(xiàn)周期。

對話代理評估關(guān)注的是面向客戶的AI助手。這些代理需要處理用戶請求，同時(shí)遵守公司政策和程序。成功完成這類任務(wù)需要代理能夠進(jìn)行多輪、任務(wù)導(dǎo)向的對話，同時(shí)執(zhí)行涉及各種函數(shù)調(diào)用的操作序列。

傳統(tǒng)的評估方法是收集包含用戶和代理消息以及函數(shù)調(diào)用的真實(shí)對話軌跡，然后測試代理是否能夠在給定對話前綴的情況下預(yù)測下一步行動。更靈活的方法則同時(shí)模擬環(huán)境和用戶，評估代理將環(huán)境帶到期望狀態(tài)并向用戶傳達(dá)正確答案的能力。

ABCD數(shù)據(jù)集包含超過10,000個客戶-代理對話，涵蓋55個不同的用戶意圖，每個意圖都需要獨(dú)特的行動序列。MultiWOZ和SMCalFlow等基準(zhǔn)也為任務(wù)導(dǎo)向?qū)υ捥峁┝酥匾脑u估資源。

全自動化的測試生成是這個領(lǐng)域的新發(fā)展方向。研究者利用大語言模型在每個步驟中作為生成器，創(chuàng)建意圖集合、定義每個意圖應(yīng)如何被處理的程序、工具API，以及對話圖表。ALMITA基準(zhǔn)使用這種方法創(chuàng)建了包含14個意圖的192個對話的手動過濾基準(zhǔn)。

τ-Bench模擬了代理與LLM模擬用戶之間在航空和零售兩個客戶服務(wù)領(lǐng)域的動態(tài)對話。IntellAgent提供了一個開源框架，用于對話代理的自動基準(zhǔn)測試，能夠根據(jù)系統(tǒng)數(shù)據(jù)庫模式和公司政策文檔自動生成測試場景。

三、通用代理評估：綜合能力的全面考量

隨著AI代理從專門化應(yīng)用轉(zhuǎn)向更通用的能力，評估方法也需要相應(yīng)發(fā)展。通用代理評估就像是給AI代理舉辦"全能競賽"，測試它們在各種不同任務(wù)中的綜合表現(xiàn)。

第一類通用基準(zhǔn)關(guān)注的是強(qiáng)調(diào)多步推理、交互式問題解決和熟練工具使用的一般能力。GAIA基準(zhǔn)包含466個人工制作的真實(shí)世界問題，測試代理的推理、多模態(tài)理解、網(wǎng)絡(luò)導(dǎo)航和通用工具使用能力。這些問題的設(shè)計(jì)就像是復(fù)雜的謎題，需要代理綜合運(yùn)用多種技能才能解決。

伽利略代理排行榜專注于評估代理在真實(shí)應(yīng)用中執(zhí)行函數(shù)調(diào)用和API調(diào)用的能力，如數(shù)據(jù)庫查詢、在線計(jì)算器和網(wǎng)絡(luò)服務(wù)。AgentBench引入了一套交互式環(huán)境，包括操作系統(tǒng)命令、SQL數(shù)據(jù)庫、數(shù)字游戲和家庭任務(wù)，這些基準(zhǔn)共同突出了通用代理所需的核心能力：靈活性、多步推理和適應(yīng)性工具使用。

第二類評估關(guān)注代理在完整計(jì)算機(jī)操作環(huán)境中的表現(xiàn)。OSWorld、OmniACT和AppWorld等基準(zhǔn)測試代理是否能夠?qū)Ш秸鎸?shí)的計(jì)算機(jī)系統(tǒng)、執(zhí)行復(fù)雜任務(wù)并協(xié)調(diào)多個應(yīng)用程序的操作。在這些環(huán)境中，代理必須編寫和修改交互式代碼、處理復(fù)雜的控制流程，并確保強(qiáng)健的執(zhí)行而不會造成意外的系統(tǒng)更改。

這種評估特別有挑戰(zhàn)性，因?yàn)樗蟠聿粌H理解抽象的指令，還要能夠在具體的圖形用戶界面中進(jìn)行精確操作。代理需要識別屏幕上的元素、理解應(yīng)用程序的工作流程，并執(zhí)行一系列精確的鼠標(biāo)點(diǎn)擊和鍵盤輸入。

第三類基準(zhǔn)將評估擴(kuò)展到數(shù)字工作環(huán)境，在這些環(huán)境中代理必須管理類似人類員工的任務(wù)。TheAgentCompany創(chuàng)建了一個類似小型軟件公司的可擴(kuò)展環(huán)境，代理需要瀏覽內(nèi)部網(wǎng)站、編寫代碼、運(yùn)行程序并與同事溝通。這種評估模擬了真實(shí)工作場所的復(fù)雜性，包括團(tuán)隊(duì)協(xié)作、項(xiàng)目管理和多任務(wù)處理。

CRMArena專注于客戶關(guān)系管理，模擬了一個充滿關(guān)于賬戶、訂單、知識文章和案例相互關(guān)聯(lián)數(shù)據(jù)的大規(guī)模CRM環(huán)境。代理需要使用UI和API訪問執(zhí)行多步操作，遵守特定領(lǐng)域的政策，并整合各種信息片段來完成復(fù)雜的企業(yè)任務(wù)。

隨著基準(zhǔn)的多樣化，對統(tǒng)一平臺的需求也在增長。整體代理排行榜（HAL）作為標(biāo)準(zhǔn)化評估平臺，聚合了多個基準(zhǔn)，涵蓋編程、交互式應(yīng)用和安全評估。這種整合方法為代理能力提供了更全面的視角，避免了單一基準(zhǔn)可能存在的偏見。

四、評估框架與開發(fā)工具：構(gòu)建完整的生態(tài)系統(tǒng)

為了支持AI代理的開發(fā)和評估，研究社區(qū)開發(fā)了各種框架和工具。這些工具就像是給AI研究者和開發(fā)者提供的"工作臺"，讓他們能夠更好地測試和改進(jìn)自己的代理系統(tǒng)。

現(xiàn)代評估框架與早期的LLM應(yīng)用評估框架有顯著不同。早期框架主要關(guān)注模型通過單次調(diào)用完成任務(wù)的能力，而代理評估框架需要能夠處理多步推理、軌跡分析和特定的代理能力（如工具使用）。

這些框架支持多個層次的評估粒度。最終響應(yīng)評估關(guān)注代理的最終輸出質(zhì)量，通常使用基于LLM的評判器根據(jù)預(yù)定義標(biāo)準(zhǔn)評估代理響應(yīng)。一些平臺提供專有的評判模型，如Databricks Mosaic和PatronusAI，同時(shí)大多數(shù)平臺允許自定義評估指標(biāo)，支持特定領(lǐng)域的輸出質(zhì)量和相關(guān)性評估。

逐步評估支持對單個代理行動或LLM調(diào)用的細(xì)粒度評估，便于錯誤的根本原因分析。這包括使用預(yù)定義評判器評估文本輸出，以及通過將選擇的工具與給定步驟的預(yù)期工具進(jìn)行比較，或使用自動評判器驗(yàn)證工具選擇、參數(shù)和執(zhí)行輸出的正確性來評估工具選擇和執(zhí)行。

伽利略代理評估引入了行動推進(jìn)指標(biāo)，衡量每個步驟是否成功地為用戶定義的目標(biāo)做出貢獻(xiàn)或推進(jìn)。這種方法通過評估進(jìn)展而不是僅依賴二元成功/失敗結(jié)果來優(yōu)化逐步評估。

軌跡評估分析代理采取的步驟序列與預(yù)期最優(yōu)路徑的關(guān)系。這種方法特別適用于評估代理的決策過程，尤其是在工具選擇和排序方面。一些平臺如AgentEvals還支持圖評估，專門用于像LangGraph這樣將代理建模為圖的框架，通過評估代理是否遵循預(yù)期工作流程并正確調(diào)用適當(dāng)?shù)墓?jié)點(diǎn)和轉(zhuǎn)換來工作。

數(shù)據(jù)集管理是這些框架的關(guān)鍵方面。大多數(shù)框架提供集成的注釋工具，支持人在環(huán)路評估，從生產(chǎn)運(yùn)行中收集人類反饋以優(yōu)化模型配置。它們還能夠從生產(chǎn)日志中提取評估數(shù)據(jù)集，利用真實(shí)世界的交互來增強(qiáng)評估質(zhì)量。一些平臺如PatronusAI和Databricks Mosaic還便于使用專有種子數(shù)據(jù)進(jìn)行合成數(shù)據(jù)生成。

A/B比較功能是另一個重要特性。當(dāng)前的評估框架支持A/B比較，允許對至少兩個測試運(yùn)行的輸入、輸出和指標(biāo)進(jìn)行并排分析。一些框架還便于跨多個不同實(shí)驗(yàn)設(shè)置的多個運(yùn)行的聚合結(jié)果比較，并提供深入到單個軌跡的能力，識別特定的失敗點(diǎn)。

除了監(jiān)控和評估框架，研究社區(qū)還開發(fā)了健身房式環(huán)境，這些環(huán)境受到OpenAI Gym的啟發(fā)，為LLM代理提供可控的交互式設(shè)置。BrowserGym專門為網(wǎng)絡(luò)代理設(shè)計(jì)，MLGym專注于AI研究代理，SWE-Gym則針對軟件工程代理。這些環(huán)境使代理能夠與動態(tài)環(huán)境交互，支持跨各種基準(zhǔn)的標(biāo)準(zhǔn)化評估。

五、當(dāng)前趨勢與未來方向：評估領(lǐng)域的演進(jìn)

通過對整個領(lǐng)域的綜合分析，研究團(tuán)隊(duì)識別出了幾個重要的發(fā)展趨勢，這些趨勢正在塑造AI代理評估的未來。

現(xiàn)實(shí)化和挑戰(zhàn)性評估是最明顯的趨勢之一。早期的代理評估往往依賴簡化的靜態(tài)環(huán)境，但現(xiàn)在有一個明顯的轉(zhuǎn)向更準(zhǔn)確反映真實(shí)世界復(fù)雜性的基準(zhǔn)。在網(wǎng)絡(luò)代理評估中，我們看到了從基本模擬（如MiniWob）到動態(tài)在線環(huán)境（如WebArena和VisualWebArena）的轉(zhuǎn)變。在軟件工程領(lǐng)域，SWE-bench利用真實(shí)的GitHub問題，遠(yuǎn)超了合成編程問題的范圍。

這種向現(xiàn)實(shí)主義的轉(zhuǎn)變對于在真實(shí)場景中評估代理至關(guān)重要，能夠捕獲被簡單基準(zhǔn)遺漏的交互細(xì)節(jié)。像Natural Plan這樣的基準(zhǔn)通過整合來自Google Calendar和Maps等真實(shí)工具的模擬API結(jié)果，進(jìn)一步體現(xiàn)了這種對現(xiàn)實(shí)任務(wù)設(shè)置的追求。

同時(shí)，為了跟上日益強(qiáng)大的代理能力并確?；鶞?zhǔn)保持挑戰(zhàn)性，出現(xiàn)了向更大任務(wù)復(fù)雜性和難度的明顯趨勢。這在SWE-bench和SWELancer針對復(fù)雜編程任務(wù)、CORE-Bench針對科學(xué)計(jì)算可重現(xiàn)性、以及像GAIA和TheAgentCompany這樣的復(fù)雜通用代理基準(zhǔn)中都很明顯。這些基準(zhǔn)的一個關(guān)鍵難度指標(biāo)是最佳性能代理的低分?jǐn)?shù)，有時(shí)低至2%。這種增加的挑戰(zhàn)對于壓力測試代理、揭示限制并推動長期規(guī)劃、強(qiáng)健推理和工具使用的進(jìn)步至關(guān)重要。

實(shí)時(shí)基準(zhǔn)是應(yīng)對LLM和代理快速發(fā)展步伐的重要創(chuàng)新。靜態(tài)基準(zhǔn)可能隨著模型改進(jìn)而迅速過時(shí)，可能導(dǎo)致基準(zhǔn)飽和和區(qū)分系統(tǒng)能力的降低。BFCL的演變通過其多個版本（整合實(shí)時(shí)數(shù)據(jù)集、組織工具和多輪評估邏輯）來保持相關(guān)性，很好地展示了這種動態(tài)方法。

類似地，SWE-bench系列的持續(xù)改進(jìn)和變體創(chuàng)建（SWE-bench Lite、SWE-bench Verified、SWE-bench+）以及基于τ-Bench開發(fā)IntellAgent，都展示了持續(xù)努力增強(qiáng)和適應(yīng)代理基準(zhǔn)以滿足不斷變化的評估需求。這種動態(tài)方法對于在這個快速發(fā)展的領(lǐng)域中維持基準(zhǔn)的相關(guān)性至關(guān)重要。

在新興方向方面，細(xì)粒度評估的發(fā)展是一個重要趨勢。許多當(dāng)前基準(zhǔn)依賴粗粒度的端到端成功指標(biāo)，雖然對于衡量整體性能有用，但在診斷特定代理失敗方面存在不足。這種粒度不足掩蓋了對中間決策過程（如工具選擇和推理質(zhì)量）的洞察。

解決這一限制需要開發(fā)標(biāo)準(zhǔn)化的細(xì)粒度評估指標(biāo)，捕獲代理任務(wù)執(zhí)行的軌跡。像WebCanvas和LangSmith、伽利略代理評估這樣的框架中出現(xiàn)的詳細(xì)逐步評估，為提供更豐富的反饋和指導(dǎo)有針對性的改進(jìn)提供了有前景的方向。

成本和效率指標(biāo)的整合是另一個重要的新興方向。如Kapoor等人所觀察到的，當(dāng)前評估往往優(yōu)先考慮準(zhǔn)確性而忽視成本和效率測量。這種重點(diǎn)可能無意中推動了高能力但資源密集型代理的開發(fā)，限制了它們的實(shí)際部署。

未來的評估框架應(yīng)該將成本效率作為核心指標(biāo)，跟蹤諸如令牌使用、API費(fèi)用、推理時(shí)間和整體資源消耗等因素。建立標(biāo)準(zhǔn)化成本指標(biāo)將幫助指導(dǎo)能夠平衡性能與運(yùn)營可行性的代理開發(fā)。

擴(kuò)展和自動化是解決當(dāng)前評估限制的關(guān)鍵方向。依賴靜態(tài)人工注釋評估帶來了顯著的可擴(kuò)展性挑戰(zhàn)，因?yàn)檫@些方法可能資源密集且在快速發(fā)展的領(lǐng)域中很快過時(shí)。這一缺陷強(qiáng)調(diào)了對可擴(kuò)展、自動化評估方法的需求。

未來方向包括利用合成數(shù)據(jù)生成技術(shù)創(chuàng)建多樣化和現(xiàn)實(shí)的任務(wù)場景，如IntellAgent和Mosaic AI代理評估等努力所示。另一個途徑是通過使用基于LLM的代理作為評估者來自動化評估，稱為"代理即評判"。正如Zhuge等人所強(qiáng)調(diào)的，這種方法不僅減少了對資源密集型人工注釋的依賴，還有可能通過代理評估過程捕獲代理性能的更細(xì)致方面。

安全和合規(guī)性是當(dāng)前基準(zhǔn)中的一個顯著缺陷。雖然像AgentHarm和ST-WebAgentBench這樣的早期努力已經(jīng)開始解決這些維度，但評估仍然缺乏對抗對抗性輸入的強(qiáng)健性、偏見緩解以及組織和社會政策合規(guī)性的全面測試。

未來研究應(yīng)該優(yōu)先開發(fā)多維度安全基準(zhǔn)，模擬真實(shí)場景，特別是在多代理場景中可能出現(xiàn)新興風(fēng)險(xiǎn)的情況。這將確保代理不僅有效，而且安全可靠。

總體而言，AI代理評估領(lǐng)域正在經(jīng)歷快速演變，從簡單的靜態(tài)測試轉(zhuǎn)向復(fù)雜的動態(tài)評估生態(tài)系統(tǒng)。這些發(fā)展反映了代理能力的進(jìn)步以及對更全面、現(xiàn)實(shí)和可擴(kuò)展評估方法的需求。隨著代理系統(tǒng)變得更加復(fù)雜和廣泛部署，評估方法的持續(xù)創(chuàng)新對于確保這些系統(tǒng)的負(fù)責(zé)任開發(fā)和有效應(yīng)用至關(guān)重要。

說到底，這項(xiàng)研究為我們提供了一張?jiān)敿?xì)的地圖，顯示了當(dāng)前AI代理評估領(lǐng)域的全貌。它不僅總結(jié)了現(xiàn)有的方法和工具，還指出了未來發(fā)展的方向。對于研究者、開發(fā)者和決策者來說，這項(xiàng)研究提供了寶貴的指導(dǎo)，幫助他們在這個快速發(fā)展的領(lǐng)域中做出明智的選擇。

隨著AI代理變得越來越強(qiáng)大和普及，如何準(zhǔn)確評估它們的能力將變得越來越重要。這不僅關(guān)系到技術(shù)的發(fā)展，也關(guān)系到這些技術(shù)如何安全、有效地為人類社會服務(wù)。這項(xiàng)研究為這個重要課題提供了堅(jiān)實(shí)的基礎(chǔ)，為未來的研究和應(yīng)用指明了方向。

Q&A

Q1：什么是大語言模型智能代理？它們與普通的AI聊天機(jī)器人有什么區(qū)別？ A：大語言模型智能代理是基于大語言模型的高級AI系統(tǒng)，它們不僅能理解和生成文本，還能制定計(jì)劃、使用外部工具、與環(huán)境交互、從錯誤中學(xué)習(xí)并保持記憶。與簡單的問答式聊天機(jī)器人不同，這些代理能夠執(zhí)行復(fù)雜的多步驟任務(wù)，就像一個能夠自主工作的智能助手。

Q2：為什么需要專門的評估方法來測試AI代理？傳統(tǒng)的AI測試方法不夠用嗎？ A：傳統(tǒng)的AI評估方法主要針對單次問答交互，就像用小學(xué)數(shù)學(xué)題測試大學(xué)生能力一樣不夠用。AI代理需要進(jìn)行多步推理、工具使用、環(huán)境交互等復(fù)雜操作，因此需要能夠評估規(guī)劃能力、工具使用、自我反思和記憶管理等多維度能力的新評估框架。

Q3：目前AI代理評估面臨哪些主要挑戰(zhàn)？ A：主要挑戰(zhàn)包括：評估方法過于粗糙，難以診斷具體問題；缺乏成本效率考量；靜態(tài)基準(zhǔn)容易過時(shí)；安全性和合規(guī)性測試不足；人工評估成本高、擴(kuò)展性差。研究團(tuán)隊(duì)指出，未來需要發(fā)展更細(xì)粒度、自動化、動態(tài)更新的評估方法。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.