夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球頂尖研究機(jī)構(gòu)首次繪制AI代理能力地圖

0
分享至



這項(xiàng)由希伯來大學(xué)的Asaf Yehudai、IBM研究院的Lilach Eden等人以及耶魯大學(xué)的Alan Li等研究者共同完成的綜合性研究,發(fā)表于2025年3月,為我們呈現(xiàn)了當(dāng)前大語言模型智能代理評估領(lǐng)域的完整畫卷。有興趣深入了解的讀者可以通過arXiv:2503.16416v1訪問完整論文。

想象一下,如果你有一個非常聰明的助手,它不僅能理解你說的話,還能幫你制定計(jì)劃、使用各種工具、從錯誤中學(xué)習(xí),甚至記住之前發(fā)生的事情。這樣的助手就是我們今天要討論的"大語言模型智能代理"。這些AI助手已經(jīng)從簡單的問答機(jī)器人進(jìn)化成了能夠在復(fù)雜環(huán)境中自主工作的智能系統(tǒng)。

然而,正如我們評判一個人的能力需要通過考試和實(shí)際表現(xiàn)一樣,評估這些AI代理的能力也需要專門的測試方法。這正是這項(xiàng)研究要解決的核心問題:如何科學(xué)、全面地評估這些越來越聰明的AI代理?

研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的AI評估方法就像用小學(xué)數(shù)學(xué)題來測試大學(xué)生的能力一樣不夠用了。因?yàn)檫@些新的AI代理不再是簡單的"一問一答"模式,而是能夠進(jìn)行多步驟思考、使用外部工具、與環(huán)境互動的復(fù)雜系統(tǒng)。這就需要全新的評估框架和方法。

這項(xiàng)研究的創(chuàng)新之處在于,它首次系統(tǒng)性地梳理了整個AI代理評估領(lǐng)域的現(xiàn)狀,就像繪制了一張?jiān)敿?xì)的地圖,告訴我們目前有哪些評估方法、各自的優(yōu)缺點(diǎn),以及未來的發(fā)展方向。研究團(tuán)隊(duì)分析了數(shù)百個評估基準(zhǔn)和框架,涵蓋了從基礎(chǔ)能力測試到具體應(yīng)用場景的各個方面。

一、智能代理的核心能力評估:四大基石能力

研究團(tuán)隊(duì)首先關(guān)注的是AI代理的四項(xiàng)基礎(chǔ)能力,這些能力就像是建筑的地基一樣重要。

第一項(xiàng)能力是規(guī)劃和多步推理能力。這就像是讓AI代理學(xué)會做飯一樣,不是簡單地告訴它"做個西紅柿炒蛋",而是要求它能夠分解任務(wù):先準(zhǔn)備食材、再打蛋、熱鍋、炒制、調(diào)味、裝盤。每一步都要考慮到前面步驟的結(jié)果,還要能夠根據(jù)實(shí)際情況調(diào)整后續(xù)步驟。

研究團(tuán)隊(duì)發(fā)現(xiàn),目前用于測試這種能力的基準(zhǔn)包括數(shù)學(xué)推理任務(wù)(如GSM8K和MATH)、多跳問答任務(wù)(如HotpotQA和StrategyQA)等。這些測試就像是給AI代理出的"應(yīng)用題",需要它們通過多個步驟才能得出答案。比如HotpotQA會問"誰是《哈利波特》作者的丈夫的職業(yè)?"這需要AI代理先找到作者是J.K.羅琳,再找到她的丈夫,最后確定他的職業(yè)。

特別值得注意的是一些專門針對規(guī)劃能力的新基準(zhǔn)。PlanBench就像是給AI代理設(shè)計(jì)的"策略游戲",測試它們在不同領(lǐng)域的規(guī)劃能力。研究發(fā)現(xiàn),即使是最先進(jìn)的AI代理,在長期規(guī)劃方面仍然表現(xiàn)不佳,特別是當(dāng)任務(wù)變得復(fù)雜時(shí),它們往往在策略性長期規(guī)劃上落后于傳統(tǒng)的符號規(guī)劃器。

第二項(xiàng)核心能力是工具使用和函數(shù)調(diào)用。這就像是給AI代理配備了一個工具箱,里面有計(jì)算器、搜索引擎、數(shù)據(jù)庫查詢工具等各種工具。AI代理需要知道什么時(shí)候使用哪個工具,如何正確地使用它們,以及如何處理工具返回的結(jié)果。

早期的評估方法比較簡單,就像測試一個人是否會使用錘子釘釘子一樣直接。但現(xiàn)實(shí)應(yīng)用中的工具使用要復(fù)雜得多?,F(xiàn)代的評估基準(zhǔn)如ToolSandbox引入了"有狀態(tài)的工具執(zhí)行"概念,這意味著使用一個工具的結(jié)果會影響到下一個工具的使用,就像烹飪過程中每一步都會影響下一步的操作一樣。

伯克利函數(shù)調(diào)用排行榜(BFCL)是這個領(lǐng)域的重要里程碑,它不斷演進(jìn),從最初的簡單函數(shù)調(diào)用測試發(fā)展到包含多輪對話和多步驟評估邏輯的復(fù)雜系統(tǒng)。這種"實(shí)時(shí)更新"的基準(zhǔn)設(shè)計(jì)反映了一個重要趨勢:評估方法需要跟上AI能力的快速發(fā)展。

第三項(xiàng)能力是自我反思能力。這可能是最有趣也是最具挑戰(zhàn)性的能力評估。想象一個學(xué)生不僅能解數(shù)學(xué)題,還能檢查自己的答案是否正確,發(fā)現(xiàn)錯誤后能夠重新計(jì)算。這就是AI代理的自我反思能力。

早期的研究往往是間接測試這種能力的,比如給AI代理一些推理任務(wù),然后提供外部反饋,看它們是否能根據(jù)反饋改進(jìn)答案。但這種方法有個問題:改進(jìn)可能只是由于特定的提示技巧,而不是真正的自我反思能力。

為了解決這個問題,研究者開發(fā)了專門的基準(zhǔn)如LLF-Bench。這個基準(zhǔn)就像是設(shè)計(jì)了一個"標(biāo)準(zhǔn)化的反思測試",通過隨機(jī)化任務(wù)描述和反饋內(nèi)容來避免AI代理對特定環(huán)境的過度擬合。從認(rèn)知科學(xué)的角度,Reflection-Bench則將反思能力分解為多個組件,包括新信息的感知、記憶使用、信念更新等,就像分別測試一個人的各種思維技能一樣。

第四項(xiàng)基礎(chǔ)能力是記憶機(jī)制。這就像是給AI代理安裝了一個既有短期記憶又有長期記憶的系統(tǒng)。短期記憶用于處理當(dāng)前對話,長期記憶則用于記住重要的歷史信息和經(jīng)驗(yàn)。

傳統(tǒng)的AI模型就像是患有"健忘癥"的助手,每次對話都是全新開始。但現(xiàn)代的AI代理需要能夠記住用戶的偏好、之前的對話內(nèi)容,甚至是從過去的錯誤中學(xué)到的教訓(xùn)。

ReadAgent等研究展示了如何通過分組內(nèi)容、將情節(jié)壓縮為記憶、檢索相關(guān)段落等方式來構(gòu)建有效的記憶系統(tǒng)。這種方法在長文檔理解任務(wù)中表現(xiàn)出色,能夠在QUALITY、NarrativeQA等基準(zhǔn)上顯著提升性能。

更有挑戰(zhàn)性的是StreamBench,它測試AI代理如何利用外部記憶組件在持續(xù)學(xué)習(xí)中不斷改進(jìn)性能。這就像是測試一個員工是否能夠通過記錄和分析過去的工作經(jīng)驗(yàn)來提高未來的工作效率。

二、應(yīng)用場景專門化評估:四大應(yīng)用領(lǐng)域

除了基礎(chǔ)能力,研究團(tuán)隊(duì)還深入分析了AI代理在特定應(yīng)用場景中的評估方法。這些應(yīng)用場景就像是不同的"職業(yè)",每個都需要特定的技能組合。

網(wǎng)絡(luò)代理評估是其中最直觀的一個領(lǐng)域。這些AI代理就像是能夠?yàn)g覽網(wǎng)頁、點(diǎn)擊按鈕、填寫表單的虛擬助手。想象你要求一個助手幫你在網(wǎng)上預(yù)訂機(jī)票或購買商品,它需要能夠理解網(wǎng)頁結(jié)構(gòu)、找到正確的按鈕、填寫必要信息,還要能夠處理各種意外情況。

早期的網(wǎng)絡(luò)代理評估相對簡單,使用的是MiniWob和MiniWoB++這樣的基礎(chǔ)模擬環(huán)境,就像是在游戲中練習(xí)基本操作。但現(xiàn)實(shí)世界的網(wǎng)頁要復(fù)雜得多,充滿了動態(tài)內(nèi)容、復(fù)雜的用戶界面和各種交互元素。

現(xiàn)代的評估基準(zhǔn)如WebArena和VisualWebArena更接近真實(shí)世界的復(fù)雜性。WebArena創(chuàng)建了一個包含多個真實(shí)網(wǎng)站的環(huán)境,代理需要在其中完成復(fù)雜的多步驟任務(wù)。VisualWebArena更進(jìn)一步,要求代理不僅理解文本,還要能夠處理視覺信息,比如識別圖標(biāo)、理解圖片內(nèi)容等。

WorkArena系列基準(zhǔn)模擬了辦公環(huán)境中的復(fù)雜任務(wù),代理需要協(xié)調(diào)多個應(yīng)用程序來完成工作流程。這就像是測試一個辦公室助手是否能夠同時(shí)使用Word、Excel、郵件客戶端來完成一個項(xiàng)目報(bào)告。

軟件工程代理評估代表了另一個重要的應(yīng)用領(lǐng)域。這些AI代理就像是程序員,需要能夠理解代碼、修復(fù)bug、甚至編寫新的功能。這個領(lǐng)域的評估從早期的簡單編程題(如HumanEval)發(fā)展到了真實(shí)世界的軟件開發(fā)任務(wù)。

SWE-bench是這個領(lǐng)域的突破性基準(zhǔn),它使用真實(shí)的GitHub問題作為測試案例。這就像是讓AI代理參與真實(shí)的軟件開發(fā)項(xiàng)目,需要它們理解問題描述、分析現(xiàn)有代碼、實(shí)施修復(fù)方案,并通過測試驗(yàn)證。這種評估方法的真實(shí)性是前所未有的,因?yàn)樗苯邮褂昧苏鎸?shí)軟件項(xiàng)目中的真實(shí)問題。

為了提高評估的可靠性,研究者開發(fā)了多個SWE-bench變體。SWE-bench Lite專注于300個精選的bug修復(fù)任務(wù),過濾掉了需要復(fù)雜多文件編輯的任務(wù)。SWE-bench Verified只包含那些有清晰描述和強(qiáng)健測試用例的問題。SWE-bench+則解決了一些關(guān)鍵的評估缺陷,如解決方案泄露和測試用例不足等問題。

AgentBench為軟件工程代理提供了交互式評估框架,能夠評估代理在動態(tài)環(huán)境中的表現(xiàn)。而SWELancer則將評估與實(shí)際的經(jīng)濟(jì)價(jià)值聯(lián)系起來,通過自由職業(yè)編程任務(wù)來測試代理的能力,這種方法突出了在復(fù)雜真實(shí)場景中進(jìn)行長期推理和決策的挑戰(zhàn)。

科學(xué)研究代理評估是一個新興但極其重要的領(lǐng)域。這些AI代理被設(shè)計(jì)來協(xié)助甚至自主進(jìn)行科學(xué)研究,從文獻(xiàn)綜述到實(shí)驗(yàn)設(shè)計(jì),從數(shù)據(jù)分析到論文寫作。

早期的科學(xué)代理評估主要關(guān)注科學(xué)知識的回憶和推理,如ARC、ScienceQA等基準(zhǔn)。但現(xiàn)代的評估更加關(guān)注科學(xué)研究的實(shí)際流程。比如,科學(xué)創(chuàng)意生成基準(zhǔn)評估AI代理是否能夠自主產(chǎn)生新穎的、專家級的研究想法。AAAR-1.0數(shù)據(jù)集則評估代理系統(tǒng)性規(guī)劃實(shí)驗(yàn)的能力,包括假設(shè)制定、方法選擇和實(shí)驗(yàn)程序設(shè)計(jì)。

代碼生成是科學(xué)研究中的重要環(huán)節(jié),SciCode、ScienceAgentBench、SUPER、CORE-Bench等基準(zhǔn)專門測試代理是否能夠生成準(zhǔn)確、可執(zhí)行的科學(xué)計(jì)算代碼。這些基準(zhǔn)確保代碼不僅在語法上正確,還要符合科學(xué)協(xié)議的特定要求并保持計(jì)算準(zhǔn)確性。

一些研究甚至開始探索AI代理進(jìn)行同行評議的能力,測試它們是否能夠提供與人類評審員質(zhì)量相當(dāng)或更好的綜合性、實(shí)質(zhì)性反饋。

統(tǒng)一框架的發(fā)展是這個領(lǐng)域的另一個重要趨勢。AAAR-1.0評估代理在四個核心研究任務(wù)中的表現(xiàn):方程推理、實(shí)驗(yàn)設(shè)計(jì)、論文弱點(diǎn)識別和評論批判。MLGym為AI研究任務(wù)引入了類似健身房的環(huán)境,涵蓋13個不同的挑戰(zhàn),模擬真實(shí)的研究工作流程。DiscoveryWorld提供了一個虛擬的基于文本的環(huán)境,用于模擬120個不同任務(wù)的完整科學(xué)發(fā)現(xiàn)周期。

對話代理評估關(guān)注的是面向客戶的AI助手。這些代理需要處理用戶請求,同時(shí)遵守公司政策和程序。成功完成這類任務(wù)需要代理能夠進(jìn)行多輪、任務(wù)導(dǎo)向的對話,同時(shí)執(zhí)行涉及各種函數(shù)調(diào)用的操作序列。

傳統(tǒng)的評估方法是收集包含用戶和代理消息以及函數(shù)調(diào)用的真實(shí)對話軌跡,然后測試代理是否能夠在給定對話前綴的情況下預(yù)測下一步行動。更靈活的方法則同時(shí)模擬環(huán)境和用戶,評估代理將環(huán)境帶到期望狀態(tài)并向用戶傳達(dá)正確答案的能力。

ABCD數(shù)據(jù)集包含超過10,000個客戶-代理對話,涵蓋55個不同的用戶意圖,每個意圖都需要獨(dú)特的行動序列。MultiWOZ和SMCalFlow等基準(zhǔn)也為任務(wù)導(dǎo)向?qū)υ捥峁┝酥匾脑u估資源。

全自動化的測試生成是這個領(lǐng)域的新發(fā)展方向。研究者利用大語言模型在每個步驟中作為生成器,創(chuàng)建意圖集合、定義每個意圖應(yīng)如何被處理的程序、工具API,以及對話圖表。ALMITA基準(zhǔn)使用這種方法創(chuàng)建了包含14個意圖的192個對話的手動過濾基準(zhǔn)。

τ-Bench模擬了代理與LLM模擬用戶之間在航空和零售兩個客戶服務(wù)領(lǐng)域的動態(tài)對話。IntellAgent提供了一個開源框架,用于對話代理的自動基準(zhǔn)測試,能夠根據(jù)系統(tǒng)數(shù)據(jù)庫模式和公司政策文檔自動生成測試場景。

三、通用代理評估:綜合能力的全面考量

隨著AI代理從專門化應(yīng)用轉(zhuǎn)向更通用的能力,評估方法也需要相應(yīng)發(fā)展。通用代理評估就像是給AI代理舉辦"全能競賽",測試它們在各種不同任務(wù)中的綜合表現(xiàn)。

第一類通用基準(zhǔn)關(guān)注的是強(qiáng)調(diào)多步推理、交互式問題解決和熟練工具使用的一般能力。GAIA基準(zhǔn)包含466個人工制作的真實(shí)世界問題,測試代理的推理、多模態(tài)理解、網(wǎng)絡(luò)導(dǎo)航和通用工具使用能力。這些問題的設(shè)計(jì)就像是復(fù)雜的謎題,需要代理綜合運(yùn)用多種技能才能解決。

伽利略代理排行榜專注于評估代理在真實(shí)應(yīng)用中執(zhí)行函數(shù)調(diào)用和API調(diào)用的能力,如數(shù)據(jù)庫查詢、在線計(jì)算器和網(wǎng)絡(luò)服務(wù)。AgentBench引入了一套交互式環(huán)境,包括操作系統(tǒng)命令、SQL數(shù)據(jù)庫、數(shù)字游戲和家庭任務(wù),這些基準(zhǔn)共同突出了通用代理所需的核心能力:靈活性、多步推理和適應(yīng)性工具使用。

第二類評估關(guān)注代理在完整計(jì)算機(jī)操作環(huán)境中的表現(xiàn)。OSWorld、OmniACT和AppWorld等基準(zhǔn)測試代理是否能夠?qū)Ш秸鎸?shí)的計(jì)算機(jī)系統(tǒng)、執(zhí)行復(fù)雜任務(wù)并協(xié)調(diào)多個應(yīng)用程序的操作。在這些環(huán)境中,代理必須編寫和修改交互式代碼、處理復(fù)雜的控制流程,并確保強(qiáng)健的執(zhí)行而不會造成意外的系統(tǒng)更改。

這種評估特別有挑戰(zhàn)性,因?yàn)樗蟠聿粌H理解抽象的指令,還要能夠在具體的圖形用戶界面中進(jìn)行精確操作。代理需要識別屏幕上的元素、理解應(yīng)用程序的工作流程,并執(zhí)行一系列精確的鼠標(biāo)點(diǎn)擊和鍵盤輸入。

第三類基準(zhǔn)將評估擴(kuò)展到數(shù)字工作環(huán)境,在這些環(huán)境中代理必須管理類似人類員工的任務(wù)。TheAgentCompany創(chuàng)建了一個類似小型軟件公司的可擴(kuò)展環(huán)境,代理需要瀏覽內(nèi)部網(wǎng)站、編寫代碼、運(yùn)行程序并與同事溝通。這種評估模擬了真實(shí)工作場所的復(fù)雜性,包括團(tuán)隊(duì)協(xié)作、項(xiàng)目管理和多任務(wù)處理。

CRMArena專注于客戶關(guān)系管理,模擬了一個充滿關(guān)于賬戶、訂單、知識文章和案例相互關(guān)聯(lián)數(shù)據(jù)的大規(guī)模CRM環(huán)境。代理需要使用UI和API訪問執(zhí)行多步操作,遵守特定領(lǐng)域的政策,并整合各種信息片段來完成復(fù)雜的企業(yè)任務(wù)。

隨著基準(zhǔn)的多樣化,對統(tǒng)一平臺的需求也在增長。整體代理排行榜(HAL)作為標(biāo)準(zhǔn)化評估平臺,聚合了多個基準(zhǔn),涵蓋編程、交互式應(yīng)用和安全評估。這種整合方法為代理能力提供了更全面的視角,避免了單一基準(zhǔn)可能存在的偏見。

四、評估框架與開發(fā)工具:構(gòu)建完整的生態(tài)系統(tǒng)

為了支持AI代理的開發(fā)和評估,研究社區(qū)開發(fā)了各種框架和工具。這些工具就像是給AI研究者和開發(fā)者提供的"工作臺",讓他們能夠更好地測試和改進(jìn)自己的代理系統(tǒng)。

現(xiàn)代評估框架與早期的LLM應(yīng)用評估框架有顯著不同。早期框架主要關(guān)注模型通過單次調(diào)用完成任務(wù)的能力,而代理評估框架需要能夠處理多步推理、軌跡分析和特定的代理能力(如工具使用)。

這些框架支持多個層次的評估粒度。最終響應(yīng)評估關(guān)注代理的最終輸出質(zhì)量,通常使用基于LLM的評判器根據(jù)預(yù)定義標(biāo)準(zhǔn)評估代理響應(yīng)。一些平臺提供專有的評判模型,如Databricks Mosaic和PatronusAI,同時(shí)大多數(shù)平臺允許自定義評估指標(biāo),支持特定領(lǐng)域的輸出質(zhì)量和相關(guān)性評估。

逐步評估支持對單個代理行動或LLM調(diào)用的細(xì)粒度評估,便于錯誤的根本原因分析。這包括使用預(yù)定義評判器評估文本輸出,以及通過將選擇的工具與給定步驟的預(yù)期工具進(jìn)行比較,或使用自動評判器驗(yàn)證工具選擇、參數(shù)和執(zhí)行輸出的正確性來評估工具選擇和執(zhí)行。

伽利略代理評估引入了行動推進(jìn)指標(biāo),衡量每個步驟是否成功地為用戶定義的目標(biāo)做出貢獻(xiàn)或推進(jìn)。這種方法通過評估進(jìn)展而不是僅依賴二元成功/失敗結(jié)果來優(yōu)化逐步評估。

軌跡評估分析代理采取的步驟序列與預(yù)期最優(yōu)路徑的關(guān)系。這種方法特別適用于評估代理的決策過程,尤其是在工具選擇和排序方面。一些平臺如AgentEvals還支持圖評估,專門用于像LangGraph這樣將代理建模為圖的框架,通過評估代理是否遵循預(yù)期工作流程并正確調(diào)用適當(dāng)?shù)墓?jié)點(diǎn)和轉(zhuǎn)換來工作。

數(shù)據(jù)集管理是這些框架的關(guān)鍵方面。大多數(shù)框架提供集成的注釋工具,支持人在環(huán)路評估,從生產(chǎn)運(yùn)行中收集人類反饋以優(yōu)化模型配置。它們還能夠從生產(chǎn)日志中提取評估數(shù)據(jù)集,利用真實(shí)世界的交互來增強(qiáng)評估質(zhì)量。一些平臺如PatronusAI和Databricks Mosaic還便于使用專有種子數(shù)據(jù)進(jìn)行合成數(shù)據(jù)生成。

A/B比較功能是另一個重要特性。當(dāng)前的評估框架支持A/B比較,允許對至少兩個測試運(yùn)行的輸入、輸出和指標(biāo)進(jìn)行并排分析。一些框架還便于跨多個不同實(shí)驗(yàn)設(shè)置的多個運(yùn)行的聚合結(jié)果比較,并提供深入到單個軌跡的能力,識別特定的失敗點(diǎn)。

除了監(jiān)控和評估框架,研究社區(qū)還開發(fā)了健身房式環(huán)境,這些環(huán)境受到OpenAI Gym的啟發(fā),為LLM代理提供可控的交互式設(shè)置。BrowserGym專門為網(wǎng)絡(luò)代理設(shè)計(jì),MLGym專注于AI研究代理,SWE-Gym則針對軟件工程代理。這些環(huán)境使代理能夠與動態(tài)環(huán)境交互,支持跨各種基準(zhǔn)的標(biāo)準(zhǔn)化評估。

五、當(dāng)前趨勢與未來方向:評估領(lǐng)域的演進(jìn)

通過對整個領(lǐng)域的綜合分析,研究團(tuán)隊(duì)識別出了幾個重要的發(fā)展趨勢,這些趨勢正在塑造AI代理評估的未來。

現(xiàn)實(shí)化和挑戰(zhàn)性評估是最明顯的趨勢之一。早期的代理評估往往依賴簡化的靜態(tài)環(huán)境,但現(xiàn)在有一個明顯的轉(zhuǎn)向更準(zhǔn)確反映真實(shí)世界復(fù)雜性的基準(zhǔn)。在網(wǎng)絡(luò)代理評估中,我們看到了從基本模擬(如MiniWob)到動態(tài)在線環(huán)境(如WebArena和VisualWebArena)的轉(zhuǎn)變。在軟件工程領(lǐng)域,SWE-bench利用真實(shí)的GitHub問題,遠(yuǎn)超了合成編程問題的范圍。

這種向現(xiàn)實(shí)主義的轉(zhuǎn)變對于在真實(shí)場景中評估代理至關(guān)重要,能夠捕獲被簡單基準(zhǔn)遺漏的交互細(xì)節(jié)。像Natural Plan這樣的基準(zhǔn)通過整合來自Google Calendar和Maps等真實(shí)工具的模擬API結(jié)果,進(jìn)一步體現(xiàn)了這種對現(xiàn)實(shí)任務(wù)設(shè)置的追求。

同時(shí),為了跟上日益強(qiáng)大的代理能力并確?;鶞?zhǔn)保持挑戰(zhàn)性,出現(xiàn)了向更大任務(wù)復(fù)雜性和難度的明顯趨勢。這在SWE-bench和SWELancer針對復(fù)雜編程任務(wù)、CORE-Bench針對科學(xué)計(jì)算可重現(xiàn)性、以及像GAIA和TheAgentCompany這樣的復(fù)雜通用代理基準(zhǔn)中都很明顯。這些基準(zhǔn)的一個關(guān)鍵難度指標(biāo)是最佳性能代理的低分?jǐn)?shù),有時(shí)低至2%。這種增加的挑戰(zhàn)對于壓力測試代理、揭示限制并推動長期規(guī)劃、強(qiáng)健推理和工具使用的進(jìn)步至關(guān)重要。

實(shí)時(shí)基準(zhǔn)是應(yīng)對LLM和代理快速發(fā)展步伐的重要創(chuàng)新。靜態(tài)基準(zhǔn)可能隨著模型改進(jìn)而迅速過時(shí),可能導(dǎo)致基準(zhǔn)飽和和區(qū)分系統(tǒng)能力的降低。BFCL的演變通過其多個版本(整合實(shí)時(shí)數(shù)據(jù)集、組織工具和多輪評估邏輯)來保持相關(guān)性,很好地展示了這種動態(tài)方法。

類似地,SWE-bench系列的持續(xù)改進(jìn)和變體創(chuàng)建(SWE-bench Lite、SWE-bench Verified、SWE-bench+)以及基于τ-Bench開發(fā)IntellAgent,都展示了持續(xù)努力增強(qiáng)和適應(yīng)代理基準(zhǔn)以滿足不斷變化的評估需求。這種動態(tài)方法對于在這個快速發(fā)展的領(lǐng)域中維持基準(zhǔn)的相關(guān)性至關(guān)重要。

在新興方向方面,細(xì)粒度評估的發(fā)展是一個重要趨勢。許多當(dāng)前基準(zhǔn)依賴粗粒度的端到端成功指標(biāo),雖然對于衡量整體性能有用,但在診斷特定代理失敗方面存在不足。這種粒度不足掩蓋了對中間決策過程(如工具選擇和推理質(zhì)量)的洞察。

解決這一限制需要開發(fā)標(biāo)準(zhǔn)化的細(xì)粒度評估指標(biāo),捕獲代理任務(wù)執(zhí)行的軌跡。像WebCanvas和LangSmith、伽利略代理評估這樣的框架中出現(xiàn)的詳細(xì)逐步評估,為提供更豐富的反饋和指導(dǎo)有針對性的改進(jìn)提供了有前景的方向。

成本和效率指標(biāo)的整合是另一個重要的新興方向。如Kapoor等人所觀察到的,當(dāng)前評估往往優(yōu)先考慮準(zhǔn)確性而忽視成本和效率測量。這種重點(diǎn)可能無意中推動了高能力但資源密集型代理的開發(fā),限制了它們的實(shí)際部署。

未來的評估框架應(yīng)該將成本效率作為核心指標(biāo),跟蹤諸如令牌使用、API費(fèi)用、推理時(shí)間和整體資源消耗等因素。建立標(biāo)準(zhǔn)化成本指標(biāo)將幫助指導(dǎo)能夠平衡性能與運(yùn)營可行性的代理開發(fā)。

擴(kuò)展和自動化是解決當(dāng)前評估限制的關(guān)鍵方向。依賴靜態(tài)人工注釋評估帶來了顯著的可擴(kuò)展性挑戰(zhàn),因?yàn)檫@些方法可能資源密集且在快速發(fā)展的領(lǐng)域中很快過時(shí)。這一缺陷強(qiáng)調(diào)了對可擴(kuò)展、自動化評估方法的需求。

未來方向包括利用合成數(shù)據(jù)生成技術(shù)創(chuàng)建多樣化和現(xiàn)實(shí)的任務(wù)場景,如IntellAgent和Mosaic AI代理評估等努力所示。另一個途徑是通過使用基于LLM的代理作為評估者來自動化評估,稱為"代理即評判"。正如Zhuge等人所強(qiáng)調(diào)的,這種方法不僅減少了對資源密集型人工注釋的依賴,還有可能通過代理評估過程捕獲代理性能的更細(xì)致方面。

安全和合規(guī)性是當(dāng)前基準(zhǔn)中的一個顯著缺陷。雖然像AgentHarm和ST-WebAgentBench這樣的早期努力已經(jīng)開始解決這些維度,但評估仍然缺乏對抗對抗性輸入的強(qiáng)健性、偏見緩解以及組織和社會政策合規(guī)性的全面測試。

未來研究應(yīng)該優(yōu)先開發(fā)多維度安全基準(zhǔn),模擬真實(shí)場景,特別是在多代理場景中可能出現(xiàn)新興風(fēng)險(xiǎn)的情況。這將確保代理不僅有效,而且安全可靠。

總體而言,AI代理評估領(lǐng)域正在經(jīng)歷快速演變,從簡單的靜態(tài)測試轉(zhuǎn)向復(fù)雜的動態(tài)評估生態(tài)系統(tǒng)。這些發(fā)展反映了代理能力的進(jìn)步以及對更全面、現(xiàn)實(shí)和可擴(kuò)展評估方法的需求。隨著代理系統(tǒng)變得更加復(fù)雜和廣泛部署,評估方法的持續(xù)創(chuàng)新對于確保這些系統(tǒng)的負(fù)責(zé)任開發(fā)和有效應(yīng)用至關(guān)重要。

說到底,這項(xiàng)研究為我們提供了一張?jiān)敿?xì)的地圖,顯示了當(dāng)前AI代理評估領(lǐng)域的全貌。它不僅總結(jié)了現(xiàn)有的方法和工具,還指出了未來發(fā)展的方向。對于研究者、開發(fā)者和決策者來說,這項(xiàng)研究提供了寶貴的指導(dǎo),幫助他們在這個快速發(fā)展的領(lǐng)域中做出明智的選擇。

隨著AI代理變得越來越強(qiáng)大和普及,如何準(zhǔn)確評估它們的能力將變得越來越重要。這不僅關(guān)系到技術(shù)的發(fā)展,也關(guān)系到這些技術(shù)如何安全、有效地為人類社會服務(wù)。這項(xiàng)研究為這個重要課題提供了堅(jiān)實(shí)的基礎(chǔ),為未來的研究和應(yīng)用指明了方向。

Q&A

Q1:什么是大語言模型智能代理?它們與普通的AI聊天機(jī)器人有什么區(qū)別? A:大語言模型智能代理是基于大語言模型的高級AI系統(tǒng),它們不僅能理解和生成文本,還能制定計(jì)劃、使用外部工具、與環(huán)境交互、從錯誤中學(xué)習(xí)并保持記憶。與簡單的問答式聊天機(jī)器人不同,這些代理能夠執(zhí)行復(fù)雜的多步驟任務(wù),就像一個能夠自主工作的智能助手。

Q2:為什么需要專門的評估方法來測試AI代理?傳統(tǒng)的AI測試方法不夠用嗎? A:傳統(tǒng)的AI評估方法主要針對單次問答交互,就像用小學(xué)數(shù)學(xué)題測試大學(xué)生能力一樣不夠用。AI代理需要進(jìn)行多步推理、工具使用、環(huán)境交互等復(fù)雜操作,因此需要能夠評估規(guī)劃能力、工具使用、自我反思和記憶管理等多維度能力的新評估框架。

Q3:目前AI代理評估面臨哪些主要挑戰(zhàn)? A:主要挑戰(zhàn)包括:評估方法過于粗糙,難以診斷具體問題;缺乏成本效率考量;靜態(tài)基準(zhǔn)容易過時(shí);安全性和合規(guī)性測試不足;人工評估成本高、擴(kuò)展性差。研究團(tuán)隊(duì)指出,未來需要發(fā)展更細(xì)粒度、自動化、動態(tài)更新的評估方法。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美媒評我國第三款六代機(jī)成功試飛:或是專為航母打造的多用途戰(zhàn)機(jī)

美媒評我國第三款六代機(jī)成功試飛:或是專為航母打造的多用途戰(zhàn)機(jī)

科普大世界
2025-08-05 14:45:45
體檢報(bào)告中,若這3個指標(biāo)都正常,基本可排除很多疾病

體檢報(bào)告中,若這3個指標(biāo)都正常,基本可排除很多疾病

財(cái)經(jīng)早餐
2025-08-05 06:38:02
男籃亞洲杯戰(zhàn)報(bào):中國臺北男籃95-87菲律賓男籃,陳盈駿31+2+2

男籃亞洲杯戰(zhàn)報(bào):中國臺北男籃95-87菲律賓男籃,陳盈駿31+2+2

懂球帝
2025-08-06 04:08:15
公安部下達(dá)買車“硬命令”,全國4S店連夜改規(guī)矩!

公安部下達(dá)買車“硬命令”,全國4S店連夜改規(guī)矩!

云川無界說
2025-08-04 16:18:36
德云社相聲演員尚九熙發(fā)文談與何九華裂穴始末:七年搭檔換來背刺與陷害,對方曾被拉黑并踢出公司大群

德云社相聲演員尚九熙發(fā)文談與何九華裂穴始末:七年搭檔換來背刺與陷害,對方曾被拉黑并踢出公司大群

極目新聞
2025-08-05 15:13:10
浙江省副廳級章壽禹不幸去世,他是溫州人

浙江省副廳級章壽禹不幸去世,他是溫州人

溫曉生
2025-08-05 23:06:57
有劇毒!一種全球公認(rèn)的強(qiáng)致癌物,很多人天天都在吃

有劇毒!一種全球公認(rèn)的強(qiáng)致癌物,很多人天天都在吃

果殼
2025-08-05 12:20:51
尷尬!男籃新星運(yùn)動戰(zhàn)0分,遭郭士強(qiáng)棄用,球迷:他不配進(jìn)國家隊(duì)

尷尬!男籃新星運(yùn)動戰(zhàn)0分,遭郭士強(qiáng)棄用,球迷:他不配進(jìn)國家隊(duì)

南海浪花
2025-08-06 05:26:31
大暴雨 特大暴雨即將到達(dá)!防御指南來了!

大暴雨 特大暴雨即將到達(dá)!防御指南來了!

閃電新聞
2025-08-05 12:50:10
可用中醫(yī)藥預(yù)防治療基孔肯雅熱

可用中醫(yī)藥預(yù)防治療基孔肯雅熱

中國青年報(bào)
2025-08-05 16:16:16
30歲女演員管樂首次公開居家日常,家中的凌亂場面震驚眾人,本人最新回應(yīng)

30歲女演員管樂首次公開居家日常,家中的凌亂場面震驚眾人,本人最新回應(yīng)

魯中晨報(bào)
2025-08-04 09:31:02
直沖38℃!浙江溫度還要升,衢州、金華、麗水三地最熱!大范圍午后雷陣雨來了...

直沖38℃!浙江溫度還要升,衢州、金華、麗水三地最熱!大范圍午后雷陣雨來了...

FM93浙江交通之聲
2025-08-06 06:40:35
“山坡上堆滿牛糞岸邊都是魚鳥尸體”,江西高安一水庫被曝養(yǎng)殖污染嚴(yán)重,官方通報(bào)

“山坡上堆滿牛糞岸邊都是魚鳥尸體”,江西高安一水庫被曝養(yǎng)殖污染嚴(yán)重,官方通報(bào)

FM93浙江交通之聲
2025-08-06 06:40:21
馬斯克的“美國黨”沒消息了?

馬斯克的“美國黨”沒消息了?

環(huán)球網(wǎng)資訊
2025-08-05 17:08:11
房子從290萬跌到150萬,我斷供了,全家人走上不歸路

房子從290萬跌到150萬,我斷供了,全家人走上不歸路

流蘇晚晴
2025-08-05 20:04:13
最高250%關(guān)稅!剛剛,特朗普宣布!

最高250%關(guān)稅!剛剛,特朗普宣布!

證券時(shí)報(bào)
2025-08-06 00:13:03
燒不起香了!少林寺瓜沒吃完,靈隱寺又上了熱門,方丈也被扒!

燒不起香了!少林寺瓜沒吃完,靈隱寺又上了熱門,方丈也被扒!

阿綏談史
2025-08-04 14:07:44
王思聰罕見回國,疑和懶懶已分手!帶新女伴現(xiàn)身澳門像戴了假發(fā)

王思聰罕見回國,疑和懶懶已分手!帶新女伴現(xiàn)身澳門像戴了假發(fā)

娛樂團(tuán)長
2025-08-05 15:30:30
46歲海歸要188萬彩禮,要求男人雇3個保姆伺候她,在北上廣有別墅

46歲海歸要188萬彩禮,要求男人雇3個保姆伺候她,在北上廣有別墅

小米拉
2025-08-03 09:40:40
天塌不下來,強(qiáng)制繳社保來了,很多人卻誤解了

天塌不下來,強(qiáng)制繳社保來了,很多人卻誤解了

財(cái)話連篇
2025-08-05 09:34:19
2025-08-06 08:00:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
13327文章數(shù) 49642關(guān)注度
往期回顧 全部

科技要聞

理想i8“版型瘦身”,一次遲到的果斷

頭條要聞

21歲小伙被騙緬甸用支付寶求救:有人遭體罰被搞到吐

頭條要聞

21歲小伙被騙緬甸用支付寶求救:有人遭體罰被搞到吐

體育要聞

“孫興慜就是熱刺,熱刺就是孫興慜”

娛樂要聞

吳倩張雨劍被曝已復(fù)合,是真是假?

財(cái)經(jīng)要聞

王貽芳院士:AI離人腦還有巨大差距

汽車要聞

續(xù)寫變革篇章,雷諾集團(tuán)的福蘭時(shí)代來了

態(tài)度原創(chuàng)

教育
藝術(shù)
時(shí)尚
家居
房產(chǎn)

教育要聞

膽小的孩子智商往往更高,家長必看

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

但丁《神曲》的愛與救贖,在700年后迎來了答案

家居要聞

通透大方 開放收納設(shè)計(jì)

房產(chǎn)要聞

效果圖流出!??陧斄鲿磳U(kuò)建!

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲九九综合AV在线| 亚洲国产av无码综合原创国产 | 久久青青草原精品国产app| 国产产无码乱码精品久久鸭| 国产精品视频一区二区三区四| 精品乱码一卡2卡三卡4卡二卡| 激情视频区图片区小说图片| 国产在线精品国偷产拍 | 草草久久久亚洲AV| 中文字幕国产精品综合| 99在线成人网| 精品国产_亚洲人成在线| 一夲道久久成人亚洲| AV无码网站| 九九久re8在线精品视频| 日韩视频第三页| 国产精品 自在自线| 熟女精品视频一区二区三区| 午夜在线观看成人av| 亚洲成人tv在线| 欧美久久久久久久久丰满| 亚洲伊人久久综合网站| 日本免费视频| 一本久道视频无线视频| 麻豆精品一区二区综合av| 欧美高潮视频| 亚洲av永久无码精品无码四虎| 久久综合伊人77777麻豆| 国产久9视频这里只有精品| 2020国产在线视精品在| 视频黄页无毛无码| 免费国产午夜理论片不卡| 樱花草影院免费在线| 国产精品lululu在线观看| www.无码| 欧美性插b在线视频网站| 欧美午夜视频| 亚洲秘无码一区二区三区欧美| 大陆福利片av| 一本大道大臿蕉视频无码| 亚洲最大的天堂网|