夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI Agent、傳統(tǒng)聊天機器人有何區(qū)別?這篇30頁綜述講明白了

0
分享至



論文作者包括來自上海交通大學的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠,以及華為諾亞研究所的朱夢輝、陳渤、唐睿明。

本文第一作者是朱家琛,上海交通大學博士生,主要研究興趣集中在大模型推理,個性化 Agent。本文通訊作者是張偉楠,上海交通大學教授,研究方向包含強化學習、數(shù)據(jù)科學、機器人控制、推薦搜索等。

自從 Transformer 問世,NLP 領(lǐng)域發(fā)生了顛覆性變化。大語言模型極大提升了文本理解與生成能力,成為現(xiàn)代 AI 系統(tǒng)的基礎(chǔ)。而今,AI 正不斷向前,具備自主決策和復(fù)雜交互能力的新一代AI Agent也正加速崛起。

不同于以往只會對話的 LLM 機器人,AI Agent 能夠接入互聯(lián)網(wǎng)、調(diào)用各類 API,還能根據(jù)真實環(huán)境反饋靈活調(diào)整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力,已經(jīng)突破了傳統(tǒng) “問答模式” 的限制,能夠主動執(zhí)行任務(wù)、應(yīng)對各種復(fù)雜場景,真正成為用戶身邊可靠的智能助手。

在這股 AI Agent 浪潮中,每個人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強大呢?海量的 Agent 評測方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬馬中挑選出最適合你的測評方式呢?作為 AI Agent 的開發(fā)者,你是否也在思考該從哪個角度來提升你的 “秘密武器”,在這場激烈的 AI Agent 大戰(zhàn)中脫穎而出?

因此,這引出了一個順理成章的問題:

AI Agent 到底和傳統(tǒng)聊天機器人有何本質(zhì)區(qū)別?又該如何科學評測 AI Agent?



  • 論文標題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
  • 論文鏈接:https://arxiv.org/pdf/2506.11102

一、從 LLM Chatbot 到 AI Agent

論文指出,AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復(fù)人類對話,還具備了五個維度的進化:

1.復(fù)雜環(huán)境:Agent 不再局限于單一對話場景,可以與代碼庫、網(wǎng)頁、操作系統(tǒng)、移動端、科學實驗等各類環(huán)境交互。

2.多源指令:Agent 不只接收人工輸入,還能結(jié)合自我反思、智能體協(xié)作等多源指令。

3.動態(tài)反饋:Agent 運行于連續(xù)多樣的反饋環(huán)境,可基于指標、獎勵等動態(tài)反饋持續(xù)優(yōu)化自身能力,不再局限于被動對話糾正。

4.多模態(tài):Agent 擁有跨模態(tài)處理能力,能理解文本、視覺、聽覺等多種數(shù)據(jù)。

5.高級能力:隨著外部環(huán)境復(fù)雜化,Agent 具備了復(fù)雜規(guī)劃、持久記憶、自主推理等能力,實現(xiàn)從被動響應(yīng)到自主執(zhí)行的躍遷。



圖 1:AI Agent 與 LLM Chatbot 演化的五個維度。

LLM Chatbot 向 AI Agent 的演進,背后主要受兩方面推動:一是外部環(huán)境的日益復(fù)雜,二是內(nèi)部能力的不斷提升。復(fù)雜的外部環(huán)境促使 Agent 不斷成長,而 Agent 能力的提升又推動人們?nèi)ヌ剿鞲咛魬?zhàn)性的應(yīng)用場景。正是這種內(nèi)外循環(huán)、相互促進,成為現(xiàn)代 AI Agent 加速進化的根本動力。因此,論文的總體框架如圖 2 所示:我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評測基準,提出 “環(huán)境 - 能力” 兩方面的分類學。隨后進行趨勢討論,對 Agent 評測方法演化趨勢的討論,涉及環(huán)境角度,Agent 角度,評估者角度,指標角度,并最終提出基準選擇的方法論。



圖 2:論文框架總覽

二、評測框架與基準盤點

面對 Agent 能力的指數(shù)級擴展,原有的聊天機器人評測方法已無法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評測基準,提出 “環(huán)境 - 能力” 兩方面的分類:

1.環(huán)境維度:細分為代碼、網(wǎng)頁、操作系統(tǒng)、移動端、科學、游戲等環(huán)境。

2.能力維度:涵蓋規(guī)劃、自我反省、交互、記憶等高級能力。

針對每種環(huán)境與能力,論文整理了當前最具代表性的評測基準,并梳理出一套 “實用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

以表 1 為例,我們列出了我們認為最重要的屬性:真實性,離線 / 在線,評測者,輸入模態(tài),主要挑戰(zhàn)。并將所有 web 環(huán)境的基準歸到這些屬性中。



表 1:Web 環(huán)境下的 Agent 基準以及其各類屬性

三、AI Agent 評測方法的進化趨勢



圖 3:AI Agent 評測未來演化的四個視角。

論文深刻總結(jié)了 AI Agent 評測方法的未來趨勢,不再只是 “比誰答得對”,而是從四個關(guān)鍵視角全面升級:

1. 環(huán)境視角:從單模態(tài)到多模態(tài)、從靜態(tài)到動態(tài)、從少狀態(tài)到多狀態(tài)。

最初,Agent 評測只圍繞文本展開,如今則逐漸擴展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿足需求,動態(tài)、實時更新的真實環(huán)境成為新常態(tài)。同時,評測方式也在轉(zhuǎn)變,開始關(guān)注智能體在連續(xù)任務(wù)過程中的表現(xiàn)和調(diào)整,而不再只看最終結(jié)果。

2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動。

新一代評測不僅關(guān)注單個 Agent 的能力,更重視多個 Agent 間的協(xié)作與博弈。與此同時,任務(wù)由簡單的一問一答,演化為多輪對話、持續(xù)推理和復(fù)雜任務(wù)鏈,考驗 Agent 的全局規(guī)劃與長期記憶。

3. 評測者視角:從人工到 AI 自動評測、從通用到個性化。

AI 不再只是被動接受人類評分,越來越多的 Agent 可以自動評判同行,實現(xiàn)規(guī)?;?、自主化評測。同時,未來的評測將更加關(guān)注個性化,衡量 Agent 是否能針對不同用戶給出個性化的服務(wù)。

4. 指標視角:從粗粒度到細粒度,從關(guān)注正確率到關(guān)注效率、安全與社會價值。

單一的正確率已無法反映 Agent 真實能力。未來評測更強調(diào)任務(wù)效率、細粒度決策的質(zhì)量、安全性和倫理性,比如防止誤操作、保障用戶利益、促進社會善意等。

四、行動指南:

如何選擇合適的 Agent 評測基準

面對 AI Agent 的快速發(fā)展,論文圍繞 “如何用演化視角系統(tǒng)評估 AI Agent” 這一核心問題,提出了一套二階段的基準選擇方法論:

第一階段:從當下出發(fā)。

根據(jù)實際任務(wù)環(huán)境和 Agent 能力,先鎖定對應(yīng)的環(huán)境和能力分類(圖 2),從屬性表(表 1)中精準匹配最適用的評測基準。例如,開發(fā)者 Z 開發(fā)了能預(yù)訂航班和酒店的 Agent,應(yīng)優(yōu)先考慮 Web 環(huán)境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準進行測試。

第二階段:為未來考慮。

結(jié)合評測進化趨勢(圖 3),開發(fā)者 Z 應(yīng)持續(xù)關(guān)注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會價值等新維度。隨著產(chǎn)品商業(yè)化,適時引入動態(tài)環(huán)境(如 BFCL)、安全性(如 ST WebAgentBench)和個性化(如 PeToolBench)等多樣化評測基準,確保 Agent 持續(xù)優(yōu)化與進化。

結(jié)語

AI Agent 正在從 “會對話” 進化為 “會行動”,推動人工智能邁向更智能、更自主、更有價值的下一個時代。而如何科學評測 AI Agent,是驅(qū)動這一切的關(guān)鍵。如果讀者你也關(guān)心如何評測新穎的 AI Agent,我們的綜述值得一讀。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
20CM“一字”跌停!300391:存重大違法強制退市可能

20CM“一字”跌停!300391:存重大違法強制退市可能

大眾證券報
2025-11-10 10:51:18
外賣配送進入“1元時代”,騎手的生存底線被不斷試探?

外賣配送進入“1元時代”,騎手的生存底線被不斷試探?

流蘇晚晴
2025-11-09 21:05:04
胖東來銷售額破200億!于東來曾表示:今年盡量控制在200億以內(nèi),如果升得太快,員工就得加班

胖東來銷售額破200億!于東來曾表示:今年盡量控制在200億以內(nèi),如果升得太快,員工就得加班

每日經(jīng)濟新聞
2025-11-09 19:19:08
尹錫悅被控同軍方合謀,試圖“誘使朝鮮發(fā)動進攻”

尹錫悅被控同軍方合謀,試圖“誘使朝鮮發(fā)動進攻”

揚子晚報
2025-11-10 11:12:54
爆冷2分惜敗,又14分慘?。BA退步最快球隊,這筆交易虧大了

爆冷2分惜敗,又14分慘敗!NBA退步最快球隊,這筆交易虧大了

籃球掃地僧
2025-11-10 12:44:15
別吹哈蘭德和多庫了!曼城8分真核打崩利物浦,瓜帥沒看錯人

別吹哈蘭德和多庫了!曼城8分真核打崩利物浦,瓜帥沒看錯人

奶蓋熊本熊
2025-11-10 10:22:49
從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

林子說事
2025-11-07 10:18:39
佟大為9歲兒子亮相,高半頭,正臉像佟大為,獲贊絕了!

佟大為9歲兒子亮相,高半頭,正臉像佟大為,獲贊絕了!

悅君兮君不知
2025-11-09 12:02:40
網(wǎng)購電動自行車電池起火致15人遇難,火災(zāi)現(xiàn)場視頻被披露

網(wǎng)購電動自行車電池起火致15人遇難,火災(zāi)現(xiàn)場視頻被披露

新京報
2025-11-09 08:55:01
解放軍強勢壓制,蕭美琴飛離歐洲,返臺前留下2句話,態(tài)度很囂張

解放軍強勢壓制,蕭美琴飛離歐洲,返臺前留下2句話,態(tài)度很囂張

起喜電影
2025-11-10 11:11:49
突擊清查“三非”人員,印度人這事鬧大后,深圳的反應(yīng)速度封神!

突擊清查“三非”人員,印度人這事鬧大后,深圳的反應(yīng)速度封神!

華史談
2025-11-09 12:32:00
傳黑石擬售9000套高端公寓 養(yǎng)老地產(chǎn)清算虧6億美元

傳黑石擬售9000套高端公寓 養(yǎng)老地產(chǎn)清算虧6億美元

觀點機構(gòu)
2025-11-07 12:15:39
遼寧隊被坑了,楊鳴瘋狂贏球躲廣東,杜鋒卻故意縮小分差打遼籃

遼寧隊被坑了,楊鳴瘋狂贏球躲廣東,杜鋒卻故意縮小分差打遼籃

宗介說體育
2025-11-10 11:51:45
從榜首到第五!全運女排24小時戰(zhàn)績榜分出列,這支隊最讓人心疼

從榜首到第五!全運女排24小時戰(zhàn)績榜分出列,這支隊最讓人心疼

嘴角上翹的弧度
2025-11-10 09:33:32
森林狼27分大勝!華子26+5戈貝爾高效,湖人舊將拉胯,威少7中2

森林狼27分大勝!華子26+5戈貝爾高效,湖人舊將拉胯,威少7中2

魚崖大話籃球
2025-11-10 12:29:20
領(lǐng)導退休后還端著架子?網(wǎng)友:這排場比在職時還足,笑到腰疼!

領(lǐng)導退休后還端著架子?網(wǎng)友:這排場比在職時還足,笑到腰疼!

墻頭草
2025-11-10 07:56:40
何超瓊戴大鉆石耳飾,笑容燦爛,她的頭發(fā)白了,眼角細紋越看越美

何超瓊戴大鉆石耳飾,笑容燦爛,她的頭發(fā)白了,眼角細紋越看越美

情感大頭說說
2025-11-08 11:05:29
眼科主任面帶桃花:前一秒甜美養(yǎng)眼,后一秒大尺度畫面太辣眼

眼科主任面帶桃花:前一秒甜美養(yǎng)眼,后一秒大尺度畫面太辣眼

公子麥少
2025-11-08 16:20:48
“Faker急需7冠自證”火了,LPL結(jié)束語拉垮,記得被逼著念廣告!

“Faker急需7冠自證”火了,LPL結(jié)束語拉垮,記得被逼著念廣告!

殘影電競
2025-11-09 22:30:19
這竟然是賈玲?變化也太大了,真的快認不出來了

這竟然是賈玲?變化也太大了,真的快認不出來了

陳意小可愛
2025-10-25 13:08:53
2025-11-10 12:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11680文章數(shù) 142501關(guān)注度
往期回顧 全部

科技要聞

存儲芯片大廠漲價50%!華強北一天一個價

頭條要聞

老人花1500元裝的凈水器次日就漏水 生產(chǎn)廠家經(jīng)營異常

頭條要聞

老人花1500元裝的凈水器次日就漏水 生產(chǎn)廠家經(jīng)營異常

體育要聞

戰(zhàn)績崩盤!東契奇交易余震撕裂獨行俠

娛樂要聞

郝蕾風波升級?

財經(jīng)要聞

俄羅斯大幅加稅 中國汽車出口驟降58%

汽車要聞

智能又務(wù)實 奇瑞瑞虎9X不只有性價比

態(tài)度原創(chuàng)

手機
健康
教育
家居
軍事航空

手機要聞

歐洲地區(qū)限制嚴格 蘋果iPhone 18系列電池受限

超聲探頭會加重受傷情況嗎?

教育要聞

青島富源路小學:掐絲琺瑯里,非遺與親情共閃光

家居要聞

現(xiàn)代自由 功能美學居所

軍事要聞

俄媒:俄軍即將攻占烏克蘭"第三首都"

無障礙瀏覽 進入關(guān)懷版 好屌妞免费欧美手机版| 日本久久久久久影片| 色婷婷久久综合中文久久蜜桃av| 成年在线观看免费人视频| 蜜臀av国内精品久久久人妻| jiujiujiu777| 最新网址AV| 成人精品| 婷婷七月av| 欧美人人操人人摸| 国产免费网址| 综合天堂AV| 国产成人经典视频| 亚洲午夜无码久久久久蜜臀AV| 91人人妻人人澡人人爽| 一区二区三区精品视频日本| 欧美成aⅴ人高清ww| 欧美a级情欲片在线观看免费| 日产欧产美韩系列毛片| 天堂AV最新在线| AV网址中文字幕在线观看| 欧美最猛黑人xxxx黑人猛交98| 无码极品少妇一区二区三区| 午夜精品久久久久久久四虎| 国产精品论乱| 熟妇人妻无乱码中文字幕av哥也操| 在线看无码的免费网站| 九九天天影院日本| 天堂网2009| 成年av一区| 同桌上课脱裙子让我帮他自慰| ,一级做a爱片性色毛片成人久久..... | 久久久久久人| 国产真实偷乱视频| 99热成人精品热久久6网站| 色欲AV无码精品国产自由| 国产精品久久久久久无码日本蜜乳| 永久免费av网站可以直接看的| 最新在线观看的av网站| 亚洲无码一区二| 一色屋精品视频在线观看|