新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】互聯(lián)網(wǎng)技術(shù)的發(fā)展極大地便利了我們的生活,但許多網(wǎng)絡(luò)任務(wù)重復(fù)繁瑣,降低了效率。為了解決這一問(wèn)題,研究人員正在開(kāi)發(fā)基于大型基礎(chǔ)模型(LFMs)的智能體——WebAgents,通過(guò)感知環(huán)境、規(guī)劃推理和執(zhí)行交互來(lái)完成用戶指令,顯著提升便利性。香港理工大學(xué)的研究人員從架構(gòu)、訓(xùn)練和可信性等角度,總結(jié)了WebAgents的代表性方法,全面梳理了相關(guān)研究進(jìn)展。
在指尖就能觸達(dá)世界的今天,在線互聯(lián)網(wǎng)早已深度重塑了我們的生活圖景——從隨時(shí)獲取的全球資訊、即時(shí)送達(dá)的電商購(gòu)物,到無(wú)縫連接的社交互動(dòng)。
只需一部智能手機(jī)或筆記本電腦,人們就能隨時(shí)查閱新聞動(dòng)態(tài)、調(diào)取學(xué)術(shù)論文、瀏覽百科全書,這種信息獲取的自由度徹底打破了時(shí)空壁壘,讓偏遠(yuǎn)地區(qū)也能平等享受教育、醫(yī)療和法律等基礎(chǔ)服務(wù)。
然而,在這看似便利的數(shù)字世界背后,現(xiàn)實(shí)中的網(wǎng)絡(luò)活動(dòng)卻隱藏著大量重復(fù)低效的「數(shù)字苦力」:如圖1所示,我們不得不在不同平臺(tái)反復(fù)填寫相同的個(gè)人信息,在購(gòu)物時(shí)需要手動(dòng)比對(duì)數(shù)以百計(jì)的商品參數(shù),這些機(jī)械化的操作構(gòu)成了現(xiàn)代人難以逃脫的「數(shù)字流水線」。
圖1常見(jiàn)的互聯(lián)網(wǎng)Web活動(dòng)及WebAgents流程示意圖。WebAgents在接收到用戶指令后,通過(guò)感知環(huán)境、推理行動(dòng)序列并執(zhí)行交互,自動(dòng)完成任務(wù)。
為了解決這一瓶頸,構(gòu)建具備高度智能化的自動(dòng)化智能體(AIAgents)成為當(dāng)前AI領(lǐng)域極具前景的研究方向。AI智能體可持續(xù)執(zhí)行任務(wù),無(wú)懼疲勞與性能下降,能顯著提高流程的穩(wěn)定性與執(zhí)行效率。
尤其在互聯(lián)網(wǎng)Web環(huán)境中,部署AI智能體—即WebAgents—來(lái)輔助用戶完成人類世界中的復(fù)雜繁瑣的Web任務(wù)。
在大模型驅(qū)動(dòng)的Web自動(dòng)化浪潮中,WebAgents的發(fā)展不僅關(guān)乎效率提升,更是工作范式的轉(zhuǎn)變,并預(yù)示著人機(jī)關(guān)系的新紀(jì)元。
當(dāng)您下次面對(duì)繁瑣的網(wǎng)絡(luò)操作時(shí),或許該認(rèn)真考慮:這個(gè)任務(wù),是否該交給更專業(yè)的AI數(shù)字同事?
近年來(lái),基礎(chǔ)大模型(Large Foundation Models, LFMs)展現(xiàn)出了類人智能,正快速重塑醫(yī)療健康、電子商務(wù)、 AI4Science 等多個(gè)重要領(lǐng)域的工作范式。
例如當(dāng)基礎(chǔ)大模型與蛋白質(zhì)序列數(shù)據(jù)結(jié)合使用時(shí),能夠有效捕捉底層結(jié)構(gòu)信息,推動(dòng)藥物發(fā)現(xiàn)與疾病機(jī)制研究的進(jìn)展;
在推薦系統(tǒng)(Recommender Systems, RecSys)中,基礎(chǔ)大模型也展現(xiàn)出強(qiáng)大的語(yǔ)義建模與推理能力,極大提升了個(gè)性化推薦的準(zhǔn)確性和靈活性。
依托其廣泛的世界知識(shí)、指令遵循能力以及語(yǔ)言理解與推理能力,基礎(chǔ)大模型在模擬人類行為與執(zhí)行復(fù)雜任務(wù)方面展現(xiàn)出巨大潛力。
這一技術(shù)進(jìn)展自然引出了一個(gè)關(guān)鍵而富有前景的研究問(wèn)題:我們是否能夠?qū)⒒A(chǔ)大模型與互聯(lián)網(wǎng)Web環(huán)境(如,網(wǎng)頁(yè)、GUI、APPs)相結(jié)合,開(kāi)發(fā)出能夠自動(dòng)處理Web任務(wù)的強(qiáng)大智能體,即WebAgents,從而真正實(shí)現(xiàn)網(wǎng)絡(luò)活動(dòng)的自動(dòng)化與智能化?
為了充分挖掘基礎(chǔ)大模型的潛力,近期的研究致力于發(fā)展基于基礎(chǔ)大模型的WebAgents,其能夠根據(jù)用戶指令在網(wǎng)絡(luò)世界完成各種復(fù)雜的網(wǎng)頁(yè)任務(wù)。
例如,最近推出的新型AI智能體 ChatGPT Agent引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,它在自主處理工作和日常環(huán)境中的復(fù)雜任務(wù)方面展現(xiàn)出了令人震驚的能力。
與聊天機(jī)器人不同,ChatGPT Agent能夠獨(dú)立規(guī)劃和執(zhí)行復(fù)雜任務(wù),進(jìn)行自動(dòng)化搜索和多步操作,無(wú)需用戶持續(xù)提供指令和監(jiān)督。如圖1所示,用戶只需提供一條自然語(yǔ)言指令,例如「通過(guò)電子郵件在2024年11月23日下午4點(diǎn)與Leon在星巴克安排一次會(huì)議」。
WebAgents可以自主打開(kāi)「電子郵件」應(yīng)用,獲取Leon的郵箱地址,撰寫郵件并發(fā)送,從而實(shí)現(xiàn)整個(gè)會(huì)議安排流程的自動(dòng)化,極大提升日常生活的便利性。
鑒于基礎(chǔ)大模型賦能的WebAgents開(kāi)發(fā)取得的顯著進(jìn)展以及相關(guān)研究數(shù)量的不斷增長(zhǎng),亟需對(duì)該領(lǐng)域的最新進(jìn)展進(jìn)行系統(tǒng)性綜述。
為彌補(bǔ)這一空白,香港理工大學(xué)的研究人員從架構(gòu)、訓(xùn)練和可信性等角度,總結(jié)了WebAgents的代表性方法,全面梳理了相關(guān)研究進(jìn)展。
論文鏈接:https://arxiv.org/pdf/2503.23350
SIGKDD Tutorial&PPT教程:https://biglemon-ning.github.io/WebAgents/
WebAgents架構(gòu)
WebAgents在完成用戶指令時(shí)主要包括三個(gè)過(guò)程:
1)感知:要求WebAgents能夠準(zhǔn)確地觀察當(dāng)前環(huán)境;
2)規(guī)劃與推理:要求WebAgents 正確分析當(dāng)前環(huán)境,理解用戶給定的任務(wù),并合理地預(yù)測(cè)下一步行動(dòng);
3)執(zhí)行:要求WebAgents能夠有效地執(zhí)行生成的動(dòng)作并與環(huán)境進(jìn)行交互。
圖2WebAgents整體框架示意圖,包括三個(gè)關(guān)鍵流程:感知、規(guī)劃與推理,以及執(zhí)行。WebAgents首先在感知階段觀測(cè)環(huán)境信息;隨后,在規(guī)劃與推理階段基于觀測(cè)結(jié)果生成相應(yīng)動(dòng)作;最后,WebAgents執(zhí)行生成的動(dòng)作,從而完成用戶任務(wù)。
感知
大多數(shù)基礎(chǔ)大模型只需接受用戶指令并通過(guò)推理生成相應(yīng)的文本回復(fù)。
然而,WebAgents在復(fù)雜的網(wǎng)頁(yè)環(huán)境中運(yùn)行時(shí),還需要能夠準(zhǔn)確地感知外部環(huán)境,并結(jié)合用戶任務(wù)對(duì)動(dòng)態(tài)環(huán)境進(jìn)行行為推理。
如圖2所示,根據(jù)環(huán)境向WebAgents提供的數(shù)據(jù)模態(tài),現(xiàn)有研究可以分為三類:
1)基于文本的WebAgents,
2)基于視覺(jué)的WebAgents,
3)多模態(tài)WebAgents。
基于文本的WebAgents
隨著大語(yǔ)言模型(Large Language Models, LLMs)的發(fā)展,大量研究致力于利用其媲美人類的理解和推理能力,幫助用戶完成復(fù)雜任務(wù) [1]。
由于LLMs只能處理自然語(yǔ)言,這類WebAgents通常利用網(wǎng)頁(yè)的文本數(shù)據(jù)(如HTML)來(lái)感知環(huán)境。
例如,MindAct [2] 提出了一個(gè)兩階段框架,將微調(diào)后的小語(yǔ)言模型與LLM結(jié)合,高效地處理大型HTML文檔,在保留關(guān)鍵信息的同時(shí)顯著減少輸入規(guī)模。
這種方法能夠準(zhǔn)確預(yù)測(cè)目標(biāo)元素及對(duì)應(yīng)的操作,有效平衡了網(wǎng)頁(yè)任務(wù)中的效率與性能。
基于視覺(jué)的WebAgents
盡管基于文本的WebAgents取得了顯著成功,但利用環(huán)境的文本數(shù)據(jù)進(jìn)行感知與人類的認(rèn)知過(guò)程并不契合且不能很好泛化到不同的Web環(huán)境(如,PC端和移動(dòng)APP端),因?yàn)閳D形用戶界面(Graphical User Interface, GUI)本質(zhì)上是視覺(jué)化的。
此外,文本表示通常是冗長(zhǎng)的并且在不同環(huán)境中存在極大的差異,導(dǎo)致泛化能力較差并增加了計(jì)算開(kāi)銷。
近年來(lái),大型視覺(jué)-語(yǔ)言模型(Vision Language Models, VLMs)的突破極大提升了AI系統(tǒng)處理復(fù)雜視覺(jué)輸入的能力。
為了利用VLMs的視覺(jué)理解能力,許多研究將其集成到WebAgents中,利用截圖來(lái)進(jìn)行視覺(jué)化環(huán)境感知。
例如,有研究提出可以僅依賴截圖作為環(huán)境觀測(cè)來(lái)預(yù)測(cè)下一步動(dòng)作,并通過(guò)引入定位預(yù)訓(xùn)練過(guò)程,提升了WebAgents在截圖中定位相關(guān)視覺(jué)元素的能力。
多模態(tài)WebAgents
除了單獨(dú)利用文本數(shù)據(jù)或視覺(jué)來(lái)感知環(huán)境外,許多研究還利用多模態(tài)信息,結(jié)合不同數(shù)據(jù)各自的互補(bǔ)優(yōu)勢(shì),為WebAgents提供更全面的環(huán)境感知能力。
例如,WebVoyager [3] 通過(guò)同時(shí)處理交互式網(wǎng)頁(yè)元素的截圖和文本內(nèi)容,使得 WebAgents 自主地完成復(fù)雜任務(wù)。
它采用Set-of-Mark Prompting,在網(wǎng)頁(yè)上疊加可交互元素的邊界框,極大提升了智能體的決策能力,實(shí)現(xiàn)了準(zhǔn)確的動(dòng)作預(yù)測(cè)與執(zhí)行。
規(guī)劃與推理
在感知到環(huán)境信息之后,WebAgents通常需要生成合適的動(dòng)作來(lái)執(zhí)行用戶的指令。這一過(guò)程需要利用基礎(chǔ)大模型的推理能力分析當(dāng)前環(huán)境狀態(tài)。
如圖2所示,該過(guò)程包含三個(gè)子任務(wù):
1)任務(wù)規(guī)劃,主要是對(duì)用戶指令進(jìn)行重組并設(shè)定子目標(biāo),幫助WebAgents有效應(yīng)對(duì)復(fù)雜的用戶請(qǐng)求;
2)動(dòng)作推理,引導(dǎo)WebAgents生成合適的動(dòng)作以完成用戶指令;
3)記憶利用,使WebAgents能夠利用內(nèi)部信息(如先前的動(dòng)作)或外部信息(如網(wǎng)頁(yè)搜索獲得的開(kāi)放世界知識(shí)),以預(yù)測(cè)更合適的動(dòng)作。
任務(wù)規(guī)劃
對(duì)WebAgents 而言,任務(wù)規(guī)劃的目標(biāo)是根據(jù)用戶給定的指令確定智能體應(yīng)實(shí)現(xiàn)的一系列子任務(wù)。
根據(jù)WebAgents是否明確包含任務(wù)分解過(guò)程,現(xiàn)有研究可分為兩類:1)顯式規(guī)劃和2)隱式規(guī)劃。
顯式規(guī)劃方法通常將用戶指令分解為多個(gè)子任務(wù),并逐步生成動(dòng)作來(lái)完成這些子任務(wù)。
例如,有研究將用戶指令分解為子任務(wù)并同時(shí)引入了反思階段,引導(dǎo)智能體根據(jù)當(dāng)前進(jìn)展決定是繼續(xù)、重試還是重新制定計(jì)劃,使整個(gè)流程更符合人類的思考過(guò)程。
隱式規(guī)劃方法則直接將用戶指令和環(huán)境觀測(cè)輸入智能體,而不進(jìn)行明確的任務(wù)分解過(guò)程。
例如可以直接將任務(wù)信息提供給智能體,并將篩選后的文檔對(duì)象模型(Document Object Model, DOM)元素作為觀測(cè),逐步引導(dǎo)其生成動(dòng)作。
動(dòng)作推理
動(dòng)作推理利用智能體的推理能力和當(dāng)前環(huán)境觀測(cè),推斷出下一步應(yīng)采取的動(dòng)作。
根據(jù)策略的不同,現(xiàn)有的推理方法大致可以分為兩類:1)反應(yīng)式推理和2)策略性推理。反應(yīng)式推理指WebAgents僅接收觀測(cè)和指令,直接生成下一步動(dòng)作,無(wú)需額外操作。
而策略性推理通常會(huì)引入額外操作,以增強(qiáng)智能體的推理能力。
最常見(jiàn)的兩種方法包括:引入額外的探索過(guò)程和整合額外的上下文信息,這兩種方式都能有效提升智能體動(dòng)作生成的準(zhǔn)確性。
例如,有研究提出了一種LLM驅(qū)動(dòng)的探索策略,在執(zhí)行前利用自然語(yǔ)言描述對(duì)候選動(dòng)作的結(jié)果進(jìn)行模擬和預(yù)測(cè),使智能體能夠在每一步評(píng)估并選擇最優(yōu)動(dòng)作。
這種動(dòng)作模擬機(jī)制能夠顯著提升決策的準(zhǔn)確性,同時(shí)減少與網(wǎng)頁(yè)的不必要交互。
記憶利用
除了任務(wù)規(guī)劃和動(dòng)作推理之外,記憶的有效利用也是提升WebAgents能力的關(guān)鍵因素之一。
根據(jù)其來(lái)源,記憶通??梢苑譃椋?)短期記憶和2)長(zhǎng)期記憶。
短期記憶通常指為完成當(dāng)前用戶任務(wù)而執(zhí)行的先前動(dòng)作。在生成下一步動(dòng)作時(shí)考慮短期記憶,可以有效避免重復(fù)操作,提高任務(wù)完成效率。
長(zhǎng)期記憶則指那些能夠長(zhǎng)期保存的外部信息,如先前執(zhí)行任務(wù)的動(dòng)作軌跡和通過(guò)在線搜索獲得的知識(shí)。通過(guò)檢索這些外部知識(shí)作為參考,可以顯著提升WebAgents的任務(wù)成功率。
例如,Agent S [4] 同時(shí)利用在線網(wǎng)頁(yè)搜索獲取外部知識(shí),以及敘事記憶獲取內(nèi)部任務(wù)相關(guān)經(jīng)驗(yàn)(包括成功和失敗軌跡的總結(jié)),以生成能夠完成用戶指令的子任務(wù)序列。
之后,還會(huì)檢索一些類似的子任務(wù)經(jīng)驗(yàn),供動(dòng)作生成器預(yù)測(cè)下一步動(dòng)作時(shí)參考。
執(zhí)行
WebAgents完成用戶指令的最后一步是與網(wǎng)頁(yè)進(jìn)行交互并執(zhí)行生成的動(dòng)作。
如圖2所示,這一過(guò)程中包含兩個(gè)任務(wù):1)定位,旨在確定智能體將要交互的元素位置;2)交互,在選定元素上執(zhí)行生成的操作。
定位
由于網(wǎng)頁(yè)通常包含大量可交互元素,選擇正確的元素來(lái)執(zhí)行生成的動(dòng)作對(duì)于完成用戶任務(wù)至關(guān)重要。
根據(jù)WebAgents的定位策略,現(xiàn)有研究可分為兩類:1)直接定位和2)推理定位。直接定位是指WebAgents直接生成候選元素在截圖中的坐標(biāo),或從整個(gè)HTML中選擇一個(gè)元素進(jìn)行交互。
例如直接引導(dǎo)智能體生成正確的動(dòng)作(如 [CLICK])及其對(duì)應(yīng)參數(shù)(如 [CLICK] 的坐標(biāo)),以定位網(wǎng)頁(yè)中將要交互的元素。推理定位則涉及利用額外的輔助模塊來(lái)定位目標(biāo)元素。
例如,有研究引入了一個(gè)通用多模態(tài)LLM作為解釋器,負(fù)責(zé)將用戶指令翻譯為詳細(xì)的動(dòng)作描述,并引入一個(gè)GUI專用多模態(tài)語(yǔ)言模型作為定位器,根據(jù)生成的動(dòng)作描述在屏幕截圖中準(zhǔn)確識(shí)別目標(biāo)GUI元素。
交互
最后,WebAgents需要利用生成的動(dòng)作與目標(biāo)元素進(jìn)行交互。
根據(jù)WebAgents與網(wǎng)頁(yè)交互的方式,現(xiàn)有研究大致可以分為兩類:1)基于網(wǎng)頁(yè)瀏覽的方法和2)基于工具的方法。
基于網(wǎng)頁(yè)瀏覽的方法采用人類在瀏覽網(wǎng)站時(shí)常用的典型操作,如點(diǎn)擊、滾動(dòng)和輸入來(lái)與網(wǎng)頁(yè)進(jìn)行交互?;诠ぞ叩姆椒▌t涉及使用額外的工具(如應(yīng)用程序接口API)與網(wǎng)頁(yè)進(jìn)行交互。
例如,API-calling agent [5] 通過(guò)引入API交互,擴(kuò)展了傳統(tǒng)WebAgents的動(dòng)作空間,使智能體能夠完全繞過(guò)基于GUI的交互,從而提升了在真實(shí)在線任務(wù)中的效率和適應(yīng)性。
WebAgents訓(xùn)練
有關(guān)于WebAgents的訓(xùn)練主要包含兩個(gè)基本方面:
1)數(shù)據(jù)。數(shù)據(jù)是WebAgents訓(xùn)練的基石,其為模型提供多樣且具有代表性的樣本,幫助模型學(xué)習(xí)與網(wǎng)頁(yè)相關(guān)的模式;
2)訓(xùn)練策略。訓(xùn)練策略則是指WebAgents通過(guò)不同方法獲取和提升能力的過(guò)程。
WebAgents的整體訓(xùn)練框架如圖3所示,包括訓(xùn)練數(shù)據(jù)的構(gòu)建和訓(xùn)練策略的制定。
圖3WebAgents訓(xùn)練流程示意圖。訓(xùn)練數(shù)據(jù)的構(gòu)建包括兩個(gè)過(guò)程:1)數(shù)據(jù)預(yù)處理,旨在減少不同數(shù)據(jù)之間模態(tài)和格式的差異;2)數(shù)據(jù)增強(qiáng),用于提升訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。在訓(xùn)練策略方面,主要分為四類:1)無(wú)訓(xùn)練方法,直接通過(guò)提示詞引導(dǎo)基礎(chǔ)大模型完成網(wǎng)頁(yè)任務(wù);2)GUI理解能力訓(xùn)練,提升通用基礎(chǔ)大模型的GUI理解能力;3)特定任務(wù)微調(diào),增強(qiáng)WebAgents任務(wù)導(dǎo)向的特定任務(wù)解決能力;4)后訓(xùn)練,通過(guò)與網(wǎng)頁(yè)交互獲得獎(jiǎng)勵(lì)反饋,進(jìn)一步優(yōu)化WebAgents的策略。
數(shù)據(jù)
數(shù)據(jù)是支撐現(xiàn)代WebAgents訓(xùn)練的基礎(chǔ),其構(gòu)建包括兩個(gè)關(guān)鍵步驟:1)數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行精煉和結(jié)構(gòu)化,以提升其可用性和質(zhì)量;2)數(shù)據(jù)增強(qiáng),通過(guò)擴(kuò)充數(shù)據(jù)集的數(shù)量和多樣性,進(jìn)一步提升模型的泛化能力。
數(shù)據(jù)預(yù)處理
Web環(huán)境通常包含多種模態(tài)(如文本和圖像),并且不同平臺(tái)的數(shù)據(jù)之間存在格式差異。網(wǎng)頁(yè)數(shù)據(jù)的多模態(tài)特性為深入理解當(dāng)前環(huán)境提供了豐富的信息,但是不同模態(tài)之間的差異以及數(shù)據(jù)粒度層面的不一致也為模型訓(xùn)練帶來(lái)了顯著挑戰(zhàn)。
為了有效利用多模態(tài)信息,有研究通過(guò)網(wǎng)頁(yè)截圖和增強(qiáng)的可訪問(wèn)性樹(shù)捕捉關(guān)鍵網(wǎng)頁(yè)元素及布局結(jié)構(gòu),增強(qiáng)了文本與視覺(jué)數(shù)據(jù)之間的豐富交互,同時(shí)過(guò)濾掉網(wǎng)站中的無(wú)關(guān)數(shù)據(jù)。
此外,不同設(shè)備平臺(tái)的Web環(huán)境通常存在數(shù)據(jù)格式差異,如命名沖突,這就需要額外的格式對(duì)齊機(jī)制。例如,移動(dòng)設(shè)備上的tap操作對(duì)應(yīng)于PC端的click操作,這可能導(dǎo)致模型在跨平臺(tái)理解和執(zhí)行任務(wù)時(shí)出現(xiàn)一致性混淆。
為了解決這一問(wèn)題,有研究對(duì)跨設(shè)備跨平臺(tái)數(shù)據(jù)集中的動(dòng)作空間進(jìn)行了格式對(duì)齊,進(jìn)而緩解了異構(gòu)數(shù)據(jù)整合帶來(lái)的潛在不一致性。
數(shù)據(jù)增強(qiáng)
大規(guī)模數(shù)據(jù)是基礎(chǔ)大模型涌現(xiàn)智能的基礎(chǔ)。對(duì)于由基礎(chǔ)大模型驅(qū)動(dòng)的WebAgents來(lái)說(shuō),收集大量多樣化的訓(xùn)練數(shù)據(jù)至關(guān)重要,這有助于其提升對(duì)網(wǎng)絡(luò)環(huán)境的感知能力、下一步動(dòng)作推理能力以及復(fù)雜網(wǎng)頁(yè)操作的執(zhí)行能力。
根據(jù)數(shù)據(jù)獲取方式,數(shù)據(jù)增強(qiáng)方法可分為兩類:1)數(shù)據(jù)收集和2)數(shù)據(jù)合成。
數(shù)據(jù)收集指從公開(kāi)數(shù)據(jù)集或真實(shí)場(chǎng)景中收集數(shù)據(jù)。
部分研究表明,與其無(wú)差別地整合所有可用數(shù)據(jù),從公開(kāi)數(shù)據(jù)集中有針對(duì)性地采樣高質(zhì)量、具代表性的數(shù)據(jù),可以顯著提升WebAgents的性能。
但是,盡管由人工專家標(biāo)注的數(shù)據(jù)質(zhì)量較高,其高昂的人力成本限制了數(shù)據(jù)集的規(guī)模,導(dǎo)致模型訓(xùn)練不足,泛化能力有限。
為了應(yīng)對(duì)這一挑戰(zhàn),在不依賴人工或視覺(jué)語(yǔ)言模型的情況下,多種自動(dòng)生成方法構(gòu)建了高性價(jià)比的數(shù)據(jù)集。例如,UINav [6] 通過(guò)隨機(jī)化次級(jí)UI元素的屬性(如文本嵌入或元素偏移),在不增加額外數(shù)據(jù)收集負(fù)擔(dān)的情況下,擴(kuò)充演示數(shù)據(jù),從而緩解訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。
數(shù)據(jù)合成則是指在真實(shí)樣本不足或獲取成本較高時(shí),利用大語(yǔ)言模型或視覺(jué)語(yǔ)言模型自動(dòng)生成與網(wǎng)頁(yè)相關(guān)的合成數(shù)據(jù)集,以豐富訓(xùn)練數(shù)據(jù)。除了這類基礎(chǔ)的數(shù)據(jù)合成方法(如從網(wǎng)頁(yè)抓取元素并為其生成注釋),部分研究還專注于生成豐富的問(wèn)答(Question and Answer, QA)對(duì),以進(jìn)一步提升WebAgents的GUI理解能力。
訓(xùn)練策略
在收集到大規(guī)模數(shù)據(jù)集后,如何高效利用這些數(shù)據(jù)進(jìn)行WebAgent訓(xùn)練至關(guān)重要。
根據(jù)訓(xùn)練策略所采用的學(xué)習(xí)范式、數(shù)據(jù)使用方式和優(yōu)化目標(biāo)的不同,現(xiàn)有研究大致可以分為四類:1)無(wú)訓(xùn)練(Training-free),2)GUI理解能力訓(xùn)練(GUI Comprehension Training),3)特定任務(wù)微調(diào)(Task-specific Fine-tuning),以及4)后訓(xùn)練(Post-training)。
無(wú)訓(xùn)練(Training-free)
隨著基礎(chǔ)大模型的快速發(fā)展,由于這些模型具備類人智能和強(qiáng)大的視覺(jué)、文本理解能力,其極大地推動(dòng)了智能WebAgents的發(fā)展。
基于這些能力,無(wú)訓(xùn)練方法直接通過(guò)精心設(shè)計(jì)的提示詞(Prompts)引導(dǎo)模型執(zhí)行網(wǎng)頁(yè)任務(wù),從而將基礎(chǔ)大模型適配為專用WebAgents。這類方法無(wú)需對(duì)模型結(jié)構(gòu)進(jìn)行修改或參數(shù)更新。
例如,CoAT [7] 提出了「動(dòng)作-思考鏈」提示范式,將動(dòng)作與思考過(guò)程結(jié)合,使導(dǎo)航更高效。
該范式結(jié)合屏幕描述、先前動(dòng)作及其結(jié)果,為下一步動(dòng)作的決策提供明確解釋,并生成后續(xù)步驟的文本描述及其可能結(jié)果。
GUI理解能力訓(xùn)練(GUI Comprehension Training)
盡管通用的基礎(chǔ)大模型在大規(guī)模數(shù)據(jù)集上進(jìn)行了廣泛訓(xùn)練,但它們?cè)贕UI理解能力(尤其是屏幕理解和OCR)方面仍存在不足,難以有效理解和交互網(wǎng)頁(yè)。
例如,通用基礎(chǔ)大模型可能關(guān)注裝飾性圖標(biāo)或背景文本,而忽略關(guān)鍵界面元素,導(dǎo)致對(duì)元素功能的忽略及誤解。為彌補(bǔ)這一差距,許多GUI理解能力訓(xùn)練方法通過(guò)在大規(guī)模網(wǎng)頁(yè)數(shù)據(jù)集上的有監(jiān)督學(xué)習(xí),進(jìn)一步提升了WebAgents的基礎(chǔ)GUI理解能力。
例如,Aguvis [8] 提出了兩階段訓(xùn)練范式,首先將GUI環(huán)境統(tǒng)一為圖像,并在預(yù)訓(xùn)練階段專注于模型對(duì)單一GUI截圖中的元素進(jìn)行理解與交互的訓(xùn)練,為后續(xù)微調(diào)打下堅(jiān)實(shí)基礎(chǔ)。
特定任務(wù)微調(diào)(Task-specific Fine-tuning)
盡管WebAgents通過(guò)GUI理解能力訓(xùn)練能夠有效增強(qiáng)對(duì)于網(wǎng)頁(yè)環(huán)境信息的理解能力,但由于網(wǎng)頁(yè)環(huán)境的復(fù)雜性和用戶目標(biāo)的多樣性,如何基于用戶任務(wù)進(jìn)行準(zhǔn)確推理并生成下一步網(wǎng)頁(yè)交互動(dòng)作仍然是重大挑戰(zhàn)。
因此,特定任務(wù)微調(diào)旨在賦予WebAgents面向網(wǎng)頁(yè)任務(wù)的技能,如規(guī)劃、推理和網(wǎng)頁(yè)交互能力。
例如,有研究提出了一種基于大語(yǔ)言模型的模型,該模型利用腳本式規(guī)劃數(shù)據(jù)集進(jìn)行微調(diào),使其能夠完成規(guī)劃、總結(jié)和執(zhí)行等一系列操作,具體而言:
將自然語(yǔ)言指令分解為可管理的子指令;將冗長(zhǎng)的HTML文檔總結(jié)為與任務(wù)相關(guān)的片段;并通過(guò)自生成的Python代碼執(zhí)行操作。
后訓(xùn)練(Post-training)
在有監(jiān)督訓(xùn)練之后,后訓(xùn)練使WebAgents能夠在面對(duì)指數(shù)級(jí)龐大且動(dòng)態(tài)變化的網(wǎng)頁(yè)環(huán)境時(shí)持續(xù)適應(yīng)環(huán)境并提升能力。
鑒于網(wǎng)頁(yè)交互的開(kāi)放性,僅僅依賴于靜態(tài)數(shù)據(jù)集的訓(xùn)練方法存在明顯局限,因此強(qiáng)化學(xué)習(xí)成為關(guān)鍵的后訓(xùn)練技術(shù)。
隨著網(wǎng)頁(yè)界面的不斷演化以及用戶需求的持續(xù)變化,強(qiáng)化學(xué)習(xí)使WebAgents能夠通過(guò)探索動(dòng)態(tài)環(huán)境和交互反饋來(lái)實(shí)現(xiàn)實(shí)時(shí)適應(yīng)。
例如,大量研究采用漸進(jìn)式強(qiáng)化學(xué)習(xí)框架,通過(guò)自主與網(wǎng)頁(yè)環(huán)境交互,實(shí)現(xiàn)持續(xù)自進(jìn)化學(xué)習(xí)。在交互過(guò)程中,該模型從真實(shí)網(wǎng)站中獲得的知識(shí)具有動(dòng)態(tài)性,使系統(tǒng)能夠?qū)崟r(shí)適應(yīng)并優(yōu)化其決策能力。
可信賴的WebAgents
隨著WebAgents的不斷發(fā)展,越來(lái)越多的研究和實(shí)際案例揭示了WebAgents的潛在風(fēng)險(xiǎn)與挑戰(zhàn)。
最新研究表明,與網(wǎng)絡(luò)系統(tǒng)深度集成的智能體可能帶來(lái)多方面威脅,例如在安全性要求較高的場(chǎng)景下的不可靠和不透明決策,以及對(duì)邊緣群體的偏見(jiàn)和不公正。
此外,用戶隱私和敏感商業(yè)信息的無(wú)意泄露問(wèn)題也引發(fā)了廣泛關(guān)注,進(jìn)一步凸顯了保障WebAgent技術(shù)安全性的重要性和緊迫性。
與此同時(shí),泛化能力的局限也為WebAgents在面對(duì)多樣化情境時(shí)帶來(lái)嚴(yán)重風(fēng)險(xiǎn),可能導(dǎo)致其在處理分布外數(shù)據(jù)或跨領(lǐng)域操作時(shí)出現(xiàn)關(guān)鍵性失誤。
因此,開(kāi)發(fā)可信賴的WebAgents(包括安全與魯棒性、隱私保護(hù)和泛化能力)已成為研究熱點(diǎn)。
安全與魯棒性(Safety & Robustness)
WebAgents需具備應(yīng)對(duì)噪聲和對(duì)抗攻擊的能力,這對(duì)于其在復(fù)雜的真實(shí)網(wǎng)絡(luò)環(huán)境中的正常運(yùn)行至關(guān)重要。例如,大量研究探索了WebAgents對(duì)黑盒攻擊(如網(wǎng)頁(yè)中注入對(duì)抗性提示詞)的脆弱性,這類攻擊可能導(dǎo)致惡意的股票買入或銀行轉(zhuǎn)賬等嚴(yán)重后果。
為系統(tǒng)地評(píng)估安全性,Kumar等人 [10] 開(kāi)發(fā)了BrowserART測(cè)試套件,專為 WebAgents的安全測(cè)試設(shè)計(jì),涵蓋100種有害行為。這一研究發(fā)現(xiàn)即使經(jīng)過(guò)防御訓(xùn)練的模型在網(wǎng)絡(luò)場(chǎng)景下也很容易被攻破。
為提升安全性,Step [11] 將網(wǎng)頁(yè)操作策略動(dòng)態(tài)組合為馬爾可夫決策過(guò)程,確保WebAgents在不同策略間有效切換控制權(quán)。
隱私保護(hù)(Privacy)
WebAgents 能夠在真實(shí)網(wǎng)站上自主完成多種任務(wù),極大提升了人類生產(chǎn)力,但如機(jī)票預(yù)訂等任務(wù)涉及用戶個(gè)人數(shù)據(jù)和財(cái)務(wù)信息,若WebAgents誤入惡意網(wǎng)站,可能導(dǎo)致用戶隱私泄露。
在這種情況下,防止數(shù)據(jù)泄漏和未授權(quán)訪問(wèn)至關(guān)重要。Wang等人 [12] 研究了大模型驅(qū)動(dòng)的智能體的隱私風(fēng)險(xiǎn),提出了黑盒攻擊MEXTRA,揭示了大模型驅(qū)動(dòng)的智能體在防止內(nèi)存中私密信息被提取方面的脆弱性。
Liao等人 [13] 提出環(huán)境注入攻擊(Environment Injection Attack, EIA),通過(guò)向網(wǎng)絡(luò)環(huán)境注入惡意內(nèi)容,可以有效竊取用戶個(gè)人信息或完整請(qǐng)求,進(jìn)一步暴露了WebAgents在隱私保護(hù)方面的風(fēng)險(xiǎn)。
泛化能力(Generalizability)
許多WebAgents的有效性依賴于訓(xùn)練和測(cè)試數(shù)據(jù)同分布的假設(shè),但實(shí)際中經(jīng)常因域外分布(Out-of-Distribution, OOD)問(wèn)題而導(dǎo)致 WebAgents 性能下降,這對(duì)重要場(chǎng)景下的WebAgents部署構(gòu)成了極大的挑戰(zhàn)。為提升泛化能力,有研究通過(guò)引入世界模型,模擬環(huán)境反饋進(jìn)行策略自適應(yīng)。
除上述三大維度外,可信WebAgents還涉及公平性(Fairness)和可解釋性(Explainability)等重要方向。
盡管這些方向同樣關(guān)鍵,但相關(guān)研究尚處于起步階段,特別是在WebAgent領(lǐng)域。因此,這些內(nèi)容將作為未來(lái)研究重點(diǎn)在后續(xù)章節(jié)進(jìn)一步探討。
未來(lái)研究方向
由于WebAgents的研究尚處于初級(jí)階段,仍有若干值得關(guān)注的研究方向:
WebAgents的公平性與可解釋性(Fairness and Explainability)
現(xiàn)有研究主要聚焦于提升WebAgents的能力,而對(duì)其可信性關(guān)注較少,尤其是在公平性和可解釋性方面。公平性要求WebAgents在感知、推理和執(zhí)行過(guò)程中不帶偏見(jiàn)。
例如,不同性別用戶請(qǐng)求WebAgents搜索合適職位時(shí),智能體應(yīng)公平處理,而非基于刻板印象(如認(rèn)為男性更適合做律師、女性更適合做護(hù)士)進(jìn)行推薦。
可解釋性則要求WebAgents能夠?qū)ψ陨硇袨榻o出合理解釋,幫助用戶理解其內(nèi)部機(jī)制,確保其在高風(fēng)險(xiǎn)場(chǎng)景(如股票投資、分子設(shè)計(jì))中的可靠性。
WebAgents的數(shù)據(jù)集與評(píng)測(cè)基準(zhǔn)(Datasets and Benchmarks)系統(tǒng)性評(píng)估
WebAgents的性能已成為關(guān)鍵研究方向,目前已有多個(gè)綜合性基準(zhǔn)用于嚴(yán)格且公平地評(píng)測(cè)WebAgents性能。盡管取得了顯著進(jìn)展,但大多數(shù)基準(zhǔn)僅關(guān)注 WebAgents的某一方面或特定場(chǎng)景,往往忽略了諸如適應(yīng)多樣網(wǎng)頁(yè)布局、應(yīng)對(duì)突發(fā)錯(cuò)誤的魯棒性、或處理復(fù)雜任務(wù)的能力。
此外,許多現(xiàn)有評(píng)測(cè)未能充分反映真實(shí)世界的復(fù)雜性,如網(wǎng)絡(luò)速度波動(dòng)、網(wǎng)站結(jié)構(gòu)不一致,以及長(zhǎng)時(shí)交互中對(duì)上下文的持續(xù)推理需求。因此,亟需更全面、均衡的評(píng)測(cè)基準(zhǔn),以充分評(píng)估WebAgents的能力。
個(gè)性化WebAgents(Personalized WebAgents)
盡管現(xiàn)有基礎(chǔ)大模型驅(qū)動(dòng)的WebAgents在多種網(wǎng)頁(yè)任務(wù)中表現(xiàn)出色,但由于其參數(shù)規(guī)模巨大且訓(xùn)練成本高昂,這極大地限制了其個(gè)性化能力的發(fā)展。
因此,開(kāi)發(fā)既具備強(qiáng)大能力又能實(shí)現(xiàn)有效個(gè)性化的WebAgents,是一個(gè)具有挑戰(zhàn)性但前景廣闊的研究方向。為應(yīng)對(duì)這一挑戰(zhàn),研究者開(kāi)始探索新的方法,如將檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)系統(tǒng)與長(zhǎng)短期記憶機(jī)制結(jié)合。
長(zhǎng)期記憶支持WebAgents在長(zhǎng)時(shí)間內(nèi)檢索和存儲(chǔ)相關(guān)信息,使其能夠持續(xù)、個(gè)性化地理解用戶;短期記憶則幫助WebAgents在實(shí)時(shí)對(duì)話或任務(wù)中快速適應(yīng)當(dāng)前上下文,實(shí)現(xiàn)靈活響應(yīng)。通過(guò)整合這些機(jī)制,個(gè)性化WebAgents能夠?qū)崿F(xiàn)更高的適應(yīng)性,為用戶提供更貼合需求的定制化解決方案。
面向特定領(lǐng)域的 WebAgents (Domain-Specific WebAgents)
近年來(lái),越來(lái)越多的研究表明,基于基礎(chǔ)大模型的 WebAgents 在各類垂直領(lǐng)域中具有廣闊的應(yīng)用前景。然而,盡管將通用 WebAgents 應(yīng)用到特定場(chǎng)景例如教育、醫(yī)療等專業(yè)領(lǐng)域存在著迫切的現(xiàn)實(shí)需求和顯著的潛在價(jià)值,但當(dāng)前有關(guān)這類研究的探索仍然較為有限。
因此,如何將通用型 WebAgents 有效地適配到特定領(lǐng)域,正逐漸成為一個(gè)值得深入研究的發(fā)展方向。
為了實(shí)現(xiàn)可靠的領(lǐng)域?qū)賅ebAgents,需要滿足一系列關(guān)鍵條件:構(gòu)建貼合該領(lǐng)域特點(diǎn)的定制化知識(shí)庫(kù);設(shè)計(jì)穩(wěn)健的數(shù)據(jù)安全機(jī)制,以妥善處理敏感信息;以及具備足夠的靈活性,以應(yīng)對(duì)快速變化的行業(yè)需求。
這些關(guān)鍵能力的構(gòu)建不僅有助于提升 WebAgents 的實(shí)際效用,也可以極大拓展其在專業(yè)領(lǐng)域中的應(yīng)用前景。
參考資料:
Liangbo Ning, et. al. “A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models” In ACM SIGKDD, 2025. arXiv:2503.23350, 2025.
Fan, Wenqi, et al. "A survey on RAG meeting LLMs: Towards retrieval-augmented large language models." Proceedings of the 30th ACM SIGKDD conference on knowledge discovery and data mining. 2024.
Xiang Deng, et al. Mind2web: Towards a generalist agent for the web. Advances in Neural Information Processing Systems 36 (2023), 28091–28114. 2023.
Hongliang He, et al. WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 6864–6890. 2024.
Saaket Agashe, et al. Agent S: An Open Agentic Framework that Uses Computers Like a Human. In The Thirteenth International Conference on Learning Representations. 2025.
Yueqi Song, et al. Beyond Browsing: API-Based Web Agents. arXiv preprint arXiv:2410.16464 (2024). 2024.
Wei Li, et al. UINav: A practical approach to train on-device automation agents. arXiv preprint arXiv:2312.10170 (2023). 2023.
Jiwen Zhang, et al. Android in the zoo: Chain-of-action-thought for GUI agents. arXiv preprint arXiv:2403.02713 (2024). 2024.
Yiheng Xu, et al. Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction. arXiv preprint arXiv:2412.04454 (2024). 2024.
Fangzhou Wu, et al. Wipi: A new web threat for LLM-driven web agents. arXiv preprint arXiv:2402.16965 (2024). 2024.
Priyanshu Kumar, et al. Refusal-trained LLMs are easily jailbroken as browser agents. arXiv preprint arXiv:2410.13886 (2024). 2024.
Paloma Sodhi, et al. Step: Stacked LLM policies for web actions. arXiv preprint arXiv:2310.03720 (2023). 2023.
Bo Wang, et al. Unveiling Privacy Risks in LLM Agent Memory. arXiv preprint arXiv:2502.13172 (2025). 2025.
Zeyi Liao, et al. Eia: Environmental injection attack on generalist web agents for privacy leakage. arXiv preprint arXiv:2409.11295 (2024). 2024.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.