夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里發(fā)布信息檢索Agent,可自主上網(wǎng)查資料,GAIA基準超越GPT-4o

0
分享至

不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

Agent能“看懂網(wǎng)頁”,像人類一樣上網(wǎng)?

阿里發(fā)布WebDancer,就像它的名字一樣,為“網(wǎng)絡舞臺”而生。

只要輸入指令,它就可以幫你上網(wǎng)搜索、做攻略,實現(xiàn)自主信息檢索代理和類似深度研究模型的推理。

傳統(tǒng)模型只能按固定流程思考,而WebDancer作為一個端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。



WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分數(shù),優(yōu)于基線模型和部分開源框架。

模型和方法均已開源,網(wǎng)友直呼想試:



WebDancer的秘密武器

不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

使用GAIA、WebWalkerQA和日常使用情況對WebDancer進行演示,可以看到,WebDancer能夠執(zhí)行多步驟和復雜推理的長期任務,例如網(wǎng)頁遍歷、信息搜索和問答。

它的“秘密武器”是一種四階段訓練范式,包括瀏覽數(shù)據(jù)構建、軌跡采樣、針對有效冷啟動的監(jiān)督微調以及用于改進泛化能力的強化學習。

阿里開源了這個訓練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

1、瀏覽數(shù)據(jù)構建



這一步的目標是創(chuàng)建覆蓋真實的網(wǎng)頁環(huán)境、需要多步交互的復雜QA對。

可以分為兩個網(wǎng)絡數(shù)據(jù)生成流程,如上圖所示。

在CRAWLQA中,需要先收集知識性網(wǎng)站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統(tǒng)地點擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

使用預定義規(guī)則,就可以利用GPT4o根據(jù)收集到的信息生成QA對(1.0版)了。

對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實體檢索→信息擴展→問題重構的步驟,使任務在復雜性上逐步擴展,從簡單的實例到更具挑戰(zhàn)性的實例。

依然是使用GPT-4o重寫問題,直到迭代達到n,QA對足夠成熟。

2、軌跡采樣



這一步要從QA對中生成高質量的思維-動作-觀察(Thought-Action-Observation)執(zhí)行軌跡。

WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個ReAct軌跡由多個思維-動作-觀察輪次組成:

在思維階段,模型會根據(jù)輸入生成推理鏈,然后在動作階段將參數(shù)為結構化JSON,最后在觀察階段返回結果(如網(wǎng)頁摘要或搜索片段)

思維階段生成的思維鏈對智能體執(zhí)行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

  • 短思維鏈適用于單步驟任務,直接使用GPT-4o生成簡潔軌跡;
  • 長思維鏈適用于多步驟任務,使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。



因為LRM、QwQ-Plus在訓練過程中沒有接觸過多步推理輸入,在進一步推理時,WebDancer排除了之前的思維,但它們作為有價值的監(jiān)督信號保留在了生成的軌跡中。

隨后,WebDancer采用了一個基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個標準的軌跡:信息非冗余、目標一致性以及邏輯推理準確性。

3、有監(jiān)督微調



在獲得ReAct格式的優(yōu)質軌跡后,就可以將其無縫整合到智能體的有監(jiān)督微調(Supervised Fine-Tuning,SFT)訓練階段,這個步驟可以教會模型基礎的任務分解與工具調用能力,同時盡可能保留其原有的推理能力。

在SFT階段,要先將軌跡轉換為標記化輸入,明確分隔符,然后計算Thought和Action部分的損失(忽略Observation噪聲),損失公式如下:



其中tc

是任務上下文,



為完整的智能體執(zhí)行軌跡,每個



代表思考/行動/觀察,



過濾掉對應外部反饋的標記,確保損失是在代理的自主決策步驟上計算的。

SFT階段為后續(xù)的RL階段提供了強大的初始化。

4、強化學習

這一步的目標是優(yōu)化代理在真實網(wǎng)絡環(huán)境中的決策能力和泛化能力。

在SFT階段的基礎上,本階段采用解耦裁剪動態(tài)采樣策略優(yōu)化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調策略模型。

DAPO是一種基于獎勵模型R的策略優(yōu)化算法,其工作原理如下:

首先,對于每個包含部分答案



的階段軌跡



,算法生成一組候選執(zhí)行序列



。通過最大化以下目標更新策略:



隨后,過采樣并過濾準確率為1或0的提示(prompts),確保智能體聚焦于高質量信號的學習。

最后,采用新舊策略的概率比替代固定KL懲罰項:





獎勵設計在RL訓練過程中起著至關重要的作用,WebDancer的獎勵機制主要由兩種類型的獎勵組成,分別為格式獎勵和答案獎勵,權重分別為0.1和0.9。

最終獎勵函數(shù)為:

有效性分析



在GAIA和WebWalkerQA這兩個成熟的基準數(shù)據(jù)集上測試WebDancer,結果顯示,WebDancer在GAIA上達到46.6%的平均準確率,WebWalkerQA上達到43.2%,優(yōu)于基線模型和部分開源智能體框架。

可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準測試中均表現(xiàn)不佳,這突出了主動信息搜索和代理決策對于這些任務的重要性。

閉源代理系統(tǒng)OpenAI DR通過端到端強化學習訓練實現(xiàn)了最高分,在開源框架中,基于原生強推理模型(如QwQ-32B)構建的代理方法始終優(yōu)于非代理對應方法,證明了在代理構建中利用推理專用模型的有效性。



在兩個更具挑戰(zhàn)性的數(shù)據(jù)集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現(xiàn)出持續(xù)強勁的性能,突顯了其在處理困難推理和信息搜索任務中的魯棒性和有效性。



鑒于智能體環(huán)境的動態(tài)性和復雜性,以及GAIA測試集相對較小且變化較大的特點,對Pass@3和Cons@3進行細粒度分析。

值得注意的是,經(jīng)過RL后的Pass@1性能與SFT基線的Pass@3相當,表明RL能夠更有效地采樣正確響應。

對于語言推理模型(LRMs),雖然經(jīng)過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導致的稀疏獎勵信號所致。

參考鏈接:
https://x.com/_akhaliq/status/1937997314737553873
論文:https://arxiv.org/abs/2505.22648
github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國民黨前黨主席連戰(zhàn):我支持協(xié)商統(tǒng)一,但是有一個前提條件

國民黨前黨主席連戰(zhàn):我支持協(xié)商統(tǒng)一,但是有一個前提條件

芳芳歷史燴
2025-07-21 17:39:01
江蘇3所‘包分配’院校,高考生600分讀了會后悔?警惕!

江蘇3所‘包分配’院校,高考生600分讀了會后悔?警惕!

手工制作阿愛
2025-08-04 16:56:35
麥當勞啟動香港史上最大規(guī)模資產(chǎn)出售,23間商鋪分批甩,總價值13.5億港元

麥當勞啟動香港史上最大規(guī)模資產(chǎn)出售,23間商鋪分批甩,總價值13.5億港元

風向觀察
2025-07-28 18:51:36
武漢某大學論文大賞:基督精神影響杜甫、恐男步行路徑規(guī)劃、廢除女性犯罪死刑

武漢某大學論文大賞:基督精神影響杜甫、恐男步行路徑規(guī)劃、廢除女性犯罪死刑

不掉線電波
2025-08-03 14:53:13
“人到七十,三地不去,三親不走”,老祖宗的古訓,暗藏著智慧

“人到七十,三地不去,三親不走”,老祖宗的古訓,暗藏著智慧

上進Fo子
2025-08-05 08:00:09
9000萬!曼聯(lián)別簽約了!“霍伊倫二代”真的不值得

9000萬!曼聯(lián)別簽約了!“霍伊倫二代”真的不值得

卡靈頓分析師
2025-08-05 13:03:38
攻最能防的,防最能攻的,什么是攻防一體,只有這三人能詮釋!

攻最能防的,防最能攻的,什么是攻防一體,只有這三人能詮釋!

大衛(wèi)的籃球故事
2025-08-02 19:09:19
浙媒:浙江隊戰(zhàn)國安低價票2分鐘售罄,國產(chǎn)小將吸引不少球迷觀賽

浙媒:浙江隊戰(zhàn)國安低價票2分鐘售罄,國產(chǎn)小將吸引不少球迷觀賽

直播吧
2025-08-05 13:04:17
10萬睡一次?黃一鳴曝王思聰禿頭求上床,轉賬記錄全網(wǎng)瘋傳!

10萬睡一次?黃一鳴曝王思聰禿頭求上床,轉賬記錄全網(wǎng)瘋傳!

深析古今
2025-07-29 22:50:18
400多年后再看,多爾袞給華夏帶來的四大災難,依然讓人震驚不已

400多年后再看,多爾袞給華夏帶來的四大災難,依然讓人震驚不已

珺瑤婉史
2025-08-04 20:25:03
天津的雨下到了全國第一!局部暴雨下在哪兒?今天這雨剛開始……

天津的雨下到了全國第一!局部暴雨下在哪兒?今天這雨剛開始……

魯中晨報
2025-08-05 09:03:15
韓國申奧失敗,卡塔爾截胡成功。卡塔爾正式宣布舉辦2036年奧運會

韓國申奧失敗,卡塔爾截胡成功??ㄋ栒叫寂e辦2036年奧運會

西樓知趣雜談
2025-07-25 22:09:46
《照相館》高葉一個細節(jié)太真實,“衣衫不整”大人懂,小孩看不出

《照相館》高葉一個細節(jié)太真實,“衣衫不整”大人懂,小孩看不出

歸史
2025-08-01 11:26:50
獨攬三金!官方:中國選手陳藝文當選世錦賽跳水最佳女運動員

獨攬三金!官方:中國選手陳藝文當選世錦賽跳水最佳女運動員

直播吧
2025-08-05 10:13:07
新婚婆婆要我上交工資卡,她拿卡去超市,收銀員的話讓她愣住

新婚婆婆要我上交工資卡,她拿卡去超市,收銀員的話讓她愣住

秋風專欄
2025-08-04 16:50:20
天賦溢出!16歲恩古莫哈季前5場3球&2次一條龍,利物浦從藍軍搶人

天賦溢出!16歲恩古莫哈季前5場3球&2次一條龍,利物浦從藍軍搶人

直播吧
2025-08-05 10:03:20
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現(xiàn)驚人現(xiàn)象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現(xiàn)驚人現(xiàn)象

詭譎怪談
2025-04-01 17:37:59
險破劉翔世界青年紀錄!陳圓將人類歷史第二人,成績放奧運排第四

險破劉翔世界青年紀錄!陳圓將人類歷史第二人,成績放奧運排第四

楊華評論
2025-08-04 22:54:22
心酸!河北夫妻夜里去地里澆地,丈夫突然找不到,發(fā)現(xiàn)時妻子哭了

心酸!河北夫妻夜里去地里澆地,丈夫突然找不到,發(fā)現(xiàn)時妻子哭了

甜檸聊史
2025-08-05 10:45:28
70歲的王健林沒想到,曾經(jīng)那個不學無術的兒子,如今讓他刮目相看

70歲的王健林沒想到,曾經(jīng)那個不學無術的兒子,如今讓他刮目相看

史書無明
2025-06-27 08:55:10
2025-08-05 15:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11028文章數(shù) 176218關注度
往期回顧 全部

科技要聞

理想取消i8 Pro,將i8 Max改為標配并降價

頭條要聞

臺官員疑稱用4000億美元換降關稅 臺經(jīng)濟部門急"滅火"

頭條要聞

臺官員疑稱用4000億美元換降關稅 臺經(jīng)濟部門急"滅火"

體育要聞

曾凡博簽籃網(wǎng),跑龍?zhí)走€是真有戲?

娛樂要聞

魚死網(wǎng)破!趙露思直播“解約”

財經(jīng)要聞

王貽芳院士:AI離人腦還有巨大差距

汽車要聞

七座魔法空間 捷途山海L7 PLUS細節(jié)超貼心

態(tài)度原創(chuàng)

家居
手機
游戲
親子
藝術

家居要聞

通透大方 開放收納設計

手機要聞

綠廠這是開掛了嗎?OPPO最近至少有三個好消息

《戰(zhàn)地6》游戲 Beta 公測日期公布!本周即可暢玩!

親子要聞

吃相太難看!育兒補貼公布僅僅一周,官媒曝光母嬰產(chǎn)品集體大漲價

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 欧美搡bbbbb搡bbbbb| av在线播放日韩亚洲欧我不卡| 国产精品无码一区二区在线观| 国产精品香蕉视频在线| 国产手机在线视频| 少妇性爱影院在线观看| 无码精品人妻一区二区三区av | 中文字幕无码高潮到痉挛| 亚洲无码高清一区二区 | 国产av大秀| 亚洲精品欧美日韩一区| 在线中文字幕亚洲日韩2020| 激情都市人妻| 日韩一区一区二区三区| 粉嫩AV四季AV绯色AV第一区| 亚洲中文字幕无码久久精品1| 强行交换配乱婬bd免费观看| 国产伦精品一区二区三区在线播放| 亚洲看片lutube在线观看| 日韩成人AV无码一区二区三区| 亚洲性生片免费看| 69久久夜色精品国产69| 性色无码成a人在线观看| 久久无码中文字幕免费影院| 校园另类小说激情视频| 护士脱了内裤让我爽了一夜视频| 成人av软件| 免费人成在线观看播放国产 | 天天视频综合网| 一区二区三区十八勿| 欧美在线a| 天堂天躁狠狠躁夜躁2020| 亚洲精品理论电影在线观看| 国产成人精品免费久久久久| 四虎亚洲精品无码| 中文字幕在线不卡精品视频99 | 疯狂做受xxxx高潮不断| 婷婷综合缴情亚洲| 亚洲av无码影院| 亚洲人成网站在线观看69影院| 在线日韩国产成人免费|