夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

ARPO:智能體強化策略優(yōu)化,讓Agent在關鍵時刻多探索一步

0
分享至



本文的第一作者是董冠霆,目前就讀于中國人民大學高瓴人工智能學院,博士一年級,導師為竇志成教授和文繼榮教授。他的研究方向主要包括大語言模型推理,多智能體強化學習、深度搜索智能體等。在國際頂級會議如 ICLR、ACL、AAAI 等發(fā)表了多篇論文,并在快手大模型應用組、阿里通義千問組等大模型團隊進行實習。其代表性工作包括 AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。本文的通信作者為中國人民大學的竇志成教授與快手科技的周國睿。

在可驗證強化學習(RLVR)的推動下,大語言模型在單輪推理任務中已展現(xiàn)出不俗表現(xiàn)。然而在真實推理場景中,LLM 往往需要結合外部工具進行多輪交互,現(xiàn)有 RL 算法在平衡模型的長程推理與多輪工具交互能力方面仍存在不足。

為此,我們提出了全新的Agentic Reinforced Policy Optimization(ARPO)方法,專為多輪交互型 LLM 智能體設計

ARPO 首次發(fā)現(xiàn)模型在調用外部工具后會推理不確定性(高熵)顯著增加的現(xiàn)象,并基于此引入了熵驅動的自適應 rollout 策略,增強對高熵工具調用步驟的探索。同時,通過引入優(yōu)勢歸因估計,模型能夠更有效地理解工具交互中各步驟的價值差異。在 13 個計算推理、知識推理和深度搜索等高難基準上,ARPO 在僅使用一半工具調用預算的情況下,仍顯著優(yōu)于現(xiàn)有樣本級 RL 方法,為多輪推理智能體的高效訓練提供了可擴展的新方案。



  • 論文標題:Agentic Reinforced Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2507.19849
  • 代碼倉庫:https://github.com/dongguanting/ARPO
  • 開源數據 & 模型:https://huggingface.co/collections/dongguanting/arpo-688229ff8a6143fe5b4ad8ae

目前不僅在 X 上收獲了超高的關注度,同時榮登Huggingface Paper 日榜,周榜第一名!



研究動機:

抓住工具調用后的高熵時刻

近年來,可驗證獎勵的大規(guī)模強化學習在單輪推理任務中充分釋放了前沿大語言模型的潛力,表現(xiàn)亮眼。然而,在開放式推理場景下,LLM 不僅需要具備長程規(guī)劃與自適應決策能力,還需與外部工具進行動態(tài)的多輪交互。這催生了 Agentic RL 這一新范式,將訓練從靜態(tài)求解轉向動態(tài)的智能體 - 環(huán)境推理。現(xiàn)有 Agentic RL 方法多采用樣本級算法(如 GRPO、DAPO),在固定特殊 token 下獨立采樣完整的工具調用軌跡,并基于最終輸出獎勵模型。但這種方式常因獎勵稀疏、工具過用等問題導致多輪交互價值被低估,忽視了工具調用過程中每一步的細粒度行為探索。

通過對 LLM 在深度搜索任務中的 token 熵分布進行分析,研究發(fā)現(xiàn)模型在每次工具調用后的初始生成階段熵值顯著升高,說明外部工具反饋會引入高不確定性,而這正是現(xiàn)有方法未充分利用的探索契機。



圖 1:左圖展示大模型在調用工具后的高熵現(xiàn)象,右圖對比 ARPO 與基線性能

ARPO 框架:訓練模型自主實現(xiàn)推理時的多工具調用

針對上述發(fā)現(xiàn),我們提出Agentic Reinforced Policy Optimization(ARPO),核心思想是在高熵工具調用步驟中,自適應地分支采樣,探索更多多樣化的推理路徑。具體來說,我們的貢獻如下:

  • 我們量化了 LLM 在 Agentic 推理過程中的 token 熵變化,揭示了樣本級 RL 算法在對齊 LLM 智能體方面的固有限制。
  • 我們提出了 ARPO 算法,引入基于熵的自適應 rollout 機制,在保持全局采樣的同時,在高熵工具調用步驟中鼓勵分支采樣。此外,ARPO 結合優(yōu)勢歸因估計,幫助 LLM 更好地內化步驟級工具使用行為中的優(yōu)勢差異。
  • 除了啟發(fā)式動機,我們還從理論上論證了在 LLM 智能體訓練中引入 ARPO 算法的合理性
  • 在 13 個高難基準上的實驗表明,ARPO 在僅使用一半工具調用訓練預算的情況下,性能穩(wěn)定優(yōu)于主流 RL 算法,為探索 Agentic RL 提供了可行性參考與實踐啟示。

工具調用的熵變現(xiàn)象:高熵時刻與探索困境



圖 2:跨數據集分析基于 LLM 的工具使用智能體的 token 熵變化與 token 頻率分布

通過分析大型模型在結合工具執(zhí)行復雜搜索與推理任務時的 token 熵值,我們發(fā)現(xiàn)以下幾點:

1. 在每次工具調用后的前 10–50 個 token 內,熵顯著上升。

2. 在推理的初始階段,熵往往會增加,但仍低于大模型接收到工具調用反饋后的水平。

3. 搜索引擎的反饋引入的熵波動比代碼編譯器的執(zhí)行反饋更大。

這些現(xiàn)象可以歸因于外部反饋與模型內部推理之間的 token 分布轉移,這甚至導致引入的推理不確定性超過原始輸入的問題。此外,搜索引擎通常提供豐富的文本內容,而代碼編譯器輸出則由確定性的數字組成,這導致前者的熵波動更大。

工具設計:多樣化工具支撐 Agentic 推理

本研究聚焦于優(yōu)化基于 LLM 的工具使用智能體的訓練算法。在梳理現(xiàn)有 Agentic RL 研究后,我們選取三類具有代表性的工具,用于實證評估 ARPO 的有效性:

  • 搜索引擎:通過執(zhí)行網絡搜索查詢檢索相關信息,支持本地及在線模式。
  • 網頁瀏覽智能體:訪問并解析搜索引擎返回的網頁鏈接,提取并總結關鍵信息以響應查詢。
  • 代碼解釋器:自動執(zhí)行 LLM 生成的代碼,若執(zhí)行成功則返回結果,否則返回編譯錯誤信息。

這些工具覆蓋信息檢索、內容解析與程序執(zhí)行等多類功能,為多輪交互與復雜推理場景提供了強有力的支撐。

ARPO 算法:利用熵信號指導 LLM 逐步優(yōu)化工具調用

基于熵的自適應 rollout 機制

ARPO 的核心思想在于結合全局采樣與熵驅動的局部采樣,在模型工具調用后不確定性升高的階段加大探索力度,從而提升推理效果。其基于熵的自適應 rollout 機制包含四個關鍵步驟:



圖 3:ARPO 的基于熵驅動的自適應 rollout 機制,結合全局探索與局部高熵節(jié)點分支

1. Rollout 初始化



2. 熵變監(jiān)控



3. 基于熵的自適應分支



模型的分支決策如下:



該機制將探索資源自適應分配到熵上升區(qū)域,這些區(qū)域往往蘊含更高的信息增益。

4. 終止條件

Rollout 過程持續(xù)進行,直到分叉路徑數達到預算上限 M-N(停止分支并完成采樣)或所有路徑提前終止。若預算仍有剩余,則補充全局采樣以覆蓋更全面的推理空間。



優(yōu)勢歸因估計

ARPO 的熵驅動自適應 rollout 會產生包含共享推理片段和分支路徑的軌跡,這啟發(fā)我們優(yōu)化策略更新方式,更好地利用步驟級工具調用信息。

兩種優(yōu)勢估計方式

1. 硬優(yōu)勢估計(Hard)

明確區(qū)分共享和分支 token,對共享部分計算平均優(yōu)勢,對分支部分單獨計算:

對分支 token 的優(yōu)勢估計:



對共享 token 的優(yōu)勢估計:



2. 軟優(yōu)勢估計(Soft)





其中重要性采樣比率:





實驗結果證明軟優(yōu)勢估計在 ARPO 訓練中能穩(wěn)定獲得更高獎勵,故將其設為默認優(yōu)勢估計方法。

分層獎勵設計

ARPO 的獎勵函數綜合考慮答案正確性、工具調用格式及多工具協(xié)作。 如果模型在推理中使用了搜索(

)和代碼(

)等多種工具,并保證答案正確且格式合規(guī),會獲得額外獎勵,公式如下:



其中:



通過軟優(yōu)勢估計與分層獎勵機制,ARPO 在訓練中能更平穩(wěn)、更高效地優(yōu)化多輪工具使用策略。

實驗結果:10 + 綜合推理任務評測

為了充分評估 ARPO 的泛化性和高效性,我們考慮以下三種測試集:

計算型推理任務:評估模型的計算推理能力,包括 AIME24,AIME25,MATH500,GSM8K,MATH。

知識密集型推理任務:評估模型結合外部知識推理的能力,包括 WebWalker,HotpotQA,2WIKI,MisiQue,Bamboogle。

深度搜索任務:評估模型的深度搜索能力,包括 HLE,GAIA,SimpleQA,XBench。





從實驗結果可以發(fā)現(xiàn):

  • ARPO 整體表現(xiàn)優(yōu)于主流方法:ARPO 在大部分任務上準確率高于 GRPO、DAPO 等樣本級 RL 方法,在工具調用密集任務(如 GAIA、HLE)中提升幅度更明顯。
  • 多任務保持穩(wěn)定性能:ARPO 在計算、知識與搜索任務中均保持較好的表現(xiàn),沒有明顯性能短板,驗證其跨任務的適配能力。

實驗:采樣分析與工具調用效率評估

多輪采樣能力提升模型表現(xiàn)

由于 Deepsearch 任務具有動態(tài)、多輪交互的特點,單純使用 Pass@1 指標難以全面反映模型的工具調用潛力。我們進一步分析了 Pass@3 和 Pass@5 指標,發(fā)現(xiàn)無論是 8B 還是 14B 規(guī)模模型,在經過 ARPO 對齊訓練后,均表現(xiàn)出持續(xù)提升和良好的規(guī)模效應。其中,14B 模型在 Pass@5 指標上表現(xiàn)尤為出色:

  • GAIA 達到61.2%
  • HLE 達到24.0%
  • XBench-DR 達到59%

工具調用效率顯著提升

在 Agentic RL 訓練中,工具調用次數直接影響成本。我們以 Qwen2.5-7B 模型為例,將 ARPO 與 GRPO 方法進行對比:

  • ARPO 在整體準確率上優(yōu)于 GRPO
  • 同時僅使用了約一半的工具調用次數



這得益于 ARPO 獨特的基于熵的自適應采樣機制,僅在高熵工具調用步驟進行分支采樣,極大地擴展了工具行為的探索空間,同時降低了不必要的調用。

總結與未來展望

ARPO 算法有效提升了多輪工具推理代理的性能,解決了現(xiàn)有樣本級 RL 方法在多輪交互中探索不足、泛化能力欠缺的問題。通過熵驅動自適應采樣和優(yōu)勢歸因機制,ARPO 能夠在工具調用頻繁、推理路徑復雜的任務中實現(xiàn)更高效、更穩(wěn)定的輸出。未來,為持續(xù)提升 Agentic RL 模型的能力,仍有多個方向值得探索:

  • 多模態(tài) Agentic RL:ARPO 目前主要針對文本推理任務,在處理圖像、視頻等多模態(tài)信息方面仍有局限。未來可擴展至多模態(tài)任務中,探索模型在多模態(tài)場景下的工具調用與策略優(yōu)化。
  • 工具生態(tài)擴展:ARPO 已經驗證了在多工具協(xié)作任務上的潛能。未來可引入更多類型的外部工具(如代碼調試器、數據分析工具、實時 API 調用等),并通過工具使用策略優(yōu)化進一步提升復雜任務表現(xiàn)。
  • 大規(guī)模與實時部署:ARPO 展示了較高的訓練效率和推理泛化性,未來可探索在更大規(guī)模模型和實時動態(tài)環(huán)境中的部署與適配,降低成本同時提升實用價值。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
報清北的“天塌了”,西湖大學曬出實拍宿舍,一看學費更不是滋味

報清北的“天塌了”,西湖大學曬出實拍宿舍,一看學費更不是滋味

熙熙說教
2025-08-11 21:19:31
今晚非必要不外出!“楊柳”加強至強臺風級,或在閩粵二次登陸

今晚非必要不外出!“楊柳”加強至強臺風級,或在閩粵二次登陸

廈門日報
2025-08-13 09:52:13
項立剛:中美玩了全世界

項立剛:中美玩了全世界

振華觀史
2025-08-12 12:02:10
養(yǎng)娃5個月花出去4萬塊!女子吐槽丈夫一家像螞蟥,只會盯著她的錢

養(yǎng)娃5個月花出去4萬塊!女子吐槽丈夫一家像螞蟥,只會盯著她的錢

嫹筆牂牂
2025-08-13 08:02:33
黃巖島爆發(fā)沖突,菲35船三面包圍中方,解放軍以寡敵眾,052D接戰(zhàn)

黃巖島爆發(fā)沖突,菲35船三面包圍中方,解放軍以寡敵眾,052D接戰(zhàn)

現(xiàn)代小青青慕慕
2025-08-11 16:44:37
中國驕傲!4隊參加亞冠正賽 上海雙雄成都亞冠精英 國安亞冠二級

中國驕傲!4隊參加亞冠正賽 上海雙雄成都亞冠精英 國安亞冠二級

新英體育
2025-08-13 10:56:03
25年前與普京合影的湖南小伙:在俄留學7年,感受中國基建飛速發(fā)展,希望再次同框

25年前與普京合影的湖南小伙:在俄留學7年,感受中國基建飛速發(fā)展,希望再次同框

三湘都市報
2025-08-12 10:20:05
難怪特朗普老實了!美國財政部長透露細節(jié),中美談判果然不簡單!

難怪特朗普老實了!美國財政部長透露細節(jié),中美談判果然不簡單!

萬國明信片
2025-08-12 16:43:38
清真寺車輛不掛車牌,是傳統(tǒng),還是“特權”?

清真寺車輛不掛車牌,是傳統(tǒng),還是“特權”?

西域都護
2025-08-12 13:07:08
12306回應高中生無法購買學生票:須滿足異地求學條件并開具書面證明

12306回應高中生無法購買學生票:須滿足異地求學條件并開具書面證明

封面新聞
2025-08-12 12:30:03
中央紀委披露多個家族式腐敗案例:鄭小燕與丈夫、弟弟、妹妹、女婿等8名親屬共同涉案

中央紀委披露多個家族式腐敗案例:鄭小燕與丈夫、弟弟、妹妹、女婿等8名親屬共同涉案

魯中晨報
2025-08-12 22:32:01
腦梗的“源頭”已發(fā)現(xiàn),肥肉沒上榜,第1名大家可能每天都在吃!

腦梗的“源頭”已發(fā)現(xiàn),肥肉沒上榜,第1名大家可能每天都在吃!

明月聊史
2025-08-11 11:40:54
“牡丹花下死,做鬼也風流”!這一次,沒人勸得了38歲的張雨綺

“牡丹花下死,做鬼也風流”!這一次,沒人勸得了38歲的張雨綺

振華觀史
2025-08-12 15:34:59
哦?詹姆斯?jié)饷纪l(fā)宣言!湖人放棄交易!

哦?詹姆斯?jié)饷纪l(fā)宣言!湖人放棄交易!

柚子說球
2025-08-13 11:48:12
郭曉冬去橫店探班,47歲程莉莎一把摟住老公,完全不像生理性喜歡

郭曉冬去橫店探班,47歲程莉莎一把摟住老公,完全不像生理性喜歡

鄭丁嘉話
2025-08-13 09:43:22
三亞7199元一晚的酒店蟲子成群?涉事酒店致歉

三亞7199元一晚的酒店蟲子成群?涉事酒店致歉

環(huán)球網資訊
2025-08-13 07:16:47
范曾小50歲嬌妻疑出軌,出售丈夫字畫獲利超2億,借腹生子太炸裂

范曾小50歲嬌妻疑出軌,出售丈夫字畫獲利超2億,借腹生子太炸裂

不八卦掌門人
2025-08-12 12:38:57
TikTok周受資,為什么要提拔一個高考狀元?

TikTok周受資,為什么要提拔一個高考狀元?

新10億商業(yè)參考
2025-08-12 18:47:17
票房從7.8億跌到了6500萬,我感慨:這塊喜劇片金字招牌算砸了

票房從7.8億跌到了6500萬,我感慨:這塊喜劇片金字招牌算砸了

靠譜電影君
2025-08-11 22:54:28
特斯拉Model 3長續(xù)航版上市!830公里續(xù)航售價26.95萬元起,馬斯克官宣:9月FSD有重大更新

特斯拉Model 3長續(xù)航版上市!830公里續(xù)航售價26.95萬元起,馬斯克官宣:9月FSD有重大更新

每日經濟新聞
2025-08-12 17:23:16
2025-08-13 12:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11074文章數 142415關注度
往期回顧 全部

科技要聞

美國"放行",中國反勸企業(yè)避用英偉達H20

頭條要聞

4歲半男童玩耍關臥室門打不開 翻窗戶墜落22樓受重傷

頭條要聞

4歲半男童玩耍關臥室門打不開 翻窗戶墜落22樓受重傷

體育要聞

英超新賽季前瞻:4大豪門爭冠 曼聯(lián)2億重建

娛樂要聞

文章疑和姚笛現(xiàn)身上海,真舊情難忘?

財經要聞

2009-2025,中國恒大16年上市之路終結

汽車要聞

全新家族式設計 新款豐田鋒蘭達假想圖曝光

態(tài)度原創(chuàng)

藝術
教育
數碼
健康
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

普通父母如何給到孩子頂級的托舉

數碼要聞

129元!米家加濕器3正式開售 支持99.9%銀離子抗菌

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 亚洲欧美丝袜精品久久中文字幕| 99久久国产综合精品麻豆| 每日更新在线观看av| 国产精品网址视频| 成 人 1 8 黄 色 视 频| 无码精品人妻77777| 成人免费视频视频在线观看 免费| 欧美性爱第一网页| AV在线一二三四区| 国产在线精品成人一区二区| 精选AV奶水天堂一区二区| 内射乱操视频免费看| 粗大猛烈进出高潮视频免费看| 国产麻豆精品福利在线| 美熟av 日韩av| www.97超碰| 欧美国产日产一区二区| 亚洲成a人无码av波多野| 国产成人AV一区二区| 日产精品一二三四区| 波多野结衣无码在线视频播放| 久久成人精品影视| 高清无码午夜福利视频| AV网站在线播放| 久久久久久久久无码av| 久久美女夜夜骚骚免费视频| 亚洲情一区二区三区| 国产男女猛烈视频在线观看| 最新亚洲卡一卡二卡三新区| 伊人色在线视频| 波野内射二区| 免费看刺激毛片在线播放| AV天堂资源成人| 欧美人与动性xxxxx杂性| 日韩av你懂的| 亚洲成A人片在线观看的电影 | 国产色视频一区二区三区qq号| 精品国际久久久久999波多野| 熟妇丰满一区| 亚洲欧美中文字幕5发布| free性白嫩少妇XXXXHD|