本文的第一作者是董冠霆,目前就讀于中國人民大學高瓴人工智能學院,博士一年級,導師為竇志成教授和文繼榮教授。他的研究方向主要包括大語言模型推理,多智能體強化學習、深度搜索智能體等。在國際頂級會議如 ICLR、ACL、AAAI 等發(fā)表了多篇論文,并在快手大模型應用組、阿里通義千問組等大模型團隊進行實習。其代表性工作包括 AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。本文的通信作者為中國人民大學的竇志成教授與快手科技的周國睿。
在可驗證強化學習(RLVR)的推動下,大語言模型在單輪推理任務中已展現(xiàn)出不俗表現(xiàn)。然而在真實推理場景中,LLM 往往需要結合外部工具進行多輪交互,現(xiàn)有 RL 算法在平衡模型的長程推理與多輪工具交互能力方面仍存在不足。
為此,我們提出了全新的Agentic Reinforced Policy Optimization(ARPO)方法,專為多輪交互型 LLM 智能體設計
ARPO 首次發(fā)現(xiàn)模型在調用外部工具后會推理不確定性(高熵)顯著增加的現(xiàn)象,并基于此引入了熵驅動的自適應 rollout 策略,增強對高熵工具調用步驟的探索。同時,通過引入優(yōu)勢歸因估計,模型能夠更有效地理解工具交互中各步驟的價值差異。在 13 個計算推理、知識推理和深度搜索等高難基準上,ARPO 在僅使用一半工具調用預算的情況下,仍顯著優(yōu)于現(xiàn)有樣本級 RL 方法,為多輪推理智能體的高效訓練提供了可擴展的新方案。
- 論文標題:Agentic Reinforced Policy Optimization
- 論文鏈接:https://arxiv.org/abs/2507.19849
- 代碼倉庫:https://github.com/dongguanting/ARPO
- 開源數據 & 模型:https://huggingface.co/collections/dongguanting/arpo-688229ff8a6143fe5b4ad8ae
目前不僅在 X 上收獲了超高的關注度,同時榮登Huggingface Paper 日榜,周榜第一名!
研究動機:
抓住工具調用后的高熵時刻
近年來,可驗證獎勵的大規(guī)模強化學習在單輪推理任務中充分釋放了前沿大語言模型的潛力,表現(xiàn)亮眼。然而,在開放式推理場景下,LLM 不僅需要具備長程規(guī)劃與自適應決策能力,還需與外部工具進行動態(tài)的多輪交互。這催生了 Agentic RL 這一新范式,將訓練從靜態(tài)求解轉向動態(tài)的智能體 - 環(huán)境推理。現(xiàn)有 Agentic RL 方法多采用樣本級算法(如 GRPO、DAPO),在固定特殊 token 下獨立采樣完整的工具調用軌跡,并基于最終輸出獎勵模型。但這種方式常因獎勵稀疏、工具過用等問題導致多輪交互價值被低估,忽視了工具調用過程中每一步的細粒度行為探索。
通過對 LLM 在深度搜索任務中的 token 熵分布進行分析,研究發(fā)現(xiàn)模型在每次工具調用后的初始生成階段熵值顯著升高,說明外部工具反饋會引入高不確定性,而這正是現(xiàn)有方法未充分利用的探索契機。
圖 1:左圖展示大模型在調用工具后的高熵現(xiàn)象,右圖對比 ARPO 與基線性能
ARPO 框架:訓練模型自主實現(xiàn)推理時的多工具調用
針對上述發(fā)現(xiàn),我們提出Agentic Reinforced Policy Optimization(ARPO),核心思想是在高熵工具調用步驟中,自適應地分支采樣,探索更多多樣化的推理路徑。具體來說,我們的貢獻如下:
- 我們量化了 LLM 在 Agentic 推理過程中的 token 熵變化,揭示了樣本級 RL 算法在對齊 LLM 智能體方面的固有限制。
- 我們提出了 ARPO 算法,引入基于熵的自適應 rollout 機制,在保持全局采樣的同時,在高熵工具調用步驟中鼓勵分支采樣。此外,ARPO 結合優(yōu)勢歸因估計,幫助 LLM 更好地內化步驟級工具使用行為中的優(yōu)勢差異。
- 除了啟發(fā)式動機,我們還從理論上論證了在 LLM 智能體訓練中引入 ARPO 算法的合理性
- 在 13 個高難基準上的實驗表明,ARPO 在僅使用一半工具調用訓練預算的情況下,性能穩(wěn)定優(yōu)于主流 RL 算法,為探索 Agentic RL 提供了可行性參考與實踐啟示。
工具調用的熵變現(xiàn)象:高熵時刻與探索困境
圖 2:跨數據集分析基于 LLM 的工具使用智能體的 token 熵變化與 token 頻率分布
通過分析大型模型在結合工具執(zhí)行復雜搜索與推理任務時的 token 熵值,我們發(fā)現(xiàn)以下幾點:
1. 在每次工具調用后的前 10–50 個 token 內,熵顯著上升。
2. 在推理的初始階段,熵往往會增加,但仍低于大模型接收到工具調用反饋后的水平。
3. 搜索引擎的反饋引入的熵波動比代碼編譯器的執(zhí)行反饋更大。
這些現(xiàn)象可以歸因于外部反饋與模型內部推理之間的 token 分布轉移,這甚至導致引入的推理不確定性超過原始輸入的問題。此外,搜索引擎通常提供豐富的文本內容,而代碼編譯器輸出則由確定性的數字組成,這導致前者的熵波動更大。
工具設計:多樣化工具支撐 Agentic 推理
本研究聚焦于優(yōu)化基于 LLM 的工具使用智能體的訓練算法。在梳理現(xiàn)有 Agentic RL 研究后,我們選取三類具有代表性的工具,用于實證評估 ARPO 的有效性:
- 搜索引擎:通過執(zhí)行網絡搜索查詢檢索相關信息,支持本地及在線模式。
- 網頁瀏覽智能體:訪問并解析搜索引擎返回的網頁鏈接,提取并總結關鍵信息以響應查詢。
- 代碼解釋器:自動執(zhí)行 LLM 生成的代碼,若執(zhí)行成功則返回結果,否則返回編譯錯誤信息。
這些工具覆蓋信息檢索、內容解析與程序執(zhí)行等多類功能,為多輪交互與復雜推理場景提供了強有力的支撐。
ARPO 算法:利用熵信號指導 LLM 逐步優(yōu)化工具調用
基于熵的自適應 rollout 機制
ARPO 的核心思想在于結合全局采樣與熵驅動的局部采樣,在模型工具調用后不確定性升高的階段加大探索力度,從而提升推理效果。其基于熵的自適應 rollout 機制包含四個關鍵步驟:
圖 3:ARPO 的基于熵驅動的自適應 rollout 機制,結合全局探索與局部高熵節(jié)點分支
1. Rollout 初始化
2. 熵變監(jiān)控
3. 基于熵的自適應分支
模型的分支決策如下:
該機制將探索資源自適應分配到熵上升區(qū)域,這些區(qū)域往往蘊含更高的信息增益。
4. 終止條件
Rollout 過程持續(xù)進行,直到分叉路徑數達到預算上限 M-N(停止分支并完成采樣)或所有路徑提前終止。若預算仍有剩余,則補充全局采樣以覆蓋更全面的推理空間。
優(yōu)勢歸因估計
ARPO 的熵驅動自適應 rollout 會產生包含共享推理片段和分支路徑的軌跡,這啟發(fā)我們優(yōu)化策略更新方式,更好地利用步驟級工具調用信息。
兩種優(yōu)勢估計方式
1. 硬優(yōu)勢估計(Hard)
明確區(qū)分共享和分支 token,對共享部分計算平均優(yōu)勢,對分支部分單獨計算:
對分支 token 的優(yōu)勢估計:
對共享 token 的優(yōu)勢估計:
2. 軟優(yōu)勢估計(Soft)
其中重要性采樣比率:
實驗結果證明軟優(yōu)勢估計在 ARPO 訓練中能穩(wěn)定獲得更高獎勵,故將其設為默認優(yōu)勢估計方法。
分層獎勵設計
ARPO 的獎勵函數綜合考慮答案正確性、工具調用格式及多工具協(xié)作。 如果模型在推理中使用了搜索(
)和代碼(
)等多種工具,并保證答案正確且格式合規(guī),會獲得額外獎勵,公式如下:
其中:
通過軟優(yōu)勢估計與分層獎勵機制,ARPO 在訓練中能更平穩(wěn)、更高效地優(yōu)化多輪工具使用策略。
實驗結果:10 + 綜合推理任務評測
為了充分評估 ARPO 的泛化性和高效性,我們考慮以下三種測試集:
計算型推理任務:評估模型的計算推理能力,包括 AIME24,AIME25,MATH500,GSM8K,MATH。
知識密集型推理任務:評估模型結合外部知識推理的能力,包括 WebWalker,HotpotQA,2WIKI,MisiQue,Bamboogle。
深度搜索任務:評估模型的深度搜索能力,包括 HLE,GAIA,SimpleQA,XBench。
從實驗結果可以發(fā)現(xiàn):
- ARPO 整體表現(xiàn)優(yōu)于主流方法:ARPO 在大部分任務上準確率高于 GRPO、DAPO 等樣本級 RL 方法,在工具調用密集任務(如 GAIA、HLE)中提升幅度更明顯。
- 多任務保持穩(wěn)定性能:ARPO 在計算、知識與搜索任務中均保持較好的表現(xiàn),沒有明顯性能短板,驗證其跨任務的適配能力。
實驗:采樣分析與工具調用效率評估
多輪采樣能力提升模型表現(xiàn)
由于 Deepsearch 任務具有動態(tài)、多輪交互的特點,單純使用 Pass@1 指標難以全面反映模型的工具調用潛力。我們進一步分析了 Pass@3 和 Pass@5 指標,發(fā)現(xiàn)無論是 8B 還是 14B 規(guī)模模型,在經過 ARPO 對齊訓練后,均表現(xiàn)出持續(xù)提升和良好的規(guī)模效應。其中,14B 模型在 Pass@5 指標上表現(xiàn)尤為出色:
- GAIA 達到61.2%
- HLE 達到24.0%
- XBench-DR 達到59%
工具調用效率顯著提升
在 Agentic RL 訓練中,工具調用次數直接影響成本。我們以 Qwen2.5-7B 模型為例,將 ARPO 與 GRPO 方法進行對比:
- ARPO 在整體準確率上優(yōu)于 GRPO
- 同時僅使用了約一半的工具調用次數
這得益于 ARPO 獨特的基于熵的自適應采樣機制,僅在高熵工具調用步驟進行分支采樣,極大地擴展了工具行為的探索空間,同時降低了不必要的調用。
總結與未來展望
ARPO 算法有效提升了多輪工具推理代理的性能,解決了現(xiàn)有樣本級 RL 方法在多輪交互中探索不足、泛化能力欠缺的問題。通過熵驅動自適應采樣和優(yōu)勢歸因機制,ARPO 能夠在工具調用頻繁、推理路徑復雜的任務中實現(xiàn)更高效、更穩(wěn)定的輸出。未來,為持續(xù)提升 Agentic RL 模型的能力,仍有多個方向值得探索:
- 多模態(tài) Agentic RL:ARPO 目前主要針對文本推理任務,在處理圖像、視頻等多模態(tài)信息方面仍有局限。未來可擴展至多模態(tài)任務中,探索模型在多模態(tài)場景下的工具調用與策略優(yōu)化。
- 工具生態(tài)擴展:ARPO 已經驗證了在多工具協(xié)作任務上的潛能。未來可引入更多類型的外部工具(如代碼調試器、數據分析工具、實時 API 調用等),并通過工具使用策略優(yōu)化進一步提升復雜任務表現(xiàn)。
- 大規(guī)模與實時部署:ARPO 展示了較高的訓練效率和推理泛化性,未來可探索在更大規(guī)模模型和實時動態(tài)環(huán)境中的部署與適配,降低成本同時提升實用價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.