夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AEPO:智能體熵平衡策略優(yōu)化,讓探索更穩(wěn),推理更深!

0
分享至



在智能體強(qiáng)化學(xué)習(xí)的快速發(fā)展中,如何在探索與穩(wěn)定之間取得平衡已成為多輪智能體訓(xùn)練的關(guān)鍵。主流的熵驅(qū)動(dòng)式智能體強(qiáng)化學(xué)習(xí)(Agentic RL)雖鼓勵(lì)模型在高不確定性處分支探索,但過度依賴熵信號常導(dǎo)致訓(xùn)練不穩(wěn)、甚至策略熵坍塌問題。

為此,中國人民大學(xué)高瓴人工智能學(xué)院與快手 Klear 語言大模型團(tuán)隊(duì)聯(lián)合提出 Agentic Entropy-Balanced Policy Optimization(AEPO),一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。

AEPO 系統(tǒng)性揭示了「高熵 Rollout 采樣坍縮」和「高熵梯度裁剪」問題,并設(shè)計(jì)了「動(dòng)態(tài)熵平衡 Rollout 采樣」與「熵平衡策略優(yōu)化」兩項(xiàng)核心機(jī)制。前者通過熵預(yù)監(jiān)控與連續(xù)分支懲罰實(shí)現(xiàn)全局與局部探索預(yù)算的自適應(yīng)分配,后者在策略更新階段引入梯度停止與熵感知優(yōu)勢估計(jì)以保留高熵 token 的探索梯度。



圖 1:AEPO 性能概覽:左圖對比深度搜索任務(wù)性能,右圖對比通用推理任務(wù)性能

實(shí)驗(yàn)結(jié)果表明,AEPO 在 14 個(gè)跨領(lǐng)域基準(zhǔn)上顯著優(yōu)于七種主流強(qiáng)化學(xué)習(xí)算法。特別是深度搜索任務(wù)的 Pass@5 指標(biāo):GAIA (65.0%), Humanity’s Last Exam (26.0%), WebWalkerQA (70.0%)。在保持訓(xùn)練穩(wěn)定性的同時(shí)進(jìn)一步提升了采樣多樣性與推理效率,為通用智能體的可擴(kuò)展強(qiáng)化訓(xùn)練提供了新的優(yōu)化范式。



  • 論文標(biāo)題:Agentic Entropy-Balanced Policy Optimization
  • 論文鏈接:https://arxiv.org/abs/2510.14545
  • 代碼倉庫:https://github.com/dongguanting/ARPO
  • 開源數(shù)據(jù) & 模型:https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

目前AEPO 在 X 上收獲極高關(guān)注度,Github 倉庫已獲星標(biāo) 700 余枚,同時(shí)榮登 Huggingface Paper 日榜第二名!





研究動(dòng)機(jī):在高熵中尋求平衡

隨著 Agentic RL 的發(fā)展,如何在持續(xù)探索與訓(xùn)練穩(wěn)定之間取得平衡已成制約智能體性能的關(guān)鍵?,F(xiàn)有方法(如 ARPO)通常依賴熵信號作為依據(jù),并在高熵時(shí)刻觸發(fā)分支采樣探索潛在推理路徑。我們的研究發(fā)現(xiàn)熵驅(qū)動(dòng)的探索雖能提升多樣性,卻也帶來了顯著的訓(xùn)練不穩(wěn)定:模型在連續(xù)高熵的工具調(diào)用階段容易出現(xiàn)單一鏈條過度分支,導(dǎo)致探索受限(如下圖左側(cè));同時(shí)在策略更新階段,高熵 token 的梯度常被無差別裁剪,使模型難以學(xué)習(xí)的探索行為(如下圖右側(cè))。這種熵失衡也使智能體在強(qiáng)化學(xué)習(xí)中容易陷入局部最優(yōu)解。



圖 2:智能體中的高熵 Rollout 坍縮與高熵梯度裁剪現(xiàn)象

因此,如何在高熵驅(qū)動(dòng)下同時(shí)實(shí)現(xiàn)高效探索與穩(wěn)定優(yōu)化,成為智能體強(qiáng)化學(xué)習(xí)亟待突破的核心瓶頸。為此,我們提出 AEPO,一種面向多輪智能體的熵平衡強(qiáng)化學(xué)習(xí)優(yōu)化算法。我們的貢獻(xiàn)如下:

  • 我們系統(tǒng)性分析并揭示了現(xiàn)有熵驅(qū)動(dòng)的 Agentic RL 在高熵階段易出現(xiàn)的「rollout 坍縮」和「梯度裁剪」問題,為后續(xù)算法設(shè)計(jì)提供了經(jīng)驗(yàn)與理論依據(jù)。
  • 我們提出了 AEPO 算法,旨在通過「動(dòng)態(tài)熵平衡 Rollout 采樣」與「熵感知策略優(yōu)化」兩個(gè)階段實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)探索與穩(wěn)定的協(xié)同優(yōu)化。
  • 在 14 個(gè)挑戰(zhàn)性基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,AEPO 在采樣多樣性、訓(xùn)練穩(wěn)定性及工具調(diào)用效率方面均優(yōu)于 7 種主流強(qiáng)化學(xué)習(xí)算法,為智能體在復(fù)雜開放環(huán)境下的可擴(kuò)展訓(xùn)練提供了新的啟發(fā)。

工具調(diào)用的熵變現(xiàn)象:高熵集聚與梯度困境

通過分析智能體在多輪工具調(diào)用強(qiáng)化學(xué)習(xí)中的 token 熵變與訓(xùn)練過程,我們發(fā)現(xiàn)以下核心現(xiàn)象:

  1. 高熵工具調(diào)用步驟存在連續(xù)性:連續(xù)的高熵工具調(diào)用輪次占比達(dá) 56.5%,部分軌跡甚至出現(xiàn) 6 次連續(xù)高熵調(diào)用,這種連續(xù)性導(dǎo)致 rollout 階段的分支預(yù)算分配嚴(yán)重傾斜(如下圖左側(cè));
  2. 高熵 Token 梯度裁剪:傳統(tǒng) Agentic RL 算法在策略更新階段存在「無差別梯度裁剪」問題,未區(qū)分其是否包含有價(jià)值的探索行為,這些 token 大多是在推理中激發(fā)工具調(diào)用,反思等行為的提示(如下圖右側(cè))。



圖 3:智能體強(qiáng)化學(xué)習(xí)訓(xùn)練中兩種熵相關(guān)問題的量化統(tǒng)計(jì)

上述現(xiàn)象本質(zhì)是高熵信號的雙重矛盾:高熵是智能體探索工具使用潛力的必要條件,但無約束的高熵連續(xù)性會破壞 rollout 資源分配,激進(jìn)的梯度裁剪又會扼殺高熵的探索價(jià)值。

AEPO 算法:熵驅(qū)動(dòng)的精準(zhǔn)探索與梯度保護(hù)



圖 4:AEPO 概述

動(dòng)態(tài)熵平衡 Rollout 采樣:

1.熵預(yù)監(jiān)測:按信息增益分配采樣預(yù)算

傳統(tǒng) RL 算法(如 ARPO)憑經(jīng)驗(yàn)分配全局采樣與分支采樣的坍縮資源,AEPO 則基于信息增益理論,根據(jù)問題與工具的信息增益動(dòng)態(tài)調(diào)整采樣預(yù)算,具體來說,在總 rollout 采樣的預(yù)算為 k(包含 m 次全局采樣與 k-m 次高熵分支采樣)的條件下,將 Rollout 階段的信息增益簡單地建模為:



在語言模型的自回歸解碼過程中,輸入問題的信息增益通常由模型解碼的 token 熵值來衡量,因此我們可以得到如下正相關(guān)關(guān)系:



因此,我們的目標(biāo)是盡可能增大 Rollout 階段的信息增益,基于上述公式,AEPO 按信息增益分配采樣預(yù)算:





2.連續(xù)高熵分支懲罰:避免單一軌跡過度分支

即使預(yù)算分配合理,連續(xù)高熵調(diào)用仍可能導(dǎo)致單一軌跡過度分支。因此 AEPO 通過動(dòng)態(tài)分支概率施加懲罰:



實(shí)驗(yàn)驗(yàn)證:如下圖所示,相比于 ARPO 通常僅分支 2-3 條軌跡,而AEPO 可覆蓋全部 8 條預(yù)算軌跡(右圖),采樣聚類數(shù)從 54 提升至 62(左 2 圖),大幅提升 Rollout 采樣的多樣性。



圖 5:采樣多樣性 ARPO vs AEPO(左)與 Rollout 的分支采樣分布(右)

熵平衡策略優(yōu)化:

1.熵裁剪平衡機(jī)制:保留高熵 Token 梯度

收到 GPPO 啟發(fā),AEPO 將「梯度停止」操作融入到策略更新的高熵裁剪項(xiàng)中,保證了前向傳播不受影響,同時(shí)保護(hù)了高熵 token 的梯度在反向傳播時(shí)不被裁剪。AEPO 在策略更新時(shí)使用如下公式:











這一設(shè)計(jì)讓高熵探索性 Token 的梯度得以保留,避免訓(xùn)練初期探索能力流失。

2.熵感知優(yōu)勢估計(jì):優(yōu)先學(xué)習(xí)高價(jià)值探索行為





實(shí)驗(yàn)結(jié)果:14 個(gè)基準(zhǔn)驗(yàn)證 AEPO 的高效與穩(wěn)定

為了充分評估 AEPO 的泛化性和高效性,我們考慮以下三種測試集:

  • 計(jì)算型推理任務(wù):評估模型的計(jì)算推理能力,包括 AIME24、AIME25、MATH500、GSM8K、MATH。
  • 知識密集型推理任務(wù):評估模型結(jié)合外部知識推理的能力,包括 WebWalker、HotpotQA、2WIKI、MisiQue、Bamboogle。
  • 深度搜索任務(wù):評估模型的深度搜索能力,包括 HLE、GAIA、SimpleQA、XBench、Frames。

深度信息檢索任務(wù):小樣本實(shí)現(xiàn)大突破





如上表所示,僅用 1K RL 訓(xùn)練樣本,Qwen3-14B+AEPO 在關(guān)鍵任務(wù)上表現(xiàn)優(yōu)異:

  • AEPO 在 Pass@1 上較 ARPO 平均提升 3.9%;在 Pass@5 上較 ARPO 平均提升 5.8%;
  • 對比梯度裁剪優(yōu)化 RL 算法(DAPO、CISPO、GPPO):AEPO 在 GAIA 任務(wù)上領(lǐng)先 7%-10%,在 Qwen3-14B 基座上取得了 47.6% 的 Pass@1 與 65% 的 Pass@5,這證明熵平衡機(jī)制優(yōu)于單純的梯度裁剪優(yōu)化 RL 算法;
  • 對比傳統(tǒng) RL(GRPO、Reinforce++):AEPO 在 HLE 任務(wù)上領(lǐng)先 2.6%-3.4%,在 Qwen3-14B 基座上取得了 11.2% 的 Pass@1 與 26% 的 Pass@5,凸顯 Agentic RL 中熵平衡的必要性。



我們比較了 7 種強(qiáng)化學(xué)習(xí)算法在 10 個(gè)推理任務(wù)中的表現(xiàn),發(fā)現(xiàn):

  • 梯度裁剪優(yōu)化算法的穩(wěn)定性差:在 Qwen 2.5-7B-instruct 上,梯度裁剪優(yōu)化算法表現(xiàn)良好,但在 Llama3-8B 上未顯著優(yōu)于 GRPO,且易導(dǎo)致熵崩潰。
  • Agentic RL 算法具備泛化能力:ARPO,GIGPO,AEPO 等算法在不同模型上表現(xiàn)穩(wěn)定,證明在高熵環(huán)境下的分支探索有效。
  • AEPO 優(yōu)勢顯著:AEPO 在所有測試中表現(xiàn)突出,一致性高于 7 種主流 RL 算法。并且平均準(zhǔn)確率比 GRPO 高 5%,更適合訓(xùn)練多輪次 Web 智能體。

實(shí)驗(yàn):熵穩(wěn)定與準(zhǔn)確率分析

在 Agentic RL 訓(xùn)練中,熵動(dòng)態(tài)穩(wěn)定性與訓(xùn)練準(zhǔn)確率收斂性是衡量算法有效性的核心指標(biāo):熵過高易導(dǎo)致探索失控,熵過低則會引發(fā)探索不足;而準(zhǔn)確率的持續(xù)提升則直接反映模型對有效工具使用行為的學(xué)習(xí)能力。

我們對比 AEPO 與主流 RL 算法(含 ARPO、GRPO、DAPO 等)在 10 個(gè)推理任務(wù)中的訓(xùn)練動(dòng)態(tài),清晰揭示了 AEPO 在「熵穩(wěn)定」與「準(zhǔn)確率提升」雙維度的優(yōu)勢。實(shí)驗(yàn)發(fā)現(xiàn)訓(xùn)練的熵?fù)p失驟增與下降都不會對性能帶來增益;相比之下,AEPO 的熵?fù)p失全程維持高且穩(wěn)定,對應(yīng)穩(wěn)定的性能增益。其表現(xiàn)遠(yuǎn)超其他 RL 算法,且解決了 ARPO 在訓(xùn)練后期熵波動(dòng)的問題。



圖 5:訓(xùn)練指標(biāo)可視化,包括各訓(xùn)練步驟的熵?fù)p失(左)和準(zhǔn)確率(右)

總結(jié)與未來展望

未來可從三個(gè)方向進(jìn)一步拓展:

  • 多模態(tài) Agent:當(dāng)前 AEPO 與 ARPO 均聚焦文本任務(wù),未來可擴(kuò)展至圖像、視頻等多模態(tài)輸入,探索多模態(tài)工具的熵平衡優(yōu)化,解決多模態(tài)反饋帶來的熵波動(dòng)問題。
  • 工具生態(tài)擴(kuò)展:引入更復(fù)雜工具(如 MCP 服務(wù)、外部訂機(jī)票酒店服務(wù)調(diào)用、代碼調(diào)試器),基于 AEPO 的熵感知機(jī)制優(yōu)化多工具協(xié)作策略,提升復(fù)雜任務(wù)表現(xiàn),超越現(xiàn)有工具協(xié)作能力。
  • 多智能體強(qiáng)化學(xué)習(xí):探索在更多智能體的協(xié)作學(xué)習(xí),互相任務(wù)交互與博弈中找到平衡,實(shí)現(xiàn)收斂。

作者介紹

董冠霆目前就讀于中國人民大學(xué)高瓴人工智能學(xué)院,博士二年級,導(dǎo)師為竇志成教授和文繼榮教授。他的研究方向主要包括智能體強(qiáng)化學(xué)習(xí)、深度搜索智能體,大模型對齊等。在國際頂級會議如 ICLR、ACL、AAAI 等發(fā)表了多篇論文,并在快手快意大模型組、阿里通義千問組等大模型團(tuán)隊(duì)進(jìn)行實(shí)習(xí)。其代表性工作包括 ARPO、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2 和 Qwen2.5 等。

  • 個(gè)人主頁:dongguanting.github.io

本文的通信作者為中國人民大學(xué)的竇志成教授與快手科技的周國睿。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《阿凡達(dá)3》北美票房慘敗,僅收獲2.57億,預(yù)計(jì)將虧損近20億

《阿凡達(dá)3》北美票房慘敗,僅收獲2.57億,預(yù)計(jì)將虧損近20億

影視高原說
2025-12-21 09:53:41
復(fù)制姐姐,取代姐姐?她將親姐的影子,做成自己的流量密碼!

復(fù)制姐姐,取代姐姐?她將親姐的影子,做成自己的流量密碼!

毒舌八卦
2025-12-21 20:34:56
第一次見牛仔褲這么會穿的小姐姐,腰細(xì)臀翹,讓人忍不住多看幾眼

第一次見牛仔褲這么會穿的小姐姐,腰細(xì)臀翹,讓人忍不住多看幾眼

小喬古裝漢服
2025-12-21 07:56:28
暴雷!多家門店跑路關(guān)門,老板疑失聯(lián),業(yè)主1.63億元血汗錢打水漂

暴雷!多家門店跑路關(guān)門,老板疑失聯(lián),業(yè)主1.63億元血汗錢打水漂

毒sir財(cái)經(jīng)
2025-12-21 22:18:03
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
王昶梁偉鏗丟冠全怪他?身為主帥卻全程缺席總決賽,會再度下課嗎

王昶梁偉鏗丟冠全怪他?身為主帥卻全程缺席總決賽,會再度下課嗎

體壇小二哥
2025-12-21 22:46:47
美國在委內(nèi)瑞拉附近水域攔截第三艘油輪

美國在委內(nèi)瑞拉附近水域攔截第三艘油輪

界面新聞
2025-12-22 07:07:24
蘋果和它一起煮,是天然刮油冠軍,吃一周,口不臭了,小肚子平了

蘋果和它一起煮,是天然刮油冠軍,吃一周,口不臭了,小肚子平了

江江食研社
2025-12-04 10:30:09
媒體爆料師徒矛盾23年開始,阿卡不愿去網(wǎng)校訓(xùn)練當(dāng)搖錢樹成導(dǎo)火索

媒體爆料師徒矛盾23年開始,阿卡不愿去網(wǎng)校訓(xùn)練當(dāng)搖錢樹成導(dǎo)火索

網(wǎng)球之家
2025-12-21 22:23:34
考古最新證實(shí):阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實(shí)之作

考古最新證實(shí):阿房宮既沒建好也沒被火燒,杜牧《阿房宮賦》所描述的阿房宮景象非寫實(shí)之作

大象新聞
2025-12-21 10:49:06
托卡耶夫訪問日本,犯了大忌:中日紛爭之際,他參拜了明治神宮!

托卡耶夫訪問日本,犯了大忌:中日紛爭之際,他參拜了明治神宮!

智慧天氣通
2025-12-22 01:27:18
資不抵債的住房貸款已達(dá)8.5%

資不抵債的住房貸款已達(dá)8.5%

凱利經(jīng)濟(jì)觀察
2025-12-21 09:34:14
丈夫全程喊“剎車”妻子仍撞上騎自行車男子,被撞人經(jīng)搶救無效死亡,交警披露事故細(xì)節(jié)

丈夫全程喊“剎車”妻子仍撞上騎自行車男子,被撞人經(jīng)搶救無效死亡,交警披露事故細(xì)節(jié)

環(huán)球網(wǎng)資訊
2025-12-21 15:55:49
羨慕!廣東28度,把冬至過成夏至,網(wǎng)友:所以他們冬至吃什么

羨慕!廣東28度,把冬至過成夏至,網(wǎng)友:所以他們冬至吃什么

西昆侖Bruce
2025-12-22 01:21:13
埃及被打醒了,蘇35和殲10都不買:就要一種4000萬美元中國新軍機(jī)

埃及被打醒了,蘇35和殲10都不買:就要一種4000萬美元中國新軍機(jī)

南宗歷史
2025-12-21 20:39:57
香港女生偷偷報(bào)考內(nèi)地大學(xué),落地后大哭,8個(gè)字讓接機(jī)老師紅了眼

香港女生偷偷報(bào)考內(nèi)地大學(xué),落地后大哭,8個(gè)字讓接機(jī)老師紅了眼

蘭姐說故事
2025-12-19 17:20:05
對越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

對越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

史海孤雁
2025-12-19 17:46:17
中國籃協(xié):熱烈祝賀王治郅

中國籃協(xié):熱烈祝賀王治郅

新京報(bào)政事兒
2025-12-21 22:47:54
零負(fù)債人群誕生了!這才是真正的人間清醒!這群人會越來越多嗎?

零負(fù)債人群誕生了!這才是真正的人間清醒!這群人會越來越多嗎?

正經(jīng)說個(gè)事兒
2025-12-21 07:05:35
快船遭重創(chuàng)!祖巴茨確診左腳踝二級扭傷 將缺席數(shù)周比賽

快船遭重創(chuàng)!祖巴茨確診左腳踝二級扭傷 將缺席數(shù)周比賽

羅說NBA
2025-12-22 07:02:09
2025-12-22 08:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

7490億美元!馬斯克又把財(cái)富天花板捅破了

頭條要聞

牛彈琴:對付墨西哥的小動(dòng)作 中國已準(zhǔn)備了三大招

頭條要聞

牛彈琴:對付墨西哥的小動(dòng)作 中國已準(zhǔn)備了三大招

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財(cái)經(jīng)要聞

人民幣快漲到7了!

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

房產(chǎn)
親子
家居
健康
軍事航空

房產(chǎn)要聞

中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

親子要聞

5個(gè)月嬰兒心臟手術(shù)變悲?。横t(yī)療疏忽引發(fā)巨大反思!

家居要聞

高端私宅 理想隱居圣地

這些新療法,讓化療不再那么痛苦

軍事要聞

石破茂:擁核絕不會給日本帶來正面影響

無障礙瀏覽 進(jìn)入關(guān)懷版 国语精品自产拍在线观看网站 | 在线精品国产一区二区三区88| 欧美日韩video| 欧洲黑大粗无码免费| 亚洲美免无码中文字幕在线| 中国熟妇色XXXX| 日韩在线播放你懂的| 国产伦精品一区二区三区妓国产| 国产AV天堂亚洲国产AV刚刚碰一 | 亚洲三级片一区二区| 成人无码视频在线观看网站| AV无码无在线观看免费| 无码xxx69| 免费无码国产v片在线观看| 色婷婷日日躁夜夜躁| 白嫩人妻成人精品久久| 国产第三区| 中文8天堂网| 亚洲熟妇精品一区二区| av大战网站| 久久精品国产亚洲av成人| 日韩精品一区二区三区色欲av | 免费一本色道久久一区| 消息称老熟妇乱视频一区二区| 亚洲天堂网视频| 精品亚洲成a人在线观看青青| 69久久国产露脸精品国产| 日本高清在线天码一区播放 | 精品人妻伦一二三区久久| 国严精18久久久久久麻辣| 国产精品久久高潮呻吟无码69| 亚洲日产一线二线三线精华液| a级黑人大硬长爽猛出猛进| 精品熟女少妇av免费观看| 97日日碰曰曰摸日日澡| 国产精品久久久精品三级无码| 无码人妻精品一区二区不卡| 人妻丰满熟妇AV无码色欲| 精品人妻无码视频中文字幕一区二区三区| 国产精品对白| 日韩av一区二区三区免费看|