創(chuàng)智復(fù)旦字節(jié)發(fā)布AgentGym-RL，昇騰加持，開創(chuàng)智能體訓(xùn)練新范式

2025-09-11 14:40:57　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

強(qiáng)化學(xué)習(xí)之父、2024 年 ACM 圖靈獎得主 Richard Sutton 曾指出，人工智能正在邁入「經(jīng)驗(yàn)時代」—— 在這個時代，真正的智能不再僅僅依賴大量標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)，而是來源于在真實(shí)環(huán)境中主動探索、不斷積累經(jīng)驗(yàn)的能力。正如人類通過實(shí)踐理解世界、優(yōu)化行為一樣，智能體也必須在交互中積累經(jīng)驗(yàn)、改進(jìn)策略，才能掌握長期決策的能力。

無獨(dú)有偶，特斯拉前 AI 負(fù)責(zé)人，OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 進(jìn)一步指出，環(huán)境的多樣性與真實(shí)性，是智能體獲得泛化能力、應(yīng)對復(fù)雜任務(wù)的關(guān)鍵前提。缺乏豐富的環(huán)境，智能體就無法充分暴露于多樣化情境，也難以從經(jīng)驗(yàn)中形成穩(wěn)健的決策策略。

在這一背景下，復(fù)旦、創(chuàng)智、字節(jié)的研究者們基于智能體自我進(jìn)化框架 AgentGym，全新打造了多環(huán)境強(qiáng)化學(xué)習(xí)智能體訓(xùn)練框架 AgentGym-RL

本文的第一作者為復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室博士生奚志恒，通訊作者為復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室的桂韜教授和張奇教授。

這一框架是首個無需監(jiān)督微調(diào)、具備統(tǒng)一端到端架構(gòu)、支持交互式多輪訓(xùn)練，且在多類真實(shí)場景中驗(yàn)證有效的 LLM 智能體強(qiáng)化學(xué)習(xí)框架，為 LLM 智能體的強(qiáng)化學(xué)習(xí)提供了全新的解決方案。

依托 AgentGym-RL 框架，研究人員創(chuàng)新性地提出了智能體范式下擴(kuò)展測試時計(jì)算的新路徑 ——擴(kuò)展環(huán)境交互（Scaling Interaction）。其核心是通過增加訓(xùn)練與測試階段模型和外部環(huán)境的交互回合數(shù)，讓模型借助多輪反饋逐步完善決策、提升表現(xiàn)。

相較于傳統(tǒng)測試時擴(kuò)展方法，新路徑優(yōu)勢顯著：傳統(tǒng)方法局限于模型內(nèi)部，僅靠延長思維鏈消耗更多 Token，缺乏與外部環(huán)境的實(shí)時互動，難以應(yīng)對復(fù)雜任務(wù)的動態(tài)場景需求；而擴(kuò)展交互輪次突破了這種封閉式推理，允許模型依據(jù)每輪反饋動態(tài)修正策略，最終以更結(jié)構(gòu)化的決策流程、更高效率的問題解決路徑完成任務(wù)，成為智能體范式下表現(xiàn)更優(yōu)的測試時擴(kuò)展方案。

然而，長交互輪次訓(xùn)練面臨著容易出現(xiàn)崩潰的問題。針對這一痛點(diǎn)，研究團(tuán)隊(duì)再次突破，提出了ScalingInter RL 交互輪次擴(kuò)展策略，通過分階段增加模型最長交互輪次限制，使智能體能夠先在短交互輪次下掌握基礎(chǔ)技能，再逐步過渡到中長交互輪次解決復(fù)雜任務(wù)，平衡了智能體訓(xùn)練過程中的探索與利用，有效規(guī)避了模型崩潰的風(fēng)險，成功構(gòu)建了穩(wěn)定的交互輪次擴(kuò)展訓(xùn)練范式。

借助 AgentGym-RL 這一統(tǒng)一框架，結(jié)合 ScalingInter-RL 算法的穩(wěn)定擴(kuò)展能力，研究團(tuán)隊(duì)取得了令人矚目的成果：

僅僅是7B 大小的模型，在多個真實(shí)任務(wù)導(dǎo)向的環(huán)境中經(jīng)過長輪次交互訓(xùn)練后，竟逐步掌握了理解任務(wù)目標(biāo)、預(yù)測行動后果、規(guī)劃多步操作等復(fù)雜任務(wù)處理技能。從自主瀏覽界面、精準(zhǔn)篩選選項(xiàng)，到對比參數(shù)、執(zhí)行操作，整個過程流暢高效，展現(xiàn)出前所未有的自主決策水平。在五種測試環(huán)境、26 項(xiàng)測試任務(wù)中，它不僅超越了 100B 以上的大型開源模型，還追平了 OpenAI o3、谷歌 Gemini 2.5 Pro、DeepSeek r1 等頂尖商業(yè)模型的水平，充分彰顯出 AgentGym-RL 框架與交互輪次擴(kuò)展范式的強(qiáng)大潛力與競爭力，也為人工智能在「經(jīng)驗(yàn)時代」的發(fā)展注入了強(qiáng)勁動力。

商業(yè)模型、開源模型以及本文強(qiáng)化學(xué)習(xí)模型在不同智能體任務(wù)中的表現(xiàn)。

從網(wǎng)頁導(dǎo)航到科學(xué)實(shí)驗(yàn)，從文字游戲到實(shí)體交互，這套兼容 PPO、GRPO 等主流算法的模塊化框架，正為開源社區(qū)推開自主智能體研發(fā)的全新大門。

論文標(biāo)題：AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
論文地址：https://arxiv.org/abs/2509.08755
項(xiàng)目主頁：https://agentgym-rl.github.io
代碼地址：https://github.com/WooooDyy/AgentGym-RL
環(huán)境框架地址：https://github.com/WooooDyy/AgentGym

研究背景：從「數(shù)據(jù)密集」到「經(jīng)驗(yàn)密集」

構(gòu)建能夠在復(fù)雜現(xiàn)實(shí)場景中完成多輪決策的自主 LLM 智能體，是人工智能領(lǐng)域一個新興且快速發(fā)展的前沿方向。

Sutton 曾強(qiáng)調(diào)，人工智能的發(fā)展正從「數(shù)據(jù)密集型」向「經(jīng)驗(yàn)密集型」轉(zhuǎn)型：早期模型依賴海量標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)，如同通過教科書間接獲取知識；而真正的智能體應(yīng)當(dāng)像人類一樣，在真實(shí)環(huán)境中通過「做中學(xué)」積累經(jīng)驗(yàn)，在持續(xù)交互中理解環(huán)境規(guī)則、預(yù)測行動后果、優(yōu)化長期目標(biāo)。

而在這一過程中，構(gòu)建真實(shí)、多樣、貼合現(xiàn)實(shí)需求的交互環(huán)境則成為了強(qiáng)化學(xué)習(xí)的重中之重。真實(shí)的環(huán)境是智能體獲得有效經(jīng)驗(yàn)的基礎(chǔ)，只有還原場景中的動態(tài)變化與不確定因素，才能避免智能體陷入「實(shí)驗(yàn)室表現(xiàn)優(yōu)異、落地即失效」的困境；環(huán)境的多樣化是智能體具備泛化能力的前提，只有覆蓋多類型任務(wù)場景的交互邏輯，才能讓智能體在新場景中快速遷移已有經(jīng)驗(yàn)。

然而，當(dāng)前大多數(shù)現(xiàn)有研究局限于單輪任務(wù)，缺乏與復(fù)雜環(huán)境的多輪交互機(jī)制。雖然最近有研究嘗試擴(kuò)展 RL 以訓(xùn)練具有多輪能力的 LLM 智能體，但這些工作仍然存在任務(wù)場景單一、環(huán)境適配性差、優(yōu)化穩(wěn)定性低等問題，使得智能體無法接觸到足夠豐富的環(huán)境信息，難以生成和利用第一手經(jīng)驗(yàn)，自然難以應(yīng)對現(xiàn)實(shí)世界復(fù)雜多變的任務(wù)。因此，該領(lǐng)域目前仍然缺乏一個統(tǒng)一的、端到端的、交互式多輪 RL 框架，能夠在廣泛的實(shí)際場景和環(huán)境中有效地從頭開始訓(xùn)練 LLM 智能體，而無需依賴監(jiān)督微調(diào)（SFT）作為初步步驟。

為填補(bǔ)這一空白，研究團(tuán)隊(duì)提出了 AgentGym-RL，一個通過強(qiáng)化學(xué)習(xí)訓(xùn)練 LLM 智能體進(jìn)行多輪交互式?jīng)Q策的新框架。該框架的研究工作圍繞著推動智能體高效學(xué)習(xí)和決策展開，主要有以下貢獻(xiàn)：

提出并開源 AgentGym-RL 框架：這是一個全新的、統(tǒng)一的、模塊化且靈活的端到端 RL 框架，專為智能體多輪交互式?jīng)Q策而設(shè)計(jì)，包含豐富多樣的場景和環(huán)境，讓「從經(jīng)驗(yàn)學(xué)習(xí)」有了標(biāo)準(zhǔn)化的實(shí)驗(yàn)場。
引入 ScalingInter-RL 方法：這是一種基于漸進(jìn)式交互輪數(shù)拓展的強(qiáng)化學(xué)習(xí)訓(xùn)練方法，使智能體能夠逐步適應(yīng)環(huán)境，優(yōu)化其交互模式、行為和技能，最終在探索和利用之間實(shí)現(xiàn)更好的平衡。
驗(yàn)證框架和方法的有效性：通過大量實(shí)驗(yàn)驗(yàn)證了 AgentGym-RL 和 ScaleInter-RL 能夠顯著且穩(wěn)定地提升智能體性能，使其在復(fù)雜任務(wù)處理能力上與頂尖商業(yè)模型形成對標(biāo)甚至實(shí)現(xiàn)性能反超。

AgentGym-RL：為經(jīng)驗(yàn)時代打造的自主智能體訓(xùn)練基礎(chǔ)設(shè)施

AgentGym-RL 集成了多種環(huán)境、豐富的軌跡數(shù)據(jù)和全面的基準(zhǔn)測試，通過標(biāo)準(zhǔn)化環(huán)境操作接口，將復(fù)雜的環(huán)境配置流程簡化為便捷的模塊化操作。該框架以 AgentGym 為基礎(chǔ)進(jìn)行迭代升級，通過優(yōu)化模型與環(huán)境的交互協(xié)議、強(qiáng)化分布式并行計(jì)算架構(gòu)、引入強(qiáng)化學(xué)習(xí)訓(xùn)練模塊等方式進(jìn)行改進(jìn)。

其核心目標(biāo)，就是為 LLM 智能體構(gòu)建一個能夠持續(xù)產(chǎn)生「有效經(jīng)驗(yàn)」的生態(tài)，讓「經(jīng)驗(yàn)驅(qū)動學(xué)習(xí)」不再依賴零散的實(shí)驗(yàn)設(shè)置，而是具備可復(fù)現(xiàn)、可擴(kuò)展的堅(jiān)實(shí)基礎(chǔ)。

模塊架構(gòu)

AgentGym-RL 框架主要包含環(huán)境、代理和訓(xùn)練三個組件。

環(huán)境模塊中，每個環(huán)境打包為獨(dú)立服務(wù)，支持并行請求，環(huán)境客戶端通過 HTTP 連接服務(wù)器，向代理暴露如獲取觀測、動作等 API，涵蓋多場景、環(huán)境、任務(wù)和數(shù)據(jù)實(shí)例，為 LLM 代理訓(xùn)練提供支持
代理模塊封裝語言模型代理與環(huán)境的交互邏輯，支持多種提示和采樣配置，擴(kuò)展長期規(guī)劃、自我反思等高級機(jī)制。
訓(xùn)練模塊實(shí)現(xiàn)支持在線算法的統(tǒng)一強(qiáng)化學(xué)習(xí)管道，管理經(jīng)驗(yàn)收集等，支持課程學(xué)習(xí)和交互擴(kuò)展，高度模塊化，支持多訓(xùn)練方法，訓(xùn)練過程可分布在多節(jié)點(diǎn)。

AgentGym-RL 架構(gòu)圖：采用解耦化設(shè)計(jì)，兼具靈活性與可擴(kuò)展性，能夠支持多種場景、環(huán)境類型及算法的應(yīng)用與適配。

多樣化的環(huán)境

AgentGym-RL 框架包含多種環(huán)境和豐富的任務(wù)，涵蓋了網(wǎng)頁導(dǎo)航、文字游戲、具身控制、科學(xué)探索和深度搜索等多個類別 —— 精準(zhǔn)對應(yīng)了語言智能體領(lǐng)域的重要推動者、OpenAI 研究科學(xué)家姚順雨所說的「AI 下半場落地場景」，每一類環(huán)境都指向真實(shí)世界中 AI 需要解決的實(shí)際問題。該框架支持主流的 RL 算法，并配備了廣泛的實(shí)際場景：

網(wǎng)頁導(dǎo)航：對應(yīng) WebArena 等環(huán)境，包含電商、Reddit 論壇、GitLab 協(xié)作開發(fā)、OpenStreetMap 地圖、CMS 內(nèi)容管理系統(tǒng)等 5 個子任務(wù)，共 372 個訓(xùn)練查詢和 50 個測試查詢。智能體需模擬人類與網(wǎng)頁交互，完成在線購物、信息提取、表單填寫等操作，涉及地圖、計(jì)算器等工具的使用。
深度搜索：對應(yīng)基于搜索引擎的環(huán)境，涵蓋 NQ、TriviaQA、PopQA 等 7 個數(shù)據(jù)集的任務(wù)。智能體需通過動態(tài)生成搜索查詢、調(diào)用瀏覽器和 Python 解釋器等工具，從外部源獲取信息并整合，完成多輪檢索與推理任務(wù)。
電子游戲：對應(yīng) TextCraft 等環(huán)境，這是一種類 Minecraft 的文本制作游戲。任務(wù)按制作樹深度分為 1-4 級，智能體需通過自然語言交互使用制作、 inventory 管理等 API，完成從簡單到復(fù)雜的物品制作任務(wù)。
具身控制：對應(yīng) BabyAI 等環(huán)境，這是一個可控的網(wǎng)格世界，任務(wù)按最終目標(biāo)分為 6 個子集。智能體需通過自然語言指令導(dǎo)航，執(zhí)行移動、拾取物體、開門等動作，涉及空間推理和環(huán)境交互能力。
科學(xué)任務(wù)：對應(yīng) SciWorld 等環(huán)境，選取 8 個子任務(wù)。智能體需在模擬的科學(xué)場景中，使用實(shí)驗(yàn)室儀器相關(guān) API 進(jìn)行實(shí)驗(yàn)（如測量溫度、連接電路、混合化學(xué)物質(zhì)），完成科學(xué)探索和假設(shè)驗(yàn)證任務(wù)。

多種強(qiáng)化學(xué)習(xí)算法

AgentGym-RL 提供全面的算法支持，涵蓋不同的學(xué)習(xí)方法，包括監(jiān)督微調(diào)（SFT）、直接偏好優(yōu)化（DPO）、拒絕采樣和在線 RL 算法等。在線 RL 是 AgentGym-RL 的核心，支持多種主流在線 RL 算法，如近端策略優(yōu)化（PPO）、組近端策略優(yōu)化（GRPO）、增強(qiáng)型 REINFORCE（REINFORCE++）和基于回合的策略優(yōu)化（RLOO）等。

ScalingInter-RL：交互擴(kuò)展新策略

基于 AgentGym-RL 框架，研究團(tuán)隊(duì)創(chuàng)新性地提出了 ScalingInter-RL 方法，通過擴(kuò)展智能體在訓(xùn)練過程中的交互輪數(shù)，平衡智能體對環(huán)境的探索與利用，顯著提升智能體在復(fù)雜環(huán)境中的學(xué)習(xí)和決策能力。

ScalingInter-RL 算法示意圖

ScalingInter-RL 方法的核心在于逐步、動態(tài)地?cái)U(kuò)展智能體與環(huán)境的交互輪次

在訓(xùn)練的初始階段，智能體的主要任務(wù)是快速學(xué)習(xí)基本技能，解決相對簡單的問題。此時，ScalingInter-RL 會限制交互輪次，引導(dǎo)智能體集中精力利用已有的知識和策略，盡可能高效地完成任務(wù)。這種策略就像是為智能體制定了一個循序漸進(jìn)的學(xué)習(xí)計(jì)劃，讓它在穩(wěn)固的基礎(chǔ)上逐步成長。

隨著訓(xùn)練的穩(wěn)步推進(jìn)，智能體已經(jīng)掌握了一定的基礎(chǔ)能力，此時 ScalingInter-RL 會適時地增加交互輪次。這一舉措鼓勵智能體勇敢地探索更多未知的領(lǐng)域，嘗試不同的行動和策略。通過這種方式，智能體能夠避免陷入固定的思維模式和行動路徑，不斷優(yōu)化自己的行為，從而更好地應(yīng)對復(fù)雜多變的環(huán)境。

在實(shí)際應(yīng)用中，這種策略展現(xiàn)出了顯著的優(yōu)勢。在網(wǎng)頁導(dǎo)航任務(wù)中，初始階段，智能體通過有限的交互輪次，迅速掌握了基本的網(wǎng)頁操作技能，如點(diǎn)擊鏈接、填寫表單等。隨著訓(xùn)練的深入，交互輪次的增加使得智能體能夠更加深入地探索網(wǎng)頁的各種功能和結(jié)構(gòu)，學(xué)會了根據(jù)不同的任務(wù)需求，靈活地調(diào)整操作策略，從而更加高效地完成任務(wù)。在科學(xué)任務(wù)中，智能體在初期利用有限的交互學(xué)習(xí)基本實(shí)驗(yàn)操作，隨著交互輪次的增多，能夠更全面地探索實(shí)驗(yàn)條件和變量之間的關(guān)系，優(yōu)化實(shí)驗(yàn)步驟，提高實(shí)驗(yàn)成功率。

實(shí)驗(yàn)

為了全面驗(yàn)證 AgentGym-RL 框架的穩(wěn)定性和有效性，研究團(tuán)隊(duì)開展了一系列廣泛且深入的實(shí)驗(yàn)。這些實(shí)驗(yàn)覆蓋了豐富多樣的場景和環(huán)境，旨在模擬智能體在實(shí)際應(yīng)用中可能面臨的各種復(fù)雜情況，從而全面、準(zhǔn)確地評估智能體的性能。

實(shí)驗(yàn)涵蓋了五個主要場景，包括網(wǎng)頁導(dǎo)航、深度搜索、數(shù)字游戲、具身任務(wù)和科學(xué)任務(wù)

主要結(jié)果

在 5 個不同場景（Web 導(dǎo)航、深度搜索、數(shù)字游戲、具身任務(wù)、科學(xué)任務(wù)）中，使用 AgentGym-RL 框架訓(xùn)練的開源模型展現(xiàn)出了出色的多輪交互決策能力。

進(jìn)一步，通過 ScalingInter-RL 方法的優(yōu)化，這些模型實(shí)現(xiàn)了顯著的性能提升，甚至超越了一些大型商業(yè)閉源模型。在網(wǎng)頁導(dǎo)航任務(wù)中，ScalingInter-7B 模型的總體準(zhǔn)確率達(dá)到了26.00%，大幅超越了 GPT-4o 的 16.00%，與 DeepSeek-R1-0528 和 Gemini-2.5-Pro 的表現(xiàn)相當(dāng)；在科學(xué)場景中，ScalingInter-7B 模型以57.00% 的總體得分創(chuàng)下新的最優(yōu)成績，遠(yuǎn)超所有開源和專有模型，包括排名第二的專有模型 OpenAI o3（41.50%）。

因篇幅所限，此處僅展示部分實(shí)驗(yàn)結(jié)果，更多詳細(xì)結(jié)果請查閱論文。實(shí)驗(yàn)結(jié)果表明，經(jīng) ScalingInter-RL 算法訓(xùn)練的模型在多個環(huán)境中均達(dá)到了領(lǐng)先水平，實(shí)現(xiàn)了顯著的性能提升。

在 WebArena 環(huán)境下的實(shí)驗(yàn)結(jié)果。

在 SciWorld 環(huán)境下的實(shí)驗(yàn)結(jié)果。

ScalingInter-RL 展現(xiàn)更穩(wěn)定高效的強(qiáng)化學(xué)習(xí)優(yōu)化動態(tài)

ScalingInter-RL 方法在訓(xùn)練穩(wěn)定性與效率上顯著優(yōu)于傳統(tǒng)方案。實(shí)驗(yàn)表明，訓(xùn)練周期內(nèi)，采用該方法的智能體獎勵值始終保持上升趨勢，而固定輪次模型 150 步后獎勵值衰減 32%。這種穩(wěn)定性源于其漸進(jìn)式交互設(shè)計(jì) —— 通過動態(tài)調(diào)整交互深度，使智能體在技能積累階段避免因探索過度導(dǎo)致的策略震蕩，在優(yōu)化階段又能保持足夠的行為多樣性。

效率方面，ScalingInter-RL 方法同樣提升顯著。TextCraft 任務(wù)中，ScalingInter-RL 以傳統(tǒng)方法60% 步數(shù)達(dá)成 89% 成功率；WebArena 導(dǎo)航任務(wù)里，單位計(jì)算量性能增益是 PPO 算法1.8 倍，適合大規(guī)模多場景訓(xùn)練。

ScalingInter-RL和傳統(tǒng)RL算法的訓(xùn)練動態(tài)對比

后訓(xùn)練與測試時計(jì)算量比模型規(guī)模具有更高的縮放潛力

實(shí)驗(yàn)得出一個關(guān)鍵見解：有策略地投入后訓(xùn)練計(jì)算和測試時計(jì)算，比僅僅增加模型的參數(shù)數(shù)量更具影響力。7B 參數(shù)的 ScalingInter-RL 模型在經(jīng)過本文研究者的強(qiáng)化學(xué)習(xí)框架訓(xùn)練后，不僅超過了其他同等規(guī)模的開源模型，還顯著優(yōu)于參數(shù)規(guī)模近其十倍的更大模型

這表明，針對性的訓(xùn)練與推理計(jì)算投資，比單純擴(kuò)大模型參數(shù)更具性價比。

本文框架和方法通過后訓(xùn)練，顯著提升了7B參數(shù)規(guī)模開源模型的能力，不僅超過了其他同等規(guī)模的開源模型，且顯著優(yōu)于參數(shù)規(guī)模近其十倍的更大模型。

環(huán)境結(jié)構(gòu)是決定強(qiáng)化學(xué)習(xí)效率的關(guān)鍵因素

不同場景的結(jié)構(gòu)特性對 RL 訓(xùn)練效果產(chǎn)生顯著分化影響。在規(guī)則明確、反饋清晰的環(huán)境（如 TextCraft、BabyAI、SciWorld）中，RL 能帶來大幅性能提升；而在開放式環(huán)境（如 WebArena、SearchQA）中，性能提升則有限。

這表明，環(huán)境的規(guī)則明確性、狀態(tài)可觀測性和獎勵稀疏度，共同構(gòu)成了 RL 算法效率的邊界條件 —— 當(dāng)環(huán)境復(fù)雜度超出智能體的狀態(tài)表征能力時，即使最優(yōu)訓(xùn)練策略也難以發(fā)揮作用。

研究團(tuán)隊(duì)從三個角度調(diào)查了智能體表現(xiàn)如何隨推理時計(jì)算增加：

擴(kuò)展交互輪次：隨著推理時交互輪次的增加，所有模型的性能均呈現(xiàn)上升趨勢，其中經(jīng) AgentGym-RL 訓(xùn)練的智能體始終保持領(lǐng)先優(yōu)勢，驗(yàn)證了交互擴(kuò)展對環(huán)境探索的重要性。

隨著測試時交互輪次的增加，所有模型的性能均呈現(xiàn)上升趨勢。

擴(kuò)展采樣數(shù)量：在并行采樣方面，增加采樣數(shù)量（K 值）能顯著提升 Pass@K 指標(biāo)，且經(jīng) RL 訓(xùn)練的模型在相同采樣預(yù)算下表現(xiàn)更優(yōu)。

隨著采樣數(shù)量的增加，所有模型的性能均呈上升趨勢。

不同 RL 算法比較：對比 GRPO 與 REINFORCE++ 兩種主流 RL 算法發(fā)現(xiàn)，GRPO 在 TextCraft、BabyAI 和 SearchQA 任務(wù)上均顯著優(yōu)于 REINFORCE++。即使 3B 參數(shù)的 GRPO 模型，其性能也超過 7B 參數(shù)的 REINFORCE++ 模型，表明算法選擇對性能的影響可能大于模型規(guī)模。

模型在不同強(qiáng)化學(xué)習(xí)算法下的測試結(jié)果

真實(shí)交互示例

不妨聚焦這些真實(shí)交互場景 —— 在以 BabyAI 為代表的具身任務(wù)中，該研究中的智能體展現(xiàn)出了卓越性能。以「找到黃色小球并帶回起點(diǎn)」這一任務(wù)為例，其不僅要求智能體具備基礎(chǔ)的路徑規(guī)劃與避障能力，還涉及更為復(fù)雜的長程依賴與順序規(guī)劃邏輯?？绮襟E的信息利用能力、動態(tài)化的探索策略，以及對多階段任務(wù)的全局把控能力，使得該任務(wù)的難度遠(yuǎn)超單一反應(yīng)類操作。

而基于 AgentGym-RL 框架、經(jīng) ScalingInter 算法訓(xùn)練的智能體，正是在這類高難度場景中展現(xiàn)出了令人矚目的表現(xiàn)。它不僅能精準(zhǔn)理解任務(wù)核心目標(biāo)，還能在多扇彩色門與未知房間構(gòu)成的復(fù)雜環(huán)境中，開展有條理的探索活動，合理規(guī)劃行動順序；當(dāng)確認(rèn)某一區(qū)域無探索價值后，更能主動離開并轉(zhuǎn)向新的探索路徑。尤為難得的是，它能高效利用已獲取的環(huán)境信息，將分散在不同時間節(jié)點(diǎn)的觀察結(jié)果串聯(lián)起來，構(gòu)建連貫的決策鏈路。正是這種跨步驟的信息整合能力與動態(tài)調(diào)整機(jī)制，讓它在復(fù)雜環(huán)境中始終保持清晰且高效的任務(wù)執(zhí)行能力。

而在以WebArena 環(huán)境為代表的真實(shí)網(wǎng)頁交互場景中，智能體需要面對充斥著大量噪音的網(wǎng)頁界面，真正的功能入口往往被隱藏在層層標(biāo)簽頁和復(fù)雜的交互邏輯之下。若缺乏對頁面結(jié)構(gòu)的理解，智能體很容易陷入低效的窮舉式搜索。然而，基于 AgentGym-RL 框架、經(jīng) ScalingInter 算法訓(xùn)練后，智能體能夠主動點(diǎn)擊「Sales」標(biāo)簽頁，精準(zhǔn)鎖定與任務(wù)相關(guān)的入口，并進(jìn)一步利用內(nèi)置的「Filter」功能進(jìn)行篩選，而不是依賴低效的遍歷查看。這一系列操作表明它已經(jīng)掌握了網(wǎng)頁的結(jié)構(gòu)與規(guī)則，并能基于探索經(jīng)驗(yàn)選擇更高效的策略，從而顯著提升任務(wù)的準(zhǔn)確性與執(zhí)行效率。

結(jié)論與展望：以經(jīng)驗(yàn)學(xué)習(xí)開啟 AI 下半場的自主智能體時代

AgentGym-RL 框架的推出，不僅是自主 LLM 智能體訓(xùn)練領(lǐng)域的一次技術(shù)突破，更標(biāo)志著 AI 行業(yè)向「經(jīng)驗(yàn)時代」的深度邁進(jìn)。

從技術(shù)層面看，AgentGym-RL 通過統(tǒng)一的端到端 RL 框架，解決了自主智能體訓(xùn)練中「場景單一、算法割裂、效率低下」的痛點(diǎn)，讓「從經(jīng)驗(yàn)中學(xué)習(xí)」成為標(biāo)準(zhǔn)化、可復(fù)現(xiàn)的技術(shù)路徑；而 ScalingInter-RL 方法則通過漸進(jìn)式交互輪次擴(kuò)展，平衡了經(jīng)驗(yàn)探索與利用的關(guān)系，讓智能體能夠像人類一樣「循序漸進(jìn)積累能力」。實(shí)驗(yàn)數(shù)據(jù)充分證明了這一方案的價值：7B 參數(shù)的開源模型在 26 項(xiàng)任務(wù)中對標(biāo)甚至超越頂級閉源模型，為 AI 下半場的技術(shù)發(fā)展提供了新范式。

然而，探索的道路永無止境。未來，本文研究者們將重點(diǎn)關(guān)注以下三個方向：

1.通用能力升級：使智能體打破「領(lǐng)域壁壘」，在全新環(huán)境和面對未知工具時仍能進(jìn)行高效決策；

2.復(fù)雜場景拓展：向更長周期、更貼近物理世界的任務(wù)拓展，例如機(jī)器人操作、現(xiàn)實(shí)場景規(guī)劃等，以應(yīng)對更豐富的感官輸入和龐大的行動空間；

3.多智能體協(xié)同：從「單打獨(dú)斗」轉(zhuǎn)向「團(tuán)隊(duì)協(xié)作」，探索多智能體系統(tǒng)的訓(xùn)練模式，以解鎖更復(fù)雜的群體決策能力。

AgentGym-RL 框架已全面開源，期待與全球研究者攜手，共同推動下一代智能體的發(fā)展，讓人工智能在現(xiàn)實(shí)世界中展現(xiàn)出更卓越的「行動力」！

本研究得到了華為昇騰 AI 處理器的算力支持。在昇騰和開源社區(qū)的努力下，諸多大模型訓(xùn)練框架均已支持昇騰 AI 處理器。此外，昇騰聯(lián)合 vllm 社區(qū)推出了 vllm-ascend 框架，極大提升了百億乃至千億級參數(shù)量的大模型在國產(chǎn)算力上的推理效率。在本研究中，昇騰 910B NPU 在多個實(shí)驗(yàn)階段中發(fā)揮作用，提高了研究效率。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.