機(jī)器之心報(bào)道
機(jī)器之心編輯部
強(qiáng)化學(xué)習(xí)之父、2024 年 ACM 圖靈獎得主 Richard Sutton 曾指出,人工智能正在邁入「經(jīng)驗(yàn)時代」—— 在這個時代,真正的智能不再僅僅依賴大量標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí),而是來源于在真實(shí)環(huán)境中主動探索、不斷積累經(jīng)驗(yàn)的能力。正如人類通過實(shí)踐理解世界、優(yōu)化行為一樣,智能體也必須在交互中積累經(jīng)驗(yàn)、改進(jìn)策略,才能掌握長期決策的能力。
無獨(dú)有偶,特斯拉前 AI 負(fù)責(zé)人,OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 進(jìn)一步指出,環(huán)境的多樣性與真實(shí)性,是智能體獲得泛化能力、應(yīng)對復(fù)雜任務(wù)的關(guān)鍵前提。缺乏豐富的環(huán)境,智能體就無法充分暴露于多樣化情境,也難以從經(jīng)驗(yàn)中形成穩(wěn)健的決策策略。
在這一背景下,復(fù)旦、創(chuàng)智、字節(jié)的研究者們基于智能體自我進(jìn)化框架 AgentGym,全新打造了多環(huán)境強(qiáng)化學(xué)習(xí)智能體訓(xùn)練框架 AgentGym-RL
本文的第一作者為復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室博士生奚志恒,通訊作者為復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室的桂韜教授和張奇教授。
這一框架是首個無需監(jiān)督微調(diào)、具備統(tǒng)一端到端架構(gòu)、支持交互式多輪訓(xùn)練,且在多類真實(shí)場景中驗(yàn)證有效的 LLM 智能體強(qiáng)化學(xué)習(xí)框架,為 LLM 智能體的強(qiáng)化學(xué)習(xí)提供了全新的解決方案。
依托 AgentGym-RL 框架,研究人員創(chuàng)新性地提出了智能體范式下擴(kuò)展測試時計(jì)算的新路徑 ——擴(kuò)展環(huán)境交互(Scaling Interaction)。其核心是通過增加訓(xùn)練與測試階段模型和外部環(huán)境的交互回合數(shù),讓模型借助多輪反饋逐步完善決策、提升表現(xiàn)。
相較于傳統(tǒng)測試時擴(kuò)展方法,新路徑優(yōu)勢顯著:傳統(tǒng)方法局限于模型內(nèi)部,僅靠延長思維鏈消耗更多 Token,缺乏與外部環(huán)境的實(shí)時互動,難以應(yīng)對復(fù)雜任務(wù)的動態(tài)場景需求;而擴(kuò)展交互輪次突破了這種封閉式推理,允許模型依據(jù)每輪反饋動態(tài)修正策略,最終以更結(jié)構(gòu)化的決策流程、更高效率的問題解決路徑完成任務(wù),成為智能體范式下表現(xiàn)更優(yōu)的測試時擴(kuò)展方案。
然而,長交互輪次訓(xùn)練面臨著容易出現(xiàn)崩潰的問題。針對這一痛點(diǎn),研究團(tuán)隊(duì)再次突破,提出了ScalingInter RL 交互輪次擴(kuò)展策略,通過分階段增加模型最長交互輪次限制,使智能體能夠先在短交互輪次下掌握基礎(chǔ)技能,再逐步過渡到中長交互輪次解決復(fù)雜任務(wù),平衡了智能體訓(xùn)練過程中的探索與利用,有效規(guī)避了模型崩潰的風(fēng)險,成功構(gòu)建了穩(wěn)定的交互輪次擴(kuò)展訓(xùn)練范式。
借助 AgentGym-RL 這一統(tǒng)一框架,結(jié)合 ScalingInter-RL 算法的穩(wěn)定擴(kuò)展能力,研究團(tuán)隊(duì)取得了令人矚目的成果:
僅僅是7B 大小的模型,在多個真實(shí)任務(wù)導(dǎo)向的環(huán)境中經(jīng)過長輪次交互訓(xùn)練后,竟逐步掌握了理解任務(wù)目標(biāo)、預(yù)測行動后果、規(guī)劃多步操作等復(fù)雜任務(wù)處理技能。從自主瀏覽界面、精準(zhǔn)篩選選項(xiàng),到對比參數(shù)、執(zhí)行操作,整個過程流暢高效,展現(xiàn)出前所未有的自主決策水平。在五種測試環(huán)境、26 項(xiàng)測試任務(wù)中,它不僅超越了 100B 以上的大型開源模型,還追平了 OpenAI o3、谷歌 Gemini 2.5 Pro、DeepSeek r1 等頂尖商業(yè)模型的水平,充分彰顯出 AgentGym-RL 框架與交互輪次擴(kuò)展范式的強(qiáng)大潛力與競爭力,也為人工智能在 「經(jīng)驗(yàn)時代」 的發(fā)展注入了強(qiáng)勁動力。
商業(yè)模型、開源模型以及本文強(qiáng)化學(xué)習(xí)模型在不同智能體任務(wù)中的表現(xiàn)。
從網(wǎng)頁導(dǎo)航到科學(xué)實(shí)驗(yàn),從文字游戲到實(shí)體交互,這套兼容 PPO、GRPO 等主流算法的模塊化框架,正為開源社區(qū)推開自主智能體研發(fā)的全新大門。
- 論文標(biāo)題:AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2509.08755
- 項(xiàng)目主頁:https://agentgym-rl.github.io
- 代碼地址:https://github.com/WooooDyy/AgentGym-RL
- 環(huán)境框架地址:https://github.com/WooooDyy/AgentGym
研究背景:從 「數(shù)據(jù)密集」 到 「經(jīng)驗(yàn)密集」
構(gòu)建能夠在復(fù)雜現(xiàn)實(shí)場景中完成多輪決策的自主 LLM 智能體,是人工智能領(lǐng)域一個新興且快速發(fā)展的前沿方向。
Sutton 曾強(qiáng)調(diào),人工智能的發(fā)展正從 「數(shù)據(jù)密集型」 向 「經(jīng)驗(yàn)密集型」 轉(zhuǎn)型:早期模型依賴海量標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),如同通過教科書間接獲取知識;而真正的智能體應(yīng)當(dāng)像人類一樣,在真實(shí)環(huán)境中通過 「做中學(xué)」積累經(jīng)驗(yàn),在持續(xù)交互中理解環(huán)境規(guī)則、預(yù)測行動后果、優(yōu)化長期目標(biāo)。
而在這一過程中,構(gòu)建真實(shí)、多樣、貼合現(xiàn)實(shí)需求的交互環(huán)境則成為了強(qiáng)化學(xué)習(xí)的重中之重。真實(shí)的環(huán)境是智能體獲得有效經(jīng)驗(yàn)的基礎(chǔ),只有還原場景中的動態(tài)變化與不確定因素,才能避免智能體陷入 「實(shí)驗(yàn)室表現(xiàn)優(yōu)異、落地即失效」 的困境;環(huán)境的多樣化是智能體具備泛化能力的前提,只有覆蓋多類型任務(wù)場景的交互邏輯,才能讓智能體在新場景中快速遷移已有經(jīng)驗(yàn)。
然而, 當(dāng)前大多數(shù)現(xiàn)有研究局限于單輪任務(wù),缺乏與復(fù)雜環(huán)境的多輪交互機(jī)制。雖然最近有研究嘗試擴(kuò)展 RL 以訓(xùn)練具有多輪能力的 LLM 智能體,但這些工作仍然存在任務(wù)場景單一、環(huán)境適配性差、優(yōu)化穩(wěn)定性低等問題,使得智能體無法接觸到足夠豐富的環(huán)境信息,難以生成和利用第一手經(jīng)驗(yàn),自然難以應(yīng)對現(xiàn)實(shí)世界復(fù)雜多變的任務(wù)。因此,該領(lǐng)域目前仍然缺乏一個統(tǒng)一的、端到端的、交互式多輪 RL 框架,能夠在廣泛的實(shí)際場景和環(huán)境中有效地從頭開始訓(xùn)練 LLM 智能體,而無需依賴監(jiān)督微調(diào)(SFT)作為初步步驟。
為填補(bǔ)這一空白,研究團(tuán)隊(duì)提出了 AgentGym-RL,一個通過強(qiáng)化學(xué)習(xí)訓(xùn)練 LLM 智能體進(jìn)行多輪交互式?jīng)Q策的新框架。該框架的研究工作圍繞著推動智能體高效學(xué)習(xí)和決策展開,主要有以下貢獻(xiàn):
- 提出并開源 AgentGym-RL 框架:這是一個全新的、統(tǒng)一的、模塊化且靈活的端到端 RL 框架,專為智能體多輪交互式?jīng)Q策而設(shè)計(jì),包含豐富多樣的場景和環(huán)境,讓 「從經(jīng)驗(yàn)學(xué)習(xí)」 有了標(biāo)準(zhǔn)化的實(shí)驗(yàn)場。
- 引入 ScalingInter-RL 方法:這是一種基于漸進(jìn)式交互輪數(shù)拓展的強(qiáng)化學(xué)習(xí)訓(xùn)練方法,使智能體能夠逐步適應(yīng)環(huán)境,優(yōu)化其交互模式、行為和技能,最終在探索和利用之間實(shí)現(xiàn)更好的平衡。
- 驗(yàn)證框架和方法的有效性:通過大量實(shí)驗(yàn)驗(yàn)證了 AgentGym-RL 和 ScaleInter-RL 能夠顯著且穩(wěn)定地提升智能體性能,使其在復(fù)雜任務(wù)處理能力上與頂尖商業(yè)模型形成對標(biāo)甚至實(shí)現(xiàn)性能反超。
AgentGym-RL:為經(jīng)驗(yàn)時代打造的自主智能體訓(xùn)練基礎(chǔ)設(shè)施
AgentGym-RL 集成了多種環(huán)境、豐富的軌跡數(shù)據(jù)和全面的基準(zhǔn)測試,通過標(biāo)準(zhǔn)化環(huán)境操作接口,將復(fù)雜的環(huán)境配置流程簡化為便捷的模塊化操作。該框架以 AgentGym 為基礎(chǔ)進(jìn)行迭代升級,通過優(yōu)化模型與環(huán)境的交互協(xié)議、強(qiáng)化分布式并行計(jì)算架構(gòu)、引入強(qiáng)化學(xué)習(xí)訓(xùn)練模塊等方式進(jìn)行改進(jìn)。
其核心目標(biāo),就是為 LLM 智能體構(gòu)建一個能夠持續(xù)產(chǎn)生 「有效經(jīng)驗(yàn)」 的生態(tài),讓「經(jīng)驗(yàn)驅(qū)動學(xué)習(xí)」不再依賴零散的實(shí)驗(yàn)設(shè)置,而是具備可復(fù)現(xiàn)、可擴(kuò)展的堅(jiān)實(shí)基礎(chǔ)。
模塊架構(gòu)
AgentGym-RL 框架主要包含環(huán)境、代理和訓(xùn)練三個組件。
- 環(huán)境模塊中,每個環(huán)境打包為獨(dú)立服務(wù),支持并行請求,環(huán)境客戶端通過 HTTP 連接服務(wù)器,向代理暴露如獲取觀測、動作等 API,涵蓋多場景、環(huán)境、任務(wù)和數(shù)據(jù)實(shí)例,為 LLM 代理訓(xùn)練提供支持
- 代理模塊封裝語言模型代理與環(huán)境的交互邏輯,支持多種提示和采樣配置,擴(kuò)展長期規(guī)劃、自我反思等高級機(jī)制。
- 訓(xùn)練模塊實(shí)現(xiàn)支持在線算法的統(tǒng)一強(qiáng)化學(xué)習(xí)管道,管理經(jīng)驗(yàn)收集等,支持課程學(xué)習(xí)和交互擴(kuò)展,高度模塊化,支持多訓(xùn)練方法,訓(xùn)練過程可分布在多節(jié)點(diǎn)。
AgentGym-RL 架構(gòu)圖:采用解耦化設(shè)計(jì),兼具靈活性與可擴(kuò)展性,能夠支持多種場景、環(huán)境類型及算法的應(yīng)用與適配。
多樣化的環(huán)境
AgentGym-RL 框架包含多種環(huán)境和豐富的任務(wù),涵蓋了網(wǎng)頁導(dǎo)航、文字游戲、具身控制、科學(xué)探索和深度搜索等多個類別 —— 精準(zhǔn)對應(yīng)了語言智能體領(lǐng)域的重要推動者、OpenAI 研究科學(xué)家姚順雨所說的 「AI 下半場落地場景」,每一類環(huán)境都指向真實(shí)世界中 AI 需要解決的實(shí)際問題。該框架支持主流的 RL 算法,并配備了廣泛的實(shí)際場景:
- 網(wǎng)頁導(dǎo)航:對應(yīng) WebArena 等環(huán)境,包含電商、Reddit 論壇、GitLab 協(xié)作開發(fā)、OpenStreetMap 地圖、CMS 內(nèi)容管理系統(tǒng)等 5 個子任務(wù),共 372 個訓(xùn)練查詢和 50 個測試查詢。智能體需模擬人類與網(wǎng)頁交互,完成在線購物、信息提取、表單填寫等操作,涉及地圖、計(jì)算器等工具的使用。
- 深度搜索:對應(yīng)基于搜索引擎的環(huán)境,涵蓋 NQ、TriviaQA、PopQA 等 7 個數(shù)據(jù)集的任務(wù)。智能體需通過動態(tài)生成搜索查詢、調(diào)用瀏覽器和 Python 解釋器等工具,從外部源獲取信息并整合,完成多輪檢索與推理任務(wù)。
- 電子游戲:對應(yīng) TextCraft 等環(huán)境,這是一種類 Minecraft 的文本制作游戲。任務(wù)按制作樹深度分為 1-4 級,智能體需通過自然語言交互使用制作、 inventory 管理等 API,完成從簡單到復(fù)雜的物品制作任務(wù)。
- 具身控制:對應(yīng) BabyAI 等環(huán)境,這是一個可控的網(wǎng)格世界,任務(wù)按最終目標(biāo)分為 6 個子集。智能體需通過自然語言指令導(dǎo)航,執(zhí)行移動、拾取物體、開門等動作,涉及空間推理和環(huán)境交互能力。
- 科學(xué)任務(wù):對應(yīng) SciWorld 等環(huán)境,選取 8 個子任務(wù)。智能體需在模擬的科學(xué)場景中,使用實(shí)驗(yàn)室儀器相關(guān) API 進(jìn)行實(shí)驗(yàn)(如測量溫度、連接電路、混合化學(xué)物質(zhì)),完成科學(xué)探索和假設(shè)驗(yàn)證任務(wù)。
多種強(qiáng)化學(xué)習(xí)算法
AgentGym-RL 提供全面的算法支持,涵蓋不同的學(xué)習(xí)方法,包括監(jiān)督微調(diào)(SFT)、直接偏好優(yōu)化(DPO)、拒絕采樣和在線 RL 算法等。在線 RL 是 AgentGym-RL 的核心,支持多種主流在線 RL 算法,如近端策略優(yōu)化(PPO)、組近端策略優(yōu)化(GRPO)、增強(qiáng)型 REINFORCE(REINFORCE++)和基于回合的策略優(yōu)化(RLOO)等。
ScalingInter-RL:交互擴(kuò)展新策略
基于 AgentGym-RL 框架,研究團(tuán)隊(duì)創(chuàng)新性地提出了 ScalingInter-RL 方法,通過擴(kuò)展智能體在訓(xùn)練過程中的交互輪數(shù),平衡智能體對環(huán)境的探索與利用,顯著提升智能體在復(fù)雜環(huán)境中的學(xué)習(xí)和決策能力。
ScalingInter-RL 算法示意圖
ScalingInter-RL 方法的核心在于逐步、動態(tài)地?cái)U(kuò)展智能體與環(huán)境的交互輪次
在訓(xùn)練的初始階段,智能體的主要任務(wù)是快速學(xué)習(xí)基本技能,解決相對簡單的問題。此時,ScalingInter-RL 會限制交互輪次,引導(dǎo)智能體集中精力利用已有的知識和策略,盡可能高效地完成任務(wù)。這種策略就像是為智能體制定了一個循序漸進(jìn)的學(xué)習(xí)計(jì)劃,讓它在穩(wěn)固的基礎(chǔ)上逐步成長。
隨著訓(xùn)練的穩(wěn)步推進(jìn),智能體已經(jīng)掌握了一定的基礎(chǔ)能力,此時 ScalingInter-RL 會適時地增加交互輪次。這一舉措鼓勵智能體勇敢地探索更多未知的領(lǐng)域,嘗試不同的行動和策略。通過這種方式,智能體能夠避免陷入固定的思維模式和行動路徑,不斷優(yōu)化自己的行為,從而更好地應(yīng)對復(fù)雜多變的環(huán)境。
在實(shí)際應(yīng)用中,這種策略展現(xiàn)出了顯著的優(yōu)勢。在網(wǎng)頁導(dǎo)航任務(wù)中,初始階段,智能體通過有限的交互輪次,迅速掌握了基本的網(wǎng)頁操作技能,如點(diǎn)擊鏈接、填寫表單等。隨著訓(xùn)練的深入,交互輪次的增加使得智能體能夠更加深入地探索網(wǎng)頁的各種功能和結(jié)構(gòu),學(xué)會了根據(jù)不同的任務(wù)需求,靈活地調(diào)整操作策略,從而更加高效地完成任務(wù)。在科學(xué)任務(wù)中,智能體在初期利用有限的交互學(xué)習(xí)基本實(shí)驗(yàn)操作,隨著交互輪次的增多,能夠更全面地探索實(shí)驗(yàn)條件和變量之間的關(guān)系,優(yōu)化實(shí)驗(yàn)步驟,提高實(shí)驗(yàn)成功率。
實(shí)驗(yàn)
為了全面驗(yàn)證 AgentGym-RL 框架的穩(wěn)定性和有效性,研究團(tuán)隊(duì)開展了一系列廣泛且深入的實(shí)驗(yàn)。這些實(shí)驗(yàn)覆蓋了豐富多樣的場景和環(huán)境,旨在模擬智能體在實(shí)際應(yīng)用中可能面臨的各種復(fù)雜情況,從而全面、準(zhǔn)確地評估智能體的性能。
實(shí)驗(yàn)涵蓋了五個主要場景,包括網(wǎng)頁導(dǎo)航、深度搜索、數(shù)字游戲、具身任務(wù)和科學(xué)任務(wù)
主要結(jié)果
在 5 個不同場景(Web 導(dǎo)航、深度搜索、數(shù)字游戲、具身任務(wù)、科學(xué)任務(wù))中,使用 AgentGym-RL 框架訓(xùn)練的開源模型展現(xiàn)出了出色的多輪交互決策能力。
進(jìn)一步,通過 ScalingInter-RL 方法的優(yōu)化,這些模型實(shí)現(xiàn)了顯著的性能提升,甚至超越了一些大型商業(yè)閉源模型。在網(wǎng)頁導(dǎo)航任務(wù)中,ScalingInter-7B 模型的總體準(zhǔn)確率達(dá)到了26.00%,大幅超越了 GPT-4o 的 16.00%,與 DeepSeek-R1-0528 和 Gemini-2.5-Pro 的表現(xiàn)相當(dāng);在科學(xué)場景中,ScalingInter-7B 模型以57.00% 的總體得分創(chuàng)下新的最優(yōu)成績,遠(yuǎn)超所有開源和專有模型,包括排名第二的專有模型 OpenAI o3(41.50%)。
因篇幅所限,此處僅展示部分實(shí)驗(yàn)結(jié)果,更多詳細(xì)結(jié)果請查閱論文。實(shí)驗(yàn)結(jié)果表明,經(jīng) ScalingInter-RL 算法訓(xùn)練的模型在多個環(huán)境中均達(dá)到了領(lǐng)先水平,實(shí)現(xiàn)了顯著的性能提升。
在 WebArena 環(huán)境下的實(shí)驗(yàn)結(jié)果。
在 SciWorld 環(huán)境下的實(shí)驗(yàn)結(jié)果。
ScalingInter-RL 展現(xiàn)更穩(wěn)定高效的強(qiáng)化學(xué)習(xí)優(yōu)化動態(tài)
ScalingInter-RL 方法在訓(xùn)練穩(wěn)定性與效率上顯著優(yōu)于傳統(tǒng)方案。實(shí)驗(yàn)表明,訓(xùn)練周期內(nèi),采用該方法的智能體獎勵值始終保持上升趨勢,而固定輪次模型 150 步后獎勵值衰減 32%。這種穩(wěn)定性源于其漸進(jìn)式交互設(shè)計(jì) —— 通過動態(tài)調(diào)整交互深度,使智能體在技能積累階段避免因探索過度導(dǎo)致的策略震蕩,在優(yōu)化階段又能保持足夠的行為多樣性。
效率方面,ScalingInter-RL 方法同樣提升顯著。TextCraft 任務(wù)中,ScalingInter-RL 以傳統(tǒng)方法60% 步數(shù)達(dá)成 89% 成功率;WebArena 導(dǎo)航任務(wù)里,單位計(jì)算量性能增益是 PPO 算法1.8 倍,適合大規(guī)模多場景訓(xùn)練。
ScalingInter-RL和傳統(tǒng)RL算法的訓(xùn)練動態(tài)對比
后訓(xùn)練與測試時計(jì)算量比模型規(guī)模具有更高的縮放潛力
實(shí)驗(yàn)得出一個關(guān)鍵見解:有策略地投入后訓(xùn)練計(jì)算和測試時計(jì)算,比僅僅增加模型的參數(shù)數(shù)量更具影響力。7B 參數(shù)的 ScalingInter-RL 模型在經(jīng)過本文研究者的強(qiáng)化學(xué)習(xí)框架訓(xùn)練后,不僅超過了其他同等規(guī)模的開源模型,還顯著優(yōu)于參數(shù)規(guī)模近其十倍的更大模型
這表明,針對性的訓(xùn)練與推理計(jì)算投資,比單純擴(kuò)大模型參數(shù)更具性價比。
本文框架和方法通過后訓(xùn)練,顯著提升了7B參數(shù)規(guī)模開源模型的能力,不僅超過了其他同等規(guī)模的開源模型,且顯著優(yōu)于參數(shù)規(guī)模近其十倍的更大模型。
環(huán)境結(jié)構(gòu)是決定強(qiáng)化學(xué)習(xí)效率的關(guān)鍵因素
不同場景的結(jié)構(gòu)特性對 RL 訓(xùn)練效果產(chǎn)生顯著分化影響。在規(guī)則明確、反饋清晰的環(huán)境(如 TextCraft、BabyAI、SciWorld)中,RL 能帶來大幅性能提升;而在開放式環(huán)境(如 WebArena、SearchQA)中,性能提升則有限。
這表明,環(huán)境的規(guī)則明確性、狀態(tài)可觀測性和獎勵稀疏度,共同構(gòu)成了 RL 算法效率的邊界條件 —— 當(dāng)環(huán)境復(fù)雜度超出智能體的狀態(tài)表征能力時,即使最優(yōu)訓(xùn)練策略也難以發(fā)揮作用。
研究團(tuán)隊(duì)從三個角度調(diào)查了智能體表現(xiàn)如何隨推理時計(jì)算增加:
- 擴(kuò)展交互輪次:隨著推理時交互輪次的增加,所有模型的性能均呈現(xiàn)上升趨勢,其中經(jīng) AgentGym-RL 訓(xùn)練的智能體始終保持領(lǐng)先優(yōu)勢,驗(yàn)證了交互擴(kuò)展對環(huán)境探索的重要性。
隨著測試時交互輪次的增加,所有模型的性能均呈現(xiàn)上升趨勢。
- 擴(kuò)展采樣數(shù)量:在并行采樣方面,增加采樣數(shù)量(K 值)能顯著提升 Pass@K 指標(biāo),且經(jīng) RL 訓(xùn)練的模型在相同采樣預(yù)算下表現(xiàn)更優(yōu)。
隨著采樣數(shù)量的增加,所有模型的性能均呈上升趨勢。
- 不同 RL 算法比較:對比 GRPO 與 REINFORCE++ 兩種主流 RL 算法發(fā)現(xiàn),GRPO 在 TextCraft、BabyAI 和 SearchQA 任務(wù)上均顯著優(yōu)于 REINFORCE++。即使 3B 參數(shù)的 GRPO 模型,其性能也超過 7B 參數(shù)的 REINFORCE++ 模型,表明算法選擇對性能的影響可能大于模型規(guī)模。
模型在不同強(qiáng)化學(xué)習(xí)算法下的測試結(jié)果
真實(shí)交互示例
不妨聚焦這些真實(shí)交互場景 —— 在以 BabyAI 為代表的具身任務(wù)中,該研究中的智能體展現(xiàn)出了卓越性能。以 「找到黃色小球并帶回起點(diǎn)」 這一任務(wù)為例,其不僅要求智能體具備基礎(chǔ)的路徑規(guī)劃與避障能力,還涉及更為復(fù)雜的長程依賴與順序規(guī)劃邏輯??绮襟E的信息利用能力、動態(tài)化的探索策略,以及對多階段任務(wù)的全局把控能力,使得該任務(wù)的難度遠(yuǎn)超單一反應(yīng)類操作。
而基于 AgentGym-RL 框架、經(jīng) ScalingInter 算法訓(xùn)練的智能體,正是在這類高難度場景中展現(xiàn)出了令人矚目的表現(xiàn)。它不僅能精準(zhǔn)理解任務(wù)核心目標(biāo),還能在多扇彩色門與未知房間構(gòu)成的復(fù)雜環(huán)境中,開展有條理的探索活動,合理規(guī)劃行動順序;當(dāng)確認(rèn)某一區(qū)域無探索價值后,更能主動離開并轉(zhuǎn)向新的探索路徑。尤為難得的是,它能高效利用已獲取的環(huán)境信息,將分散在不同時間節(jié)點(diǎn)的觀察結(jié)果串聯(lián)起來,構(gòu)建連貫的決策鏈路。正是這種跨步驟的信息整合能力與動態(tài)調(diào)整機(jī)制,讓它在復(fù)雜環(huán)境中始終保持清晰且高效的任務(wù)執(zhí)行能力。
而在以WebArena 環(huán)境為代表的真實(shí)網(wǎng)頁交互場景中,智能體需要面對充斥著大量噪音的網(wǎng)頁界面,真正的功能入口往往被隱藏在層層標(biāo)簽頁和復(fù)雜的交互邏輯之下。若缺乏對頁面結(jié)構(gòu)的理解,智能體很容易陷入低效的窮舉式搜索。然而,基于 AgentGym-RL 框架、經(jīng) ScalingInter 算法訓(xùn)練后,智能體能夠主動點(diǎn)擊 「Sales」 標(biāo)簽頁,精準(zhǔn)鎖定與任務(wù)相關(guān)的入口,并進(jìn)一步利用內(nèi)置的 「Filter」 功能進(jìn)行篩選,而不是依賴低效的遍歷查看。這一系列操作表明它已經(jīng)掌握了網(wǎng)頁的結(jié)構(gòu)與規(guī)則,并能基于探索經(jīng)驗(yàn)選擇更高效的策略,從而顯著提升任務(wù)的準(zhǔn)確性與執(zhí)行效率。
結(jié)論與展望:以經(jīng)驗(yàn)學(xué)習(xí)開啟 AI 下半場的自主智能體時代
AgentGym-RL 框架的推出,不僅是自主 LLM 智能體訓(xùn)練領(lǐng)域的一次技術(shù)突破,更標(biāo)志著 AI 行業(yè)向「經(jīng)驗(yàn)時代」的深度邁進(jìn)。
從技術(shù)層面看,AgentGym-RL 通過統(tǒng)一的端到端 RL 框架,解決了自主智能體訓(xùn)練中 「場景單一、算法割裂、效率低下」 的痛點(diǎn),讓 「從經(jīng)驗(yàn)中學(xué)習(xí)」 成為標(biāo)準(zhǔn)化、可復(fù)現(xiàn)的技術(shù)路徑;而 ScalingInter-RL 方法則通過漸進(jìn)式交互輪次擴(kuò)展,平衡了經(jīng)驗(yàn)探索與利用的關(guān)系,讓智能體能夠像人類一樣 「循序漸進(jìn)積累能力」。實(shí)驗(yàn)數(shù)據(jù)充分證明了這一方案的價值:7B 參數(shù)的開源模型在 26 項(xiàng)任務(wù)中對標(biāo)甚至超越頂級閉源模型,為 AI 下半場的技術(shù)發(fā)展提供了新范式。
然而,探索的道路永無止境。未來,本文研究者們將重點(diǎn)關(guān)注以下三個方向:
1.通用能力升級:使智能體打破 「領(lǐng)域壁壘」,在全新環(huán)境和面對未知工具時仍能進(jìn)行高效決策;
2.復(fù)雜場景拓展:向更長周期、更貼近物理世界的任務(wù)拓展,例如機(jī)器人操作、現(xiàn)實(shí)場景規(guī)劃等,以應(yīng)對更豐富的感官輸入和龐大的行動空間;
3.多智能體協(xié)同:從 「單打獨(dú)斗」 轉(zhuǎn)向 「團(tuán)隊(duì)協(xié)作」,探索多智能體系統(tǒng)的訓(xùn)練模式,以解鎖更復(fù)雜的群體決策能力。
AgentGym-RL 框架已全面開源,期待與全球研究者攜手,共同推動下一代智能體的發(fā)展,讓人工智能在現(xiàn)實(shí)世界中展現(xiàn)出更卓越的 「行動力」!
本研究得到了華為昇騰 AI 處理器的算力支持。在昇騰和開源社區(qū)的努力下,諸多大模型訓(xùn)練框架均已支持昇騰 AI 處理器。此外,昇騰聯(lián)合 vllm 社區(qū)推出了 vllm-ascend 框架,極大提升了百億乃至千億級參數(shù)量的大模型在國產(chǎn)算力上的推理效率。在本研究中,昇騰 910B NPU 在多個實(shí)驗(yàn)階段中發(fā)揮作用 ,提高了研究效率。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.