任意Agent皆可強化學(xué)習(xí)！微軟推出Agent Lightning框架，無需修改任何代碼

2025-10-10 13:10:56　來源: 新智元

北京舉報

分享至

新智元報道

作者：學(xué)術(shù)頭條

編輯：英智

【新智元導(dǎo)讀】AI Agent已逐漸從科幻走進現(xiàn)實！不僅能夠執(zhí)行編寫代碼、調(diào)用工具、進行多輪對話等復(fù)雜任務(wù)，甚至還可以進行端到端的軟件開發(fā)，已經(jīng)在金融、游戲、軟件開發(fā)等諸多領(lǐng)域落地應(yīng)用。

當(dāng)前的AI Agent在訓(xùn)練與優(yōu)化環(huán)節(jié)卻面臨著嚴峻挑戰(zhàn)，傳統(tǒng)強化學(xué)習(xí)方法也在復(fù)雜、動態(tài)交互場景下表現(xiàn)不佳。

為此，微軟團隊推出了一個靈活、可擴展的框架Agent Lightning，其可對任何AI Agent進行基于強化學(xué)習(xí)的LLM訓(xùn)練，有望重塑AI Agent的未來訓(xùn)練范式。相關(guān)研究論文已發(fā)表在預(yù)印本網(wǎng)站arXiv上。

論文鏈接：https://arxiv.org/abs/2508.03680

核心貢獻如下：

Agent Lightning是首個實現(xiàn)Agent與強化學(xué)習(xí)訓(xùn)練完全解耦的框架，能夠無縫應(yīng)用于任何 AI Agent，無論其實現(xiàn)方式如何，幾乎無需進行任何代碼修改。將訓(xùn)練與 Agent 的執(zhí)行邏輯對齊，提升了 Agent 在實際應(yīng)用中的性能。這使開發(fā)者能夠突破靜態(tài)預(yù)訓(xùn)練模型的局限，釋放自適應(yīng)學(xué)習(xí)型 Agent 的全部潛力。
在算法層面，Agent Lightning基于Agent的馬爾可夫決策過程（MDP）建模，并引入統(tǒng)一數(shù)據(jù)接口。該接口抽象化了不同 Agent 執(zhí)行邏輯的復(fù)雜性，使 Agent 執(zhí)行過程中收集的數(shù)據(jù)可直接轉(zhuǎn)換為訓(xùn)練軌跡。此外，Agent Lightning 采用分層強化學(xué)習(xí)框架，并配備信用分配模塊，將軌跡級回報分配給每次調(diào)用生成的響應(yīng)。該設(shè)計與現(xiàn)有單輪強化學(xué)習(xí)算法無縫集成，實現(xiàn)高效且有效的訓(xùn)練。
在系統(tǒng)層面，Agent Lightning引入了Training-Agent解耦架構(gòu)，實現(xiàn)強化學(xué)習(xí)訓(xùn)練與Agent執(zhí)行的清晰分離。該架構(gòu)通過 Lightning Server 和 Lightning Client 實現(xiàn)，兩者共同提供適用于任何 Agent 的標準化模型訓(xùn)練服務(wù)。Lightning Client 作為 Agent 運行時，透明地管理 Agent 執(zhí)行并收集軌跡，無需進行代碼修改。該設(shè)計使可觀察性基礎(chǔ)設(shè)施在訓(xùn)練場景中得以復(fù)用，確保了可擴展性（extensibility）、可伸縮性（scalability）和與各種 Agent 框架的無縫集成。

Agent Lightning：

訓(xùn)練任意AI Agent

在真實世界中，AI Agent的運行邏輯極為復(fù)雜，絕非簡單的一問一答模式。

它們常常需要多輪交互，像人類對話一樣循序漸進推進任務(wù)，通過調(diào)用外部工具或API，與外部系統(tǒng)交互獲取更多信息，依據(jù)環(huán)境反饋和當(dāng)前狀態(tài)靈活做出動態(tài)決策，甚至在復(fù)雜場景中，多個Agent需協(xié)同合作完成任務(wù)。

但現(xiàn)有強化學(xué)習(xí)訓(xùn)練框架，往往將強化學(xué)習(xí)訓(xùn)練過程與Agent的具體執(zhí)行邏輯緊密捆綁，導(dǎo)致一系列問題，嚴重阻礙了強化學(xué)習(xí)在AI Agent大規(guī)模訓(xùn)練和部署中的應(yīng)用。

例如：

耦合度高：若想利用強化學(xué)習(xí)訓(xùn)練一個已有的Agent，開發(fā)者往往不得不對 Agent 代碼進行大規(guī)模修改，甚至重構(gòu)，開發(fā)成本巨大；
擴展性差：針對特定任務(wù)設(shè)計的強化學(xué)習(xí)方法，很難直接遷移到其他類型的Agent；
數(shù)據(jù)利用率低：Agent在真實環(huán)境中產(chǎn)生的豐富交互數(shù)據(jù)，因與強化學(xué)習(xí)訓(xùn)練框架不兼容而難以被有效利用；
多輪交互生成的上下文序列過于冗長：增加了LLM計算和內(nèi)存開銷。

微軟此次提出的Agent Lightning框架的核心創(chuàng)新點，在于實現(xiàn)了AIAgent執(zhí)行與強化學(xué)習(xí)訓(xùn)練之間的徹底解耦。二者可獨立運作，又能進行信息交換。

Agent Lightning概述

除了上述提到的完全解耦和統(tǒng)一數(shù)據(jù)接口之外，Lightning RL也是該研究的主要亮點之一。

LightningRL是微軟為利用收集到的轉(zhuǎn)換數(shù)據(jù)優(yōu)化策略LLM，而提出的專為Agent訓(xùn)練設(shè)計的分層強化學(xué)習(xí)算法。

LightningRL示意圖

該算法包含信用分配模塊，能夠?qū)⑷魏蜛gent生成的軌跡分解為訓(xùn)練所需的轉(zhuǎn)換數(shù)據(jù)，從而使強化學(xué)習(xí)能夠處理復(fù)雜的交互邏輯，如多Agent場景和動態(tài)工作流。

在信用分配過程中，高層信用分配首先將整個任務(wù)的最終獎勵合理分配到任務(wù)執(zhí)行過程中的每一步驟，例如在最簡單實現(xiàn)中，可讓每一次調(diào)用的獎勵都等于最終獎勵。

經(jīng)過高層信用分配后，低層策略更新將每一次LLM調(diào)用（input、output、reward）轉(zhuǎn)化為一個獨立的單次調(diào)用強化學(xué)習(xí)問題。

此時可直接套用任何現(xiàn)成的、成熟的單次調(diào)用強化學(xué)習(xí)算法（如PPO、DPO或GRPO），來更新模型參數(shù)。

這種設(shè)計不僅具備靈活性和復(fù)用性，可直接利用社區(qū)中SOTA單次調(diào)用強化學(xué)習(xí)算法，還從根本上解決了因上下文累積導(dǎo)致的序列過長問題，避免了復(fù)雜易錯的掩碼操作。

Agent Lightning將計算密集型的LLM生成與傳統(tǒng)編程語言編寫、輕量級但多樣化且靈活的應(yīng)用邏輯和工具分離。

在系統(tǒng)設(shè)計方面，Agent Lightning引入了Training-Agent解耦架構(gòu)，構(gòu)建了一個適用于任意Agent的標準化訓(xùn)練服務(wù)。

該架構(gòu)由Agent Lightning Server和Agent Lightning Client組成。

Training-Agent解耦架構(gòu)

AgentLightning Server：作為強化學(xué)習(xí)訓(xùn)練系統(tǒng)的大腦，承擔(dān)著管理訓(xùn)練流程的重任，并通過類OpenAI API向客戶端暴露更新后的模型。它負責(zé)運行強化學(xué)習(xí)訓(xùn)練算法、分配GPU資源、管理模型版本等一系列復(fù)雜且計算密集型的任務(wù)。

AgentLightning Client：包含兩個功能模塊：一個模塊負責(zé)與服務(wù)器通信，實現(xiàn)數(shù)據(jù)傳輸與接收；另一個模塊運行Agent并執(zhí)行數(shù)據(jù)收集，充當(dāng)Agent的運行時環(huán)境。

得益于統(tǒng)一數(shù)據(jù)接口，Agent運行時能夠?qū)penTelemetry等全面的可觀測性框架集成到訓(xùn)練過程中，用于軌跡收集。

這一機制將監(jiān)控基礎(chǔ)設(shè)施與強化學(xué)習(xí)訓(xùn)練連接起來，使優(yōu)化算法能夠利用豐富的系統(tǒng)監(jiān)控數(shù)據(jù)，從而構(gòu)建更具可擴展性與靈活性的訓(xùn)練基礎(chǔ)。

這種前后端分離式的架構(gòu)設(shè)計，徹底將Agent開發(fā)者從復(fù)雜的強化學(xué)習(xí)系統(tǒng)配置中解放出來，讓他們得以專注于Agent本身的邏輯和創(chuàng)意，極大降低了AI Agent進化的門檻。

實驗結(jié)果

研究團隊在多個任務(wù)上對Agent Lightning框架進行了實驗驗證，涵蓋Text-to-SQL、開放域問答、數(shù)學(xué)問答等。

在這些實驗中，Agent Lightning均展示出穩(wěn)定且持續(xù)的性能提升。

實驗中任務(wù)和設(shè)置的總結(jié)

通過LangChain實現(xiàn)Text-to-SQL

第一個任務(wù)采用LangChain實現(xiàn)，設(shè)計為多Agent系統(tǒng)架構(gòu)。

系統(tǒng)包含三個Agent，工作流程如下：

SQL writing agent首先會生成SQL查詢語句并執(zhí)行。

若查詢正確，SQL executor會返回數(shù)據(jù)庫信息；若出錯，則返回錯誤提示。

隨后，checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性，并決定是重寫查詢還是直接生成答案。

若需重寫，re-writing agent將根據(jù)checking agent的反饋修改查詢語句；若無需重寫，該agent同時承擔(dān)問答任務(wù)，利用檢索到的信息和問題生成最終答案。

在此工作流程中，SQL寫入（writing）、校驗（checking）和重寫（re-writing）均由同一LLM完成，但針對不同任務(wù)定制了專屬提示，從而實現(xiàn)三個Agent協(xié)同運作。

在訓(xùn)練過程中，研究團隊只對其中兩個進行了優(yōu)化，即SQL writing agent和re-writing Agent，這兩個agent是同步進行優(yōu)化的，說明Agent Lightning 可以在多Agent系統(tǒng)中選擇性地對一個或多個Agent進行優(yōu)化。

如圖，Agent Lightning能夠穩(wěn)定地提高獎勵，展示了其優(yōu)化涉及代碼生成和工具使用的復(fù)雜多步?jīng)Q策的能力。

Text-to-SQL任務(wù)的獎勵曲線

通過OpenAI Agent SDK實現(xiàn)檢索增強生成

第二個任務(wù)是典型的檢索增強生成（RAG）任務(wù)。

給定一個問題和文檔數(shù)據(jù)庫，Agent首先會生成自然語言查詢，通過現(xiàn)有檢索工具獲取支持性文檔。

該Agent是使用OpenAI Agent SDK實現(xiàn)的。與之前的Text-to-SQL任務(wù)相比，這里的Agent工作流程類似但更簡單。

策略LLM需要先生成查詢請求，然后根據(jù)檢索到的文檔決定是優(yōu)化查詢還是直接生成答案。

該圖展示了Agent Lightning在這一具有挑戰(zhàn)性的任務(wù)上實現(xiàn)了穩(wěn)定的性能提升，證明了其在更復(fù)雜和開放式RAG場景中的有效性。

通過AutoGen實現(xiàn)數(shù)學(xué)問答與工具使用

第三個任務(wù)是數(shù)學(xué)類問答任務(wù)，旨在評估Agent調(diào)用工具（具體指計算器）解決算術(shù)和符號問題的能力。

最終的獎勵取決于Agent是否正確回答了問題，模型的性能也通過測試集上的答案準確度進行評估。

如圖，Agent Lightning在訓(xùn)練過程中持續(xù)提高了性能。這證明了它在工具增強設(shè)置中的有效性，即需要精確的外部函數(shù)調(diào)用和推理。

未來方向：推動Agent能力迭代升級

在論文的最后，研究團隊也探討了未來的工作方向。

首先，除了強化學(xué)習(xí)外，Agent Lightning建模框架還很好地支持其他優(yōu)化方法，如自動prompt優(yōu)化。

關(guān)注關(guān)鍵組件及其調(diào)用是Agent優(yōu)化的主要方法，而不僅僅局限于基于強化學(xué)習(xí)的方法。

為此，團隊提出了Component of Interest（CoI）的概念，用于指定執(zhí)行軌跡中受優(yōu)化影響的組件子集。

例如，prompt模板渲染可視為工具調(diào)用，通過將該工具視為CoI，Agent Lightning可支持prompt優(yōu)化方法。

這種統(tǒng)一且可擴展的數(shù)據(jù)結(jié)構(gòu)支持對Agent行為進行全面的下游優(yōu)化與分析。

其次，研究團隊認為，開發(fā)更高效的強化學(xué)習(xí)算法是解決復(fù)雜Agent場景下模型優(yōu)化的關(guān)鍵，包括但不限于長程信用分配、探索算法、off-policy算法等。

Agent Lightning通過過渡來建模和組織數(shù)據(jù)，使集成額外算法更加方便。

此外，支持LLM的強化學(xué)習(xí)基礎(chǔ)設(shè)施持續(xù)演進，為與基于Agent的強化學(xué)習(xí)框架的協(xié)同開發(fā)提供了重大機會。

一個有前景的方向是進一步分解系統(tǒng)組件，即將訓(xùn)練器、推斷引擎和Agent工作流程分離，以解決推斷瓶頸并提升大規(guī)模強化學(xué)習(xí)訓(xùn)練的可擴展性。

探索此類架構(gòu)改進可帶來更高效且靈活的強化學(xué)習(xí)管道。

此外，針對長程任務(wù)的優(yōu)化將受益于強化學(xué)習(xí)算法與系統(tǒng)設(shè)計協(xié)同創(chuàng)新，從而實現(xiàn)復(fù)雜Agent更高效的訓(xùn)練。

最后，在LLM高效服務(wù)方面，研究團隊建議采用更適合LLM的抽象方法，可以優(yōu)化資源利用率和響應(yīng)時間。

此外，通過優(yōu)化服務(wù)環(huán)境和工具的資源調(diào)度，還能進一步簡化操作流程，提高在多樣化部署場景中的擴展能力。

隨著Agent Lightning框架解決了強化學(xué)習(xí)與Agent耦合的難題，強化學(xué)習(xí)有望成為Agent訓(xùn)練的標配。

同時，Agent在真實世界中產(chǎn)生的海量交互數(shù)據(jù)，將不再被閑置浪費。

Agent Lightning的統(tǒng)一數(shù)據(jù)接口，能夠高效地將這些數(shù)據(jù)用于強化學(xué)習(xí)訓(xùn)練，推動Agent能力迭代升級。

參考資料：

https://www.microsoft.com/en-us/research/project/agent-lightning/

本文轉(zhuǎn)自學(xué)術(shù)頭條，若二次轉(zhuǎn)載請聯(lián)系原作者

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.