新智元報道
作者:學(xué)術(shù)頭條
編輯:英智
【新智元導(dǎo)讀】AI Agent已逐漸從科幻走進現(xiàn)實!不僅能夠執(zhí)行編寫代碼、調(diào)用工具、進行多輪對話等復(fù)雜任務(wù),甚至還可以進行端到端的軟件開發(fā),已經(jīng)在金融、游戲、軟件開發(fā)等諸多領(lǐng)域落地應(yīng)用。
當(dāng)前的AI Agent在訓(xùn)練與優(yōu)化環(huán)節(jié)卻面臨著嚴峻挑戰(zhàn),傳統(tǒng)強化學(xué)習(xí)方法也在復(fù)雜、動態(tài)交互場景下表現(xiàn)不佳。
為此,微軟團隊推出了一個靈活、可擴展的框架Agent Lightning,其可對任何AI Agent進行基于強化學(xué)習(xí)的LLM訓(xùn)練,有望重塑AI Agent的未來訓(xùn)練范式。相關(guān)研究論文已發(fā)表在預(yù)印本網(wǎng)站arXiv上。
論文鏈接:https://arxiv.org/abs/2508.03680
核心貢獻如下:
Agent Lightning是首個實現(xiàn)Agent與強化學(xué)習(xí)訓(xùn)練完全解耦的框架,能夠無縫應(yīng)用于任何 AI Agent,無論其實現(xiàn)方式如何,幾乎無需進行任何代碼修改。將訓(xùn)練與 Agent 的執(zhí)行邏輯對齊,提升了 Agent 在實際應(yīng)用中的性能。這使開發(fā)者能夠突破靜態(tài)預(yù)訓(xùn)練模型的局限,釋放自適應(yīng)學(xué)習(xí)型 Agent 的全部潛力。
在算法層面,Agent Lightning基于Agent的馬爾可夫決策過程(MDP)建模,并引入統(tǒng)一數(shù)據(jù)接口。該接口抽象化了不同 Agent 執(zhí)行邏輯的復(fù)雜性,使 Agent 執(zhí)行過程中收集的數(shù)據(jù)可直接轉(zhuǎn)換為訓(xùn)練軌跡。此外,Agent Lightning 采用分層強化學(xué)習(xí)框架,并配備信用分配模塊,將軌跡級回報分配給每次調(diào)用生成的響應(yīng)。該設(shè)計與現(xiàn)有單輪強化學(xué)習(xí)算法無縫集成,實現(xiàn)高效且有效的訓(xùn)練。
在系統(tǒng)層面,Agent Lightning引入了Training-Agent解耦架構(gòu),實現(xiàn)強化學(xué)習(xí)訓(xùn)練與Agent執(zhí)行的清晰分離。該架構(gòu)通過 Lightning Server 和 Lightning Client 實現(xiàn),兩者共同提供適用于任何 Agent 的標準化模型訓(xùn)練服務(wù)。Lightning Client 作為 Agent 運行時,透明地管理 Agent 執(zhí)行并收集軌跡,無需進行代碼修改。該設(shè)計使可觀察性基礎(chǔ)設(shè)施在訓(xùn)練場景中得以復(fù)用,確保了可擴展性(extensibility)、可伸縮性(scalability)和與各種 Agent 框架的無縫集成。
Agent Lightning:
訓(xùn)練任意AI Agent
在真實世界中,AI Agent的運行邏輯極為復(fù)雜,絕非簡單的一問一答模式。
它們常常需要多輪交互,像人類對話一樣循序漸進推進任務(wù),通過調(diào)用外部工具或API,與外部系統(tǒng)交互獲取更多信息,依據(jù)環(huán)境反饋和當(dāng)前狀態(tài)靈活做出動態(tài)決策,甚至在復(fù)雜場景中,多個Agent需協(xié)同合作完成任務(wù)。
但現(xiàn)有強化學(xué)習(xí)訓(xùn)練框架,往往將強化學(xué)習(xí)訓(xùn)練過程與Agent的具體執(zhí)行邏輯緊密捆綁,導(dǎo)致一系列問題,嚴重阻礙了強化學(xué)習(xí)在AI Agent大規(guī)模訓(xùn)練和部署中的應(yīng)用。
例如:
耦合度高:若想利用強化學(xué)習(xí)訓(xùn)練一個已有的Agent,開發(fā)者往往不得不對 Agent 代碼進行大規(guī)模修改,甚至重構(gòu),開發(fā)成本巨大;
擴展性差:針對特定任務(wù)設(shè)計的強化學(xué)習(xí)方法,很難直接遷移到其他類型的Agent;
數(shù)據(jù)利用率低:Agent在真實環(huán)境中產(chǎn)生的豐富交互數(shù)據(jù),因與強化學(xué)習(xí)訓(xùn)練框架不兼容而難以被有效利用;
多輪交互生成的上下文序列過于冗長:增加了LLM計算和內(nèi)存開銷。
微軟此次提出的Agent Lightning框架的核心創(chuàng)新點,在于實現(xiàn)了AIAgent執(zhí)行與強化學(xué)習(xí)訓(xùn)練之間的徹底解耦。二者可獨立運作,又能進行信息交換。
Agent Lightning概述
除了上述提到的完全解耦和統(tǒng)一數(shù)據(jù)接口之外,Lightning RL也是該研究的主要亮點之一。
LightningRL是微軟為利用收集到的轉(zhuǎn)換數(shù)據(jù)優(yōu)化策略LLM,而提出的專為Agent訓(xùn)練設(shè)計的分層強化學(xué)習(xí)算法。
LightningRL示意圖
該算法包含信用分配模塊,能夠?qū)⑷魏蜛gent生成的軌跡分解為訓(xùn)練所需的轉(zhuǎn)換數(shù)據(jù),從而使強化學(xué)習(xí)能夠處理復(fù)雜的交互邏輯,如多Agent場景和動態(tài)工作流。
在信用分配過程中,高層信用分配首先將整個任務(wù)的最終獎勵合理分配到任務(wù)執(zhí)行過程中的每一步驟,例如在最簡單實現(xiàn)中,可讓每一次調(diào)用的獎勵都等于最終獎勵。
經(jīng)過高層信用分配后,低層策略更新將每一次LLM調(diào)用(input、output、reward)轉(zhuǎn)化為一個獨立的單次調(diào)用強化學(xué)習(xí)問題。
此時可直接套用任何現(xiàn)成的、成熟的單次調(diào)用強化學(xué)習(xí)算法(如PPO、DPO或GRPO),來更新模型參數(shù)。
這種設(shè)計不僅具備靈活性和復(fù)用性,可直接利用社區(qū)中SOTA單次調(diào)用強化學(xué)習(xí)算法,還從根本上解決了因上下文累積導(dǎo)致的序列過長問題,避免了復(fù)雜易錯的掩碼操作。
Agent Lightning將計算密集型的LLM生成與傳統(tǒng)編程語言編寫、輕量級但多樣化且靈活的應(yīng)用邏輯和工具分離。
在系統(tǒng)設(shè)計方面,Agent Lightning引入了Training-Agent解耦架構(gòu),構(gòu)建了一個適用于任意Agent的標準化訓(xùn)練服務(wù)。
該架構(gòu)由Agent Lightning Server和Agent Lightning Client組成。
Training-Agent解耦架構(gòu)
AgentLightning Server:作為強化學(xué)習(xí)訓(xùn)練系統(tǒng)的大腦,承擔(dān)著管理訓(xùn)練流程的重任,并通過類OpenAI API向客戶端暴露更新后的模型。它負責(zé)運行強化學(xué)習(xí)訓(xùn)練算法、分配GPU資源、管理模型版本等一系列復(fù)雜且計算密集型的任務(wù)。
AgentLightning Client:包含兩個功能模塊:一個模塊負責(zé)與服務(wù)器通信,實現(xiàn)數(shù)據(jù)傳輸與接收;另一個模塊運行Agent并執(zhí)行數(shù)據(jù)收集,充當(dāng)Agent的運行時環(huán)境。
得益于統(tǒng)一數(shù)據(jù)接口,Agent運行時能夠?qū)penTelemetry等全面的可觀測性框架集成到訓(xùn)練過程中,用于軌跡收集。
這一機制將監(jiān)控基礎(chǔ)設(shè)施與強化學(xué)習(xí)訓(xùn)練連接起來,使優(yōu)化算法能夠利用豐富的系統(tǒng)監(jiān)控數(shù)據(jù),從而構(gòu)建更具可擴展性與靈活性的訓(xùn)練基礎(chǔ)。
這種前后端分離式的架構(gòu)設(shè)計,徹底將Agent開發(fā)者從復(fù)雜的強化學(xué)習(xí)系統(tǒng)配置中解放出來,讓他們得以專注于Agent本身的邏輯和創(chuàng)意,極大降低了AI Agent進化的門檻。
實驗結(jié)果
研究團隊在多個任務(wù)上對Agent Lightning框架進行了實驗驗證,涵蓋Text-to-SQL、開放域問答、數(shù)學(xué)問答等。
在這些實驗中,Agent Lightning均展示出穩(wěn)定且持續(xù)的性能提升。
實驗中任務(wù)和設(shè)置的總結(jié)
通過LangChain實現(xiàn)Text-to-SQL
第一個任務(wù)采用LangChain實現(xiàn),設(shè)計為多Agent系統(tǒng)架構(gòu)。
系統(tǒng)包含三個Agent,工作流程如下:
SQL writing agent首先會生成SQL查詢語句并執(zhí)行。
若查詢正確,SQL executor會返回數(shù)據(jù)庫信息;若出錯,則返回錯誤提示。
隨后,checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性,并決定是重寫查詢還是直接生成答案。
若需重寫,re-writing agent將根據(jù)checking agent的反饋修改查詢語句;若無需重寫,該agent同時承擔(dān)問答任務(wù),利用檢索到的信息和問題生成最終答案。
在此工作流程中,SQL寫入(writing)、校驗(checking)和重寫(re-writing)均由同一LLM完成,但針對不同任務(wù)定制了專屬提示,從而實現(xiàn)三個Agent協(xié)同運作。
在訓(xùn)練過程中,研究團隊只對其中兩個進行了優(yōu)化,即SQL writing agent和re-writing Agent,這兩個agent是同步進行優(yōu)化的,說明Agent Lightning 可以在多Agent系統(tǒng)中選擇性地對一個或多個Agent進行優(yōu)化。
如圖,Agent Lightning能夠穩(wěn)定地提高獎勵,展示了其優(yōu)化涉及代碼生成和工具使用的復(fù)雜多步?jīng)Q策的能力。
Text-to-SQL任務(wù)的獎勵曲線
通過OpenAI Agent SDK實現(xiàn)檢索增強生成
第二個任務(wù)是典型的檢索增強生成(RAG)任務(wù)。
給定一個問題和文檔數(shù)據(jù)庫,Agent首先會生成自然語言查詢,通過現(xiàn)有檢索工具獲取支持性文檔。
該Agent是使用OpenAI Agent SDK實現(xiàn)的。與之前的Text-to-SQL任務(wù)相比,這里的Agent工作流程類似但更簡單。
策略LLM需要先生成查詢請求,然后根據(jù)檢索到的文檔決定是優(yōu)化查詢還是直接生成答案。
該圖展示了Agent Lightning在這一具有挑戰(zhàn)性的任務(wù)上實現(xiàn)了穩(wěn)定的性能提升,證明了其在更復(fù)雜和開放式RAG場景中的有效性。
通過AutoGen實現(xiàn)數(shù)學(xué)問答與工具使用
第三個任務(wù)是數(shù)學(xué)類問答任務(wù),旨在評估Agent調(diào)用工具(具體指計算器)解決算術(shù)和符號問題的能力。
最終的獎勵取決于Agent是否正確回答了問題,模型的性能也通過測試集上的答案準確度進行評估。
如圖,Agent Lightning在訓(xùn)練過程中持續(xù)提高了性能。這證明了它在工具增強設(shè)置中的有效性,即需要精確的外部函數(shù)調(diào)用和推理。
未來方向:推動Agent能力迭代升級
在論文的最后,研究團隊也探討了未來的工作方向。
首先,除了強化學(xué)習(xí)外,Agent Lightning建模框架還很好地支持其他優(yōu)化方法,如自動prompt優(yōu)化。
關(guān)注關(guān)鍵組件及其調(diào)用是Agent優(yōu)化的主要方法,而不僅僅局限于基于強化學(xué)習(xí)的方法。
為此,團隊提出了Component of Interest(CoI)的概念,用于指定執(zhí)行軌跡中受優(yōu)化影響的組件子集。
例如,prompt模板渲染可視為工具調(diào)用,通過將該工具視為CoI,Agent Lightning可支持prompt優(yōu)化方法。
這種統(tǒng)一且可擴展的數(shù)據(jù)結(jié)構(gòu)支持對Agent行為進行全面的下游優(yōu)化與分析。
其次,研究團隊認為,開發(fā)更高效的強化學(xué)習(xí)算法是解決復(fù)雜Agent場景下模型優(yōu)化的關(guān)鍵,包括但不限于長程信用分配、探索算法、off-policy算法等。
Agent Lightning通過過渡來建模和組織數(shù)據(jù),使集成額外算法更加方便。
此外,支持LLM的強化學(xué)習(xí)基礎(chǔ)設(shè)施持續(xù)演進,為與基于Agent的強化學(xué)習(xí)框架的協(xié)同開發(fā)提供了重大機會。
一個有前景的方向是進一步分解系統(tǒng)組件,即將訓(xùn)練器、推斷引擎和Agent工作流程分離,以解決推斷瓶頸并提升大規(guī)模強化學(xué)習(xí)訓(xùn)練的可擴展性。
探索此類架構(gòu)改進可帶來更高效且靈活的強化學(xué)習(xí)管道。
此外,針對長程任務(wù)的優(yōu)化將受益于強化學(xué)習(xí)算法與系統(tǒng)設(shè)計協(xié)同創(chuàng)新,從而實現(xiàn)復(fù)雜Agent更高效的訓(xùn)練。
最后,在LLM高效服務(wù)方面,研究團隊建議采用更適合LLM的抽象方法,可以優(yōu)化資源利用率和響應(yīng)時間。
此外,通過優(yōu)化服務(wù)環(huán)境和工具的資源調(diào)度,還能進一步簡化操作流程,提高在多樣化部署場景中的擴展能力。
隨著Agent Lightning框架解決了強化學(xué)習(xí)與Agent耦合的難題,強化學(xué)習(xí)有望成為Agent訓(xùn)練的標配。
同時,Agent在真實世界中產(chǎn)生的海量交互數(shù)據(jù),將不再被閑置浪費。
Agent Lightning的統(tǒng)一數(shù)據(jù)接口,能夠高效地將這些數(shù)據(jù)用于強化學(xué)習(xí)訓(xùn)練,推動Agent能力迭代升級。
參考資料:
https://www.microsoft.com/en-us/research/project/agent-lightning/
本文轉(zhuǎn)自學(xué)術(shù)頭條,若二次轉(zhuǎn)載請聯(lián)系原作者
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.