夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

任意Agent皆可強化學(xué)習(xí)!微軟推出Agent Lightning框架,無需修改任何代碼

0
分享至


新智元報道

作者:學(xué)術(shù)頭條

編輯:英智

【新智元導(dǎo)讀】AI Agent已逐漸從科幻走進現(xiàn)實!不僅能夠執(zhí)行編寫代碼、調(diào)用工具、進行多輪對話等復(fù)雜任務(wù),甚至還可以進行端到端的軟件開發(fā),已經(jīng)在金融、游戲、軟件開發(fā)等諸多領(lǐng)域落地應(yīng)用。

當(dāng)前的AI Agent在訓(xùn)練與優(yōu)化環(huán)節(jié)卻面臨著嚴峻挑戰(zhàn),傳統(tǒng)強化學(xué)習(xí)方法也在復(fù)雜、動態(tài)交互場景下表現(xiàn)不佳。

為此,微軟團隊推出了一個靈活、可擴展的框架Agent Lightning,其可對任何AI Agent進行基于強化學(xué)習(xí)的LLM訓(xùn)練,有望重塑AI Agent的未來訓(xùn)練范式。相關(guān)研究論文已發(fā)表在預(yù)印本網(wǎng)站arXiv上。


論文鏈接:https://arxiv.org/abs/2508.03680


核心貢獻如下:

  • Agent Lightning是首個實現(xiàn)Agent與強化學(xué)習(xí)訓(xùn)練完全解耦的框架,能夠無縫應(yīng)用于任何 AI Agent,無論其實現(xiàn)方式如何,幾乎無需進行任何代碼修改。將訓(xùn)練與 Agent 的執(zhí)行邏輯對齊,提升了 Agent 在實際應(yīng)用中的性能。這使開發(fā)者能夠突破靜態(tài)預(yù)訓(xùn)練模型的局限,釋放自適應(yīng)學(xué)習(xí)型 Agent 的全部潛力。

  • 在算法層面,Agent Lightning基于Agent的馬爾可夫決策過程(MDP)建模,并引入統(tǒng)一數(shù)據(jù)接口。該接口抽象化了不同 Agent 執(zhí)行邏輯的復(fù)雜性,使 Agent 執(zhí)行過程中收集的數(shù)據(jù)可直接轉(zhuǎn)換為訓(xùn)練軌跡。此外,Agent Lightning 采用分層強化學(xué)習(xí)框架,并配備信用分配模塊,將軌跡級回報分配給每次調(diào)用生成的響應(yīng)。該設(shè)計與現(xiàn)有單輪強化學(xué)習(xí)算法無縫集成,實現(xiàn)高效且有效的訓(xùn)練。

  • 在系統(tǒng)層面,Agent Lightning引入了Training-Agent解耦架構(gòu)實現(xiàn)強化學(xué)習(xí)訓(xùn)練與Agent執(zhí)行的清晰分離。該架構(gòu)通過 Lightning Server 和 Lightning Client 實現(xiàn),兩者共同提供適用于任何 Agent 的標準化模型訓(xùn)練服務(wù)。Lightning Client 作為 Agent 運行時,透明地管理 Agent 執(zhí)行并收集軌跡,無需進行代碼修改。該設(shè)計使可觀察性基礎(chǔ)設(shè)施在訓(xùn)練場景中得以復(fù)用,確保了可擴展性(extensibility)、可伸縮性(scalability)和與各種 Agent 框架的無縫集成。

Agent Lightning:

訓(xùn)練任意AI Agent

在真實世界中,AI Agent的運行邏輯極為復(fù)雜,絕非簡單的一問一答模式。

它們常常需要多輪交互,像人類對話一樣循序漸進推進任務(wù),通過調(diào)用外部工具或API,與外部系統(tǒng)交互獲取更多信息,依據(jù)環(huán)境反饋和當(dāng)前狀態(tài)靈活做出動態(tài)決策,甚至在復(fù)雜場景中,多個Agent需協(xié)同合作完成任務(wù)。

但現(xiàn)有強化學(xué)習(xí)訓(xùn)練框架,往往將強化學(xué)習(xí)訓(xùn)練過程與Agent的具體執(zhí)行邏輯緊密捆綁,導(dǎo)致一系列問題,嚴重阻礙了強化學(xué)習(xí)在AI Agent大規(guī)模訓(xùn)練和部署中的應(yīng)用。

例如:

  • 耦合度高若想利用強化學(xué)習(xí)訓(xùn)練一個已有的Agent,開發(fā)者往往不得不對 Agent 代碼進行大規(guī)模修改,甚至重構(gòu),開發(fā)成本巨大;

  • 擴展性差針對特定任務(wù)設(shè)計的強化學(xué)習(xí)方法,很難直接遷移到其他類型的Agent;

  • 數(shù)據(jù)利用率低Agent在真實環(huán)境中產(chǎn)生的豐富交互數(shù)據(jù),因與強化學(xué)習(xí)訓(xùn)練框架不兼容而難以被有效利用;

  • 多輪交互生成的上下文序列過于冗長增加了LLM計算和內(nèi)存開銷。

微軟此次提出的Agent Lightning框架的核心創(chuàng)新點,在于實現(xiàn)了AIAgent執(zhí)行與強化學(xué)習(xí)訓(xùn)練之間的徹底解耦。二者可獨立運作,又能進行信息交換。


Agent Lightning概述

除了上述提到的完全解耦和統(tǒng)一數(shù)據(jù)接口之外,Lightning RL也是該研究的主要亮點之一。

LightningRL是微軟為利用收集到的轉(zhuǎn)換數(shù)據(jù)優(yōu)化策略LLM,而提出的專為Agent訓(xùn)練設(shè)計的分層強化學(xué)習(xí)算法。


LightningRL示意圖

該算法包含信用分配模塊,能夠?qū)⑷魏蜛gent生成的軌跡分解為訓(xùn)練所需的轉(zhuǎn)換數(shù)據(jù),從而使強化學(xué)習(xí)能夠處理復(fù)雜的交互邏輯,如多Agent場景和動態(tài)工作流。

在信用分配過程中,高層信用分配首先將整個任務(wù)的最終獎勵合理分配到任務(wù)執(zhí)行過程中的每一步驟,例如在最簡單實現(xiàn)中,可讓每一次調(diào)用的獎勵都等于最終獎勵。

經(jīng)過高層信用分配后,低層策略更新將每一次LLM調(diào)用(input、output、reward)轉(zhuǎn)化為一個獨立的單次調(diào)用強化學(xué)習(xí)問題。

此時可直接套用任何現(xiàn)成的、成熟的單次調(diào)用強化學(xué)習(xí)算法(如PPO、DPO或GRPO),來更新模型參數(shù)。

這種設(shè)計不僅具備靈活性和復(fù)用性,可直接利用社區(qū)中SOTA單次調(diào)用強化學(xué)習(xí)算法,還從根本上解決了因上下文累積導(dǎo)致的序列過長問題,避免了復(fù)雜易錯的掩碼操作。

Agent Lightning將計算密集型的LLM生成與傳統(tǒng)編程語言編寫、輕量級但多樣化且靈活的應(yīng)用邏輯和工具分離。

在系統(tǒng)設(shè)計方面,Agent Lightning引入了Training-Agent解耦架構(gòu),構(gòu)建了一個適用于任意Agent的標準化訓(xùn)練服務(wù)。

該架構(gòu)由Agent Lightning Server和Agent Lightning Client組成。


Training-Agent解耦架構(gòu)

AgentLightning Server:作為強化學(xué)習(xí)訓(xùn)練系統(tǒng)的大腦,承擔(dān)著管理訓(xùn)練流程的重任,并通過類OpenAI API向客戶端暴露更新后的模型。它負責(zé)運行強化學(xué)習(xí)訓(xùn)練算法、分配GPU資源、管理模型版本等一系列復(fù)雜且計算密集型的任務(wù)。

AgentLightning Client:包含兩個功能模塊:一個模塊負責(zé)與服務(wù)器通信,實現(xiàn)數(shù)據(jù)傳輸與接收;另一個模塊運行Agent并執(zhí)行數(shù)據(jù)收集,充當(dāng)Agent的運行時環(huán)境。

得益于統(tǒng)一數(shù)據(jù)接口,Agent運行時能夠?qū)penTelemetry等全面的可觀測性框架集成到訓(xùn)練過程中,用于軌跡收集。

這一機制將監(jiān)控基礎(chǔ)設(shè)施與強化學(xué)習(xí)訓(xùn)練連接起來,使優(yōu)化算法能夠利用豐富的系統(tǒng)監(jiān)控數(shù)據(jù),從而構(gòu)建更具可擴展性與靈活性的訓(xùn)練基礎(chǔ)。

這種前后端分離式的架構(gòu)設(shè)計,徹底將Agent開發(fā)者從復(fù)雜的強化學(xué)習(xí)系統(tǒng)配置中解放出來,讓他們得以專注于Agent本身的邏輯和創(chuàng)意,極大降低了AI Agent進化的門檻。

實驗結(jié)果

研究團隊在多個任務(wù)上對Agent Lightning框架進行了實驗驗證,涵蓋Text-to-SQL、開放域問答、數(shù)學(xué)問答等。

在這些實驗中,Agent Lightning均展示出穩(wěn)定且持續(xù)的性能提升。


實驗中任務(wù)和設(shè)置的總結(jié)

通過LangChain實現(xiàn)Text-to-SQL

第一個任務(wù)采用LangChain實現(xiàn),設(shè)計為多Agent系統(tǒng)架構(gòu)

系統(tǒng)包含三個Agent,工作流程如下:

SQL writing agent首先會生成SQL查詢語句并執(zhí)行。

若查詢正確,SQL executor會返回數(shù)據(jù)庫信息;若出錯,則返回錯誤提示。

隨后,checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性,并決定是重寫查詢還是直接生成答案。

若需重寫,re-writing agent將根據(jù)checking agent的反饋修改查詢語句;若無需重寫,該agent同時承擔(dān)問答任務(wù),利用檢索到的信息和問題生成最終答案。

在此工作流程中,SQL寫入(writing)、校驗(checking)和重寫(re-writing)均由同一LLM完成,但針對不同任務(wù)定制了專屬提示,從而實現(xiàn)三個Agent協(xié)同運作。

在訓(xùn)練過程中,研究團隊只對其中兩個進行了優(yōu)化,即SQL writing agent和re-writing Agent,這兩個agent是同步進行優(yōu)化的,說明Agent Lightning 可以在多Agent系統(tǒng)中選擇性地對一個或多個Agent進行優(yōu)化。

如圖,Agent Lightning能夠穩(wěn)定地提高獎勵,展示了其優(yōu)化涉及代碼生成和工具使用的復(fù)雜多步?jīng)Q策的能力。


Text-to-SQL任務(wù)的獎勵曲線

通過OpenAI Agent SDK實現(xiàn)檢索增強生成

第二個任務(wù)是典型的檢索增強生成(RAG)任務(wù)

給定一個問題和文檔數(shù)據(jù)庫,Agent首先會生成自然語言查詢,通過現(xiàn)有檢索工具獲取支持性文檔。

該Agent是使用OpenAI Agent SDK實現(xiàn)的。與之前的Text-to-SQL任務(wù)相比,這里的Agent工作流程類似但更簡單。

策略LLM需要先生成查詢請求,然后根據(jù)檢索到的文檔決定是優(yōu)化查詢還是直接生成答案。

該圖展示了Agent Lightning在這一具有挑戰(zhàn)性的任務(wù)上實現(xiàn)了穩(wěn)定的性能提升,證明了其在更復(fù)雜和開放式RAG場景中的有效性。


通過AutoGen實現(xiàn)數(shù)學(xué)問答與工具使用

第三個任務(wù)是數(shù)學(xué)類問答任務(wù),旨在評估Agent調(diào)用工具(具體指計算器)解決算術(shù)和符號問題的能力。

最終的獎勵取決于Agent是否正確回答了問題,模型的性能也通過測試集上的答案準確度進行評估。

如圖,Agent Lightning在訓(xùn)練過程中持續(xù)提高了性能。這證明了它在工具增強設(shè)置中的有效性,即需要精確的外部函數(shù)調(diào)用和推理。


未來方向:推動Agent能力迭代升級

在論文的最后,研究團隊也探討了未來的工作方向。

首先,除了強化學(xué)習(xí)外,Agent Lightning建模框架還很好地支持其他優(yōu)化方法,如自動prompt優(yōu)化。

關(guān)注關(guān)鍵組件及其調(diào)用是Agent優(yōu)化的主要方法,而不僅僅局限于基于強化學(xué)習(xí)的方法。

為此,團隊提出了Component of Interest(CoI)的概念,用于指定執(zhí)行軌跡中受優(yōu)化影響的組件子集。

例如,prompt模板渲染可視為工具調(diào)用,通過將該工具視為CoI,Agent Lightning可支持prompt優(yōu)化方法。

這種統(tǒng)一且可擴展的數(shù)據(jù)結(jié)構(gòu)支持對Agent行為進行全面的下游優(yōu)化與分析。

其次,研究團隊認為,開發(fā)更高效的強化學(xué)習(xí)算法是解決復(fù)雜Agent場景下模型優(yōu)化的關(guān)鍵,包括但不限于長程信用分配、探索算法、off-policy算法等。

Agent Lightning通過過渡來建模和組織數(shù)據(jù),使集成額外算法更加方便。

此外,支持LLM的強化學(xué)習(xí)基礎(chǔ)設(shè)施持續(xù)演進,為與基于Agent的強化學(xué)習(xí)框架的協(xié)同開發(fā)提供了重大機會。

一個有前景的方向是進一步分解系統(tǒng)組件,即將訓(xùn)練器、推斷引擎和Agent工作流程分離,以解決推斷瓶頸并提升大規(guī)模強化學(xué)習(xí)訓(xùn)練的可擴展性。

探索此類架構(gòu)改進可帶來更高效且靈活的強化學(xué)習(xí)管道。

此外,針對長程任務(wù)的優(yōu)化將受益于強化學(xué)習(xí)算法與系統(tǒng)設(shè)計協(xié)同創(chuàng)新,從而實現(xiàn)復(fù)雜Agent更高效的訓(xùn)練。

最后,在LLM高效服務(wù)方面,研究團隊建議采用更適合LLM的抽象方法,可以優(yōu)化資源利用率和響應(yīng)時間。

此外,通過優(yōu)化服務(wù)環(huán)境和工具的資源調(diào)度,還能進一步簡化操作流程,提高在多樣化部署場景中的擴展能力。

隨著Agent Lightning框架解決了強化學(xué)習(xí)與Agent耦合的難題,強化學(xué)習(xí)有望成為Agent訓(xùn)練的標配。

同時,Agent在真實世界中產(chǎn)生的海量交互數(shù)據(jù),將不再被閑置浪費。

Agent Lightning的統(tǒng)一數(shù)據(jù)接口,能夠高效地將這些數(shù)據(jù)用于強化學(xué)習(xí)訓(xùn)練,推動Agent能力迭代升級。

參考資料:

https://www.microsoft.com/en-us/research/project/agent-lightning/

本文轉(zhuǎn)自學(xué)術(shù)頭條,若二次轉(zhuǎn)載請聯(lián)系原作者


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
本輪降雨預(yù)計今天后半夜逐漸結(jié)束,明天北京放晴回暖

本輪降雨預(yù)計今天后半夜逐漸結(jié)束,明天北京放晴回暖

新京報
2025-10-10 13:00:09
在與科莫解約后仍未找到新東家,阿里曬重返訓(xùn)練視頻

在與科莫解約后仍未找到新東家,阿里曬重返訓(xùn)練視頻

懂球帝
2025-10-10 06:33:10
科爾:庫明加已明確表示想要球權(quán)和機會 我們無法提供那種機會

科爾:庫明加已明確表示想要球權(quán)和機會 我們無法提供那種機會

北青網(wǎng)-北京青年報
2025-10-10 15:03:08
絕殺!1分險勝!楊瀚森首秀被肘翻在地

絕殺!1分險勝!楊瀚森首秀被肘翻在地

山河入畫屏
2025-10-10 08:37:36
3-0!4663萬人口國家狂歡:第5次殺進世界杯 這一刻等了整整12年

3-0!4663萬人口國家狂歡:第5次殺進世界杯 這一刻等了整整12年

侃球熊弟
2025-10-10 01:53:19
沒有這種食物,你的肌肉將消失!醫(yī)生:55歲后恢復(fù)肌力的10種食物

沒有這種食物,你的肌肉將消失!醫(yī)生:55歲后恢復(fù)肌力的10種食物

今日養(yǎng)生之道
2025-10-06 12:01:53
終身未嫁的70歲北京老太住院,有位軍人趕來相認:媽,我來了

終身未嫁的70歲北京老太住院,有位軍人趕來相認:媽,我來了

秋風(fēng)專欄
2025-07-22 16:54:55
農(nóng)村老話“棗木凳,椿木床,秋天的野兔,冬天的狼”,是什么意思?很多年輕人不懂

農(nóng)村老話“棗木凳,椿木床,秋天的野兔,冬天的狼”,是什么意思?很多年輕人不懂

農(nóng)夫也瘋狂
2025-10-10 11:13:35
寫歌30年窮困潦倒,前妻失望選擇離婚,誰料51歲靠一首歌一夜成名

寫歌30年窮困潦倒,前妻失望選擇離婚,誰料51歲靠一首歌一夜成名

瓜農(nóng)娟姐
2025-10-10 16:55:30
ChatGPT負責(zé)人:亞洲已有18個國家可用低價訂閱服務(wù)ChatGPT Go

ChatGPT負責(zé)人:亞洲已有18個國家可用低價訂閱服務(wù)ChatGPT Go

界面新聞
2025-10-09 16:57:49
美媒模擬火箭雄鹿三方交易:字母去尼克斯,火箭換26+7持球大核!

美媒模擬火箭雄鹿三方交易:字母去尼克斯,火箭換26+7持球大核!

你的籃球頻道
2025-10-10 12:08:22
笑噴!王楚欽中秋送祝福襯衫紐扣扣岔了,賽場上三冠王生活中小迷糊

笑噴!王楚欽中秋送祝福襯衫紐扣扣岔了,賽場上三冠王生活中小迷糊

818體育
2025-10-10 17:49:39
鏡報:格雷澤家族愿超50億出售曼聯(lián),沙特億萬富翁圖爾基有意

鏡報:格雷澤家族愿超50億出售曼聯(lián),沙特億萬富翁圖爾基有意

懂球帝
2025-10-09 20:50:09
陳寶倉犧牲后,友人冒死領(lǐng)出腐爛遺體,女兒好友潛水偷渡運回骨灰

陳寶倉犧牲后,友人冒死領(lǐng)出腐爛遺體,女兒好友潛水偷渡運回骨灰

觀今言史
2025-10-10 18:15:03
4-0大勝!5.4萬人口小島狂歡:世預(yù)賽4輪賺9分,首進世界杯真有戲

4-0大勝!5.4萬人口小島狂歡:世預(yù)賽4輪賺9分,首進世界杯真有戲

球場沒跑道
2025-10-10 11:47:31
搞權(quán)權(quán)、權(quán)色、錢色交易,湖南省政協(xié)原副秘書長龔文密被公訴

搞權(quán)權(quán)、權(quán)色、錢色交易,湖南省政協(xié)原副秘書長龔文密被公訴

上觀新聞
2025-10-10 16:41:02
侯佩岑的母親:連撬兩個閨蜜的老公,情夫死心塌地贈送上億遺產(chǎn)

侯佩岑的母親:連撬兩個閨蜜的老公,情夫死心塌地贈送上億遺產(chǎn)

上官晚安
2025-10-04 18:07:27
上海繳納多少年社保才能享受退休待遇?

上海繳納多少年社保才能享受退休待遇?

阿萊美食匯
2025-10-10 15:23:57
亞錦賽城市暴雨!王楚欽疑似生病,寶島隊公開批評:印度水質(zhì)堪憂

亞錦賽城市暴雨!王楚欽疑似生病,寶島隊公開批評:印度水質(zhì)堪憂

三十年萊斯特城球迷
2025-10-09 18:10:51
俄軍今年每天損失一個營?俄羅斯男女比例懸殊,歐洲最大火葬場

俄軍今年每天損失一個營?俄羅斯男女比例懸殊,歐洲最大火葬場

鷹眼Defence
2025-10-09 17:32:15
2025-10-10 19:15:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13589文章數(shù) 66209關(guān)注度
往期回顧 全部

科技要聞

馬斯克“躺著”也能拿走數(shù)百億美元

頭條要聞

內(nèi)塔尼亞胡:以色列已經(jīng)實現(xiàn)作戰(zhàn)目標

頭條要聞

內(nèi)塔尼亞胡:以色列已經(jīng)實現(xiàn)作戰(zhàn)目標

體育要聞

世青賽8強全部誕生:亞洲4隊集體回家

娛樂要聞

《宴遇永安》下飯

財經(jīng)要聞

宗馥莉"心腹"嚴學(xué)峰被解除立案審查

汽車要聞

小車·大情緒:雷諾Twingo E-Tech的法式新美學(xué)

態(tài)度原創(chuàng)

旅游
親子
游戲
家居
時尚

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

停工3年,12次試管失?。阂晃慌餍堑那笞又酚卸嗥D難?

WBG1-2不敵NS,掉入敗者組!女警蜘蛛效果不佳,NS輕松取勝

家居要聞

原木定制 致敬傳統(tǒng)工藝

這件外套好火,迫不及待想穿上了!

無障礙瀏覽 進入關(guān)懷版 中文字幕亚洲码在线| 超碰自拍刺激| 成人在线| 放荡少妇深喉吞浓精| 久久成人热播| 国产三级视频| 亚洲综合无码一区二区三区| 精品人妻无码视频一二三| a观看v视频网站入口免费| 人妻av网址| 国产手机精品一区二区| 好吊妞干网日本| 10000拍拍拍18勿入免费看| 久久久久久久久久久久中文字幕| 色婷婷久久综合中文久久一本| 国内熟妇人妻色在线三级| 中韩日亚一区二区| 好看的av网址导航| 五月婷婷丁香色| avtaobao男人天堂| 久久精品国产欧美日韩99热| 男同无码gv一区二区三免费| 亚洲国产成人精品无码区软件 | 精品国产精品三级精品av网址| 国产熟女高潮视频| 最新精品国产自偷在自线| 一女被黑人4P惨叫| 99久久久无码国产精品试看蜜龙 | 久久久久久精品无码| 国产精品麻豆成人AV电影艾秋| 亚洲熟妇AV乱码在线观看黑木| 精品无码人妻少妇久久久久久刘涛| 制服诱惑超碰| 潮喷失禁大喷水无码| 在线观看无码毛片a| 亚洲xxxx国产| 99精品国产一区二区三区a片| 亚洲成人在线一区| 日本不卡一区| 国产自慰导航亚洲天堂| 61精品人妻一区二区三区|