夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從「會說」邁向「會做」,LLM下半場:Agentic強化學(xué)習(xí)范式綜述

0
分享至



本文第一作者為新加坡國立大學(xué)博士生 張桂彬、牛津大學(xué)研究員 耿鶴嘉、帝國理工學(xué)院博士生 于曉航;通訊作者為上海人工智能實驗室青年領(lǐng)軍科學(xué)家 白磊 和 牛津大學(xué)博士后 / 上海人工智能實驗室星啟研究員 尹榛菲

過去幾年,大語言模型(LLM)的訓(xùn)練大多依賴于基于人類或數(shù)據(jù)偏好的強化學(xué)習(xí)(Preference-based Reinforcement Fine-tuning, PBRFT):輸入提示、輸出文本、獲得一個偏好分?jǐn)?shù)。這一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明顯:缺乏長期規(guī)劃、環(huán)境交互與持續(xù)學(xué)習(xí)能力

為了突破這樣的瓶頸,自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式獲得空前熱度以后,一種新的訓(xùn)練范式 ——Agentic Reinforcement Learning(Agentic RL),愈發(fā)到社區(qū)關(guān)注。它試圖讓 LLM 從「被動對齊」進化為「主動決策」的智能體,在動態(tài)環(huán)境中規(guī)劃、行動、學(xué)習(xí)。



  • 論文標(biāo)題:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
  • arXiv 地址:https://arxiv.org/pdf/2509.02547
  • GitHub 地址:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

為了捋清這一新興領(lǐng)域,一篇長達(dá) 100 頁、由牛津大學(xué)、新加坡國立大學(xué)、伊利諾伊大學(xué)厄巴納-香檳分校,倫敦大學(xué)學(xué)院、帝國理工學(xué)院、上海人工智能實驗室等 16 家海內(nèi)外頂級研究機構(gòu)聯(lián)合完成的最新綜述論文,全面系統(tǒng)地梳理了作用于 LLM 的 Agentic RL 這一方向,覆蓋 500 + 相關(guān)研究,構(gòu)建了 Agentic RL 的理論框架、演化脈絡(luò)與資源版圖,并討論了可信性、擴展性和復(fù)雜環(huán)境等未來挑戰(zhàn)。



范式遷移:從 PBRFT 到 Agentic RL



從 LLM-RL 到 Agentic RL 范式遷移概覽

該綜述首先給出范式遷移的形式化定義:早期 RL 研究多基于 PBRFT 范式,可被視為退化的單步 MDP(單 prompt、一次性文本輸出、立即終止),而 Agentic RL 則將 LLM 置于部分可觀測馬爾可夫決策過程(POMDP)下進行多步交互:





一句話:PBRFT 讓模型更會一次地說,Agentic RL 讓模型更會長程地做



強化學(xué)習(xí)優(yōu)化算法層面,當(dāng)前實踐形成了一條從通用策略梯度到偏好優(yōu)化的譜系,Table 2 匯總比較了三類算法家族及其代表方法,便于讀者快速對照「訓(xùn)練用什么算法」與「對齊目標(biāo)/信號形態(tài)」 的對應(yīng)關(guān)系。



六大核心能力:智能體的「內(nèi)功」

要讓 LLM 真正成為智能體,僅有動作空間還不夠,它必須發(fā)展出一套完整的能力體系。該綜述將其總結(jié)為六大核心模塊,并對每個模塊提出了前瞻性討論:

1.規(guī)劃(Planning):為復(fù)雜任務(wù)設(shè)定子目標(biāo)與多步行動序列。通過外部引導(dǎo)(外部打分生成獎勵)或內(nèi)部驅(qū)動(自主規(guī)劃并修正)實現(xiàn)。

2.工具使用(Tool Use):調(diào)用外部工具完成任務(wù)。從 ReAct 等靜態(tài)提示模仿演進到 Tool-integrated RL (TIR),讓智能體學(xué)會自主選擇組合工具。



Agentic Tool Using 演化路徑

3.記憶(Memory):保持上下文連貫并積累知識,包括基于外部數(shù)據(jù)庫檢索記憶、Token 級別記憶和結(jié)構(gòu)化記憶。其中,值得關(guān)注的工作包括來自字節(jié)跳動的 MemAgent 和麻省理工大學(xué)的 MEM1,他們都通過強化學(xué)習(xí)讓 LLM Agent 擁有自行管理記憶窗口的能力。



4.自我改進(Self-Improvement)同樣是目前 Agent 最熱門的發(fā)展方向。該綜述高屋建瓴地將目前 Agent 自我提升的能力劃分為以下三類:

  1. 基于語言強化學(xué)習(xí),即類似于 Reflexion、Self-Critic 等風(fēng)格的自我糾正;
  2. 通過強化學(xué)習(xí)訓(xùn)練內(nèi)化自提升能力,譬如來自 MIT-IBM Watson AI Lab 的 Satori 便通過強化學(xué)習(xí)內(nèi)化 Agent 在測試階段自我糾正的能力;類似的工作還有來自上海 AI Lab 的 TTRL,Meta 的 SWEET-RL 等等;
  3. 通過迭代自訓(xùn)練,譬如來自清華的 Absolute Zero、來自斯坦福的 Sirius 等等。

5.推理(Reasoning):解決復(fù)雜問題的推導(dǎo)能力,分為快速直覺推理(憑經(jīng)驗直覺迅速答題)和慢速縝密推理(多步演繹得出嚴(yán)謹(jǐn)結(jié)論)。

6.感知(Perception):理解多模態(tài)輸入的信息獲取能力。模型從被動識別走向主動感知,可通過定位驅(qū)動(將推理錨定具體對象)、工具驅(qū)動(借助外部工具輔助)和生成驅(qū)動(生成圖像草圖輔助推理)等方式提升感知效果。



智能體與環(huán)境交互閉環(huán)示意

借助強化學(xué)習(xí),這些能力由人工啟發(fā)式轉(zhuǎn)變?yōu)榭蓪W(xué)習(xí)的策略,規(guī)劃不再依賴硬編碼流程、工具使用也可由模型自主決定、端到端訓(xùn)練。



Agentic RL 6 大核心能力板塊

任務(wù)落地與演化路徑



不同任務(wù)領(lǐng)域的 Agent RL 進化樹

Agentic RL 也在橫向拓展應(yīng)用邊界,涌現(xiàn)出多種智能體雛形:

  • 搜索與研究:優(yōu)化多輪檢索與證據(jù)整合策略,學(xué)會何時繼續(xù)搜索、何時下結(jié)論;



  • 代碼:將編譯錯誤與單元測試結(jié)果用作獎勵,推動智能體能力從一次性代碼生成進化到自動調(diào)試以及自動化軟件工程流程;



  • 數(shù)學(xué):在非形式化 (informal) 推理中,利用正確率或中間過程獎勵來塑造推理軌跡;在形式化 (formal) 推理中,交互式定理證明器 (ITPs) 提供可驗證的二值信號,使智能體能在嚴(yán)格規(guī)則下探索證明路徑;



  • 圖形界面 (GUI):在網(wǎng)頁和桌面環(huán)境中讓智能體學(xué)習(xí)點擊、輸入、導(dǎo)航等操作,從靜態(tài)腳本模仿走向交互式操作,提升對真實應(yīng)用的適配性;



  • 視覺與具身:融合視覺感知與決策規(guī)劃,實現(xiàn)「看-思-做」的連續(xù)決策閉環(huán),增強智能體在多模態(tài)問答、導(dǎo)航與機器人操作等任務(wù)中的表現(xiàn);
  • 多智能體系統(tǒng):通過獎勵設(shè)計促使多個模型在競爭或合作中逐漸涌現(xiàn)溝通與分工能力。



  • 其他探索:RL 也被應(yīng)用于數(shù)據(jù)分析、科學(xué)發(fā)現(xiàn)等場景,顯示出 Agentic RL 在更多任務(wù)中的潛在適應(yīng)性。

總體來看,Agentic RL 已在多個場景初步落地,并正從單一任務(wù)逐漸邁向更復(fù)雜、更貼近現(xiàn)實的任務(wù)生態(tài)。

環(huán)境與框架

Agentic RL 的發(fā)展離不開可復(fù)用的實驗環(huán)境與工具鏈?,F(xiàn)有工作已涵蓋網(wǎng)頁、GUI、代碼、游戲等多種開源平臺,并配套了相應(yīng)的評測基準(zhǔn)與框架,為研究者提供了開展實驗和對比的基礎(chǔ)設(shè)施。





此外,這份綜述還整合了 500+ 篇相關(guān)研究,并在 GitHub 上開源了 Awesome-AgenticLLM-RL-Papers,將論文、環(huán)境、基準(zhǔn)與框架一站式匯總,為后續(xù)研究提供了全景式的參考地圖。

挑戰(zhàn)與前瞻

盡管 Agentic RL 已展現(xiàn)出廣闊潛力,但要真正走向穩(wěn)健和實用,還存在若干核心挑戰(zhàn):

  • 可信性與安全性:相比傳統(tǒng) LLM,Agentic RL 智能體集成了規(guī)劃、工具調(diào)用和記憶等能力,攻擊面顯著擴大;同時,RL 的獎勵驅(qū)動機制也可能導(dǎo)致 reward hacking,使不安全行為被強化,帶來更持久的風(fēng)險。
  • Scale Up 智能體訓(xùn)練:大規(guī)模 Agentic RL 訓(xùn)練面臨算力、數(shù)據(jù)和算法效率的瓶頸。當(dāng)前 RL 方法成本高昂,難以在長時程決策或復(fù)雜環(huán)境中穩(wěn)定擴展,需要發(fā)展更高效的優(yōu)化范式。
  • Scale Up 智能體環(huán)境:現(xiàn)有的交互環(huán)境難以覆蓋真實世界的復(fù)雜性。未來應(yīng)探索環(huán)境與智能體的「協(xié)同進化」,例如通過自動化獎勵設(shè)計、課程生成和環(huán)境自適應(yīng)優(yōu)化,讓環(huán)境在訓(xùn)練中發(fā)揮「主動教學(xué)」的作用,而不僅僅作為靜態(tài)測試平臺。

這些挑戰(zhàn)構(gòu)成了 Agentic RL 進一步發(fā)展的關(guān)鍵門檻,也為未來研究提供了明確方向。

結(jié)語

這篇綜述系統(tǒng)化梳理了 Agentic RL 的理論框架、能力維度、任務(wù)應(yīng)用與資源生態(tài),確立了其作為 LLM 演進的重要訓(xùn)練范式。

綜述強調(diào):單步對齊已難以支撐復(fù)雜任務(wù),LLM 訓(xùn)練范式由此進入 Agentic RL 的下半場,而強化學(xué)習(xí)是將規(guī)劃、工具使用、記憶、推理等核心能力從啟發(fā)式功能轉(zhuǎn)化為穩(wěn)健智能行為的關(guān)鍵機制。

未來,隨著可信性、可擴展性和復(fù)雜環(huán)境等挑戰(zhàn)的逐步突破,LLM 將有望真正從 「會說」邁向「會做」,成長為更通用、更自主的智能體。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
91大神秦先生回顧:御用女主正臉照片泄露,多位女子形象崩塌

91大神秦先生回顧:御用女主正臉照片泄露,多位女子形象崩塌

就一點
2025-08-26 00:24:30
美國上半年貨物貿(mào)易出口7805億美元,與中國差距顯著

美國上半年貨物貿(mào)易出口7805億美元,與中國差距顯著

梁佇愛玩車
2025-09-09 04:50:42
許凱被曝聚眾賭博回應(yīng)來了!許荔莎刪除回應(yīng),圈內(nèi)人內(nèi)涵她不要臉

許凱被曝聚眾賭博回應(yīng)來了!許荔莎刪除回應(yīng),圈內(nèi)人內(nèi)涵她不要臉

鄉(xiāng)野小珥
2025-09-09 00:45:07
廬州月被分手了?許凱聚眾賭博?鐘楚曦甩掉侯雯元?毛曉彤被鎖房間?姨太問答

廬州月被分手了?許凱聚眾賭博?鐘楚曦甩掉侯雯元?毛曉彤被鎖房間?姨太問答

毒舌扒姨太
2025-09-08 23:07:42
解密九三閱兵,接待貴賓用的部分紅旗汽車是找群眾征用。

解密九三閱兵,接待貴賓用的部分紅旗汽車是找群眾征用。

荊楚寰宇文樞
2025-09-07 17:49:37
中國不買美國大豆,沉默11天后,特朗普報復(fù)來了,對華發(fā)起新制裁

中國不買美國大豆,沉默11天后,特朗普報復(fù)來了,對華發(fā)起新制裁

boss外傳
2025-09-08 09:25:05
“省下的油費,補不上保險的窟窿”!新能源車險調(diào)查→

“省下的油費,補不上保險的窟窿”!新能源車險調(diào)查→

第一財經(jīng)資訊
2025-09-08 11:34:04
我媽中元節(jié)燒了999萬紙錢給外婆,次日銀行打電話:您賬戶進賬999萬

我媽中元節(jié)燒了999萬紙錢給外婆,次日銀行打電話:您賬戶進賬999萬

如煙若夢
2025-09-08 19:30:10
3-0,22歲曼聯(lián)舊將霍伊倫利劍出鞘,丹麥完勝歐洲杯前冠軍+登頂

3-0,22歲曼聯(lián)舊將霍伊倫利劍出鞘,丹麥完勝歐洲杯前冠軍+登頂

側(cè)身凌空斬
2025-09-09 05:21:58
名字越霸氣,實力越拉胯?金庸把最霸氣的九個名字給了這9個草包

名字越霸氣,實力越拉胯?金庸把最霸氣的九個名字給了這9個草包

耳東文史
2025-09-05 00:01:23
薛凱琪擦邊媚粉,演唱會穿超短裙露三角褲,香港最后一個少女變了

薛凱琪擦邊媚粉,演唱會穿超短裙露三角褲,香港最后一個少女變了

非常先生看娛樂
2025-09-06 17:52:57
痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

英國報姐
2025-08-15 21:55:58
下車就是草叢,內(nèi)蒙古一列車??繜o站臺點位引熱議,回應(yīng):系乘降點,服務(wù)居民的慢火車

下車就是草叢,內(nèi)蒙古一列車??繜o站臺點位引熱議,回應(yīng):系乘降點,服務(wù)居民的慢火車

瀟湘晨報
2025-09-08 18:42:30
恭喜男足,趙本山兒子上任,亮相新崗位,范志毅祝福

恭喜男足,趙本山兒子上任,亮相新崗位,范志毅祝福

東球弟
2025-09-08 13:37:28
謝霆鋒也沒想到,張柏芝會因閱兵當(dāng)天的一特殊舉動,實現(xiàn)口碑暴增

謝霆鋒也沒想到,張柏芝會因閱兵當(dāng)天的一特殊舉動,實現(xiàn)口碑暴增

往史過眼云煙
2025-09-05 21:13:22
腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點

腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點

荷蘭豆愛健康
2025-08-30 08:55:46
加菲貓影后被逼拍三級片

加菲貓影后被逼拍三級片

毒舌扒姨太
2025-09-08 23:07:46
評估價近1400萬元,南通一“莊園”“腰斬”起拍

評估價近1400萬元,南通一“莊園”“腰斬”起拍

現(xiàn)代快報
2025-09-08 19:44:04
霍去病封狼居胥,為何讓后世那么崇拜?這個戰(zhàn)績放到現(xiàn)代有多牛?

霍去病封狼居胥,為何讓后世那么崇拜?這個戰(zhàn)績放到現(xiàn)代有多牛?

銘記歷史呀
2025-09-08 09:21:54
再見了,宏遠(yuǎn)立交橋…

再見了,宏遠(yuǎn)立交橋…

東莞好生活
2025-09-08 22:05:38
2025-09-09 07:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11257文章數(shù) 142444關(guān)注度
往期回顧 全部

科技要聞

王騰承認(rèn)離開小米:犯了錯,感謝雷總培養(yǎng)

頭條要聞

柯文哲出來第一秒就瞄準(zhǔn)賴清德:把臺灣搞得四分五裂

頭條要聞

柯文哲出來第一秒就瞄準(zhǔn)賴清德:把臺灣搞得四分五裂

體育要聞

二十年,屬于詹姆斯和中國球迷的雙向奔赴

娛樂要聞

2天5個瓜!個個離譜

財經(jīng)要聞

千億均和集團暴雷 建行等多家銀行追債

汽車要聞

對話曹東杰:用智能重構(gòu)越野 猛士M817的爆款邏輯

態(tài)度原創(chuàng)

藝術(shù)
家居
健康
教育
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

低調(diào)優(yōu)雅 極簡日式風(fēng)格

內(nèi)分泌科專家破解身高八大謠言

教育要聞

浙大博士求職211被拒,原因是第一學(xué)歷,那么多論文和課題看不見

軍事要聞

美國防部改名"戰(zhàn)爭部" 解放軍報發(fā)文

無障礙瀏覽 進入關(guān)懷版 一本大道香蕉中文日本不卡高清二区| 欧美人和黑人牲交网站上线| 婷婷丁香五月婷婷丁香| 亚洲少妇区图片小说| 国产精华7777777| 在线免费无码视频| 国产乱子伦精品免费女| japan黑人极大黑炮| 亚洲高清AV| 99久久久无码国产精品性日日| A级真人毛片免费观看| 国产对白老熟女正在播放| 亚洲一区二区三区四区五区六| 亚洲av无码久久| 日本熟妇在线| 激情视频综合网| 黑人大战亚洲人精品一区| 九九精品热| 丰满老熟好大bbb| 国产自拍偷拍视频在线观看| 超碰人人青草草69Av| 好男人资源社区在线播放| 日韩毛片久久久| 国产中文字幕精品免费| 一区二区三区精品不卡| 亚洲AV无码寂寞少妇久| 一卡二卡三卡四卡视频区| 在教室伦流澡到高潮hgl视频| 欧美日本国产色色| www.人人妻.com| 一本加勒比波多野结衣| 俄罗斯一区二区三区| 国产不卡一区二区精品| 嗯嗯爽死av| 国产精品网址视频| 67194熟妇在线观看线路| 四虎国产精品免费观看视频优播| 激情综合婷婷丁香五月情| 一进来就能看的毛片| 成人无码七区| 一中文字幕日产乱码VA|