夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智能體系統(tǒng)如何「邊做邊學(xué)」?斯坦福團(tuán)隊(duì)探索在線優(yōu)化的新范式

0
分享至



如何讓智能體進(jìn)行復(fù)雜推理與工具調(diào)用?傳統(tǒng)方法主要有兩類:訓(xùn)練單一的大語言模型,使其同時(shí)承擔(dān)思考與工具調(diào)用的任務(wù);要么依賴靜態(tài)提示詞驅(qū)動(dòng)的 training-free 智能體系統(tǒng)。

然而,前者在長鏈推理、工具多樣化與動(dòng)態(tài)環(huán)境反饋下訓(xùn)練常變得不穩(wěn)定,缺乏可擴(kuò)展性(scalability);后者則缺少學(xué)習(xí)與適應(yīng)能力,難以應(yīng)對復(fù)雜場景。

為此,斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)(Texas A&M)、加州大學(xué)圣地亞哥分校(UC San Diego)和 Lambda 的研究團(tuán)隊(duì)提出了 AgentFlow 框架,通過多個(gè)獨(dú)立 Agent 模塊協(xié)作,并且提出 Flow-GRPO 算法用于訓(xùn)練。在評測中,AgentFlow 在搜索、代理、數(shù)學(xué)與科學(xué)任務(wù)上均取得顯著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。



該方法創(chuàng)新性地將智能體協(xié)作推理與強(qiáng)化學(xué)習(xí)融為一體,提出流中強(qiáng)化學(xué)習(xí)機(jī)制,讓智能體系統(tǒng)在推理流中協(xié)同演化,形成「動(dòng)態(tài)共振」效應(yīng)。使其在長期規(guī)劃能力、工具調(diào)用效率和動(dòng)態(tài)推理深度上實(shí)現(xiàn)大幅提升,并在搜索、數(shù)學(xué)、科學(xué)及智能體任務(wù)等多個(gè)領(lǐng)域展現(xiàn)優(yōu)秀的泛化能力。



  • 項(xiàng)目主頁:https://agentflow.stanford.edu/
  • 論文鏈接:https://huggingface.co/papers/2510.05592
  • 開源代碼:https://github.com/lupantech/AgentFlow
  • 開源模型:https://huggingface.co/AgentFlow
  • 在線 Demo:https://huggingface.co/spaces/AgentFlow/agentflow
  • YouTube 視頻:https://www.youtube.com/watch?v=kIQbCQIH1SI



該工作目前不僅在X 上收獲了超高的關(guān)注度,同時(shí)榮登Huggingface Paper 日榜第二名!



https://x.com/lupantech/status/1976016000345919803



https://huggingface.co/papers/date/2025-10-08

研究動(dòng)機(jī):

從「單兵作戰(zhàn)」到「團(tuán)隊(duì)協(xié)作」

目前,讓語言模型學(xué)會(huì)使用工具進(jìn)行復(fù)雜任務(wù)推理主要有兩種思路:一種是訓(xùn)練一個(gè)「全能型」模型,讓它既要思考又要調(diào)用工具,所有操作都在一個(gè)完整的上下文中交織進(jìn)行;另一種是采用「智能體系統(tǒng)」,將任務(wù)分解給多個(gè)專門化的智能體模塊協(xié)同完成。



第一種方法在簡單場景中表現(xiàn)良好,但在面對長鏈推理、多樣化工具調(diào)用以及動(dòng)態(tài)環(huán)境反饋時(shí),訓(xùn)練過程往往不穩(wěn)定,難以實(shí)現(xiàn)良好的可擴(kuò)展性。第二種方法雖然具備更高的靈活性,但多數(shù)系統(tǒng)依賴人工設(shè)計(jì)的提示詞與邏輯,缺乏從經(jīng)驗(yàn)中自我學(xué)習(xí)與優(yōu)化的能力。

這使得研究團(tuán)隊(duì)思考:能否讓智能體系統(tǒng)也具備「邊做邊學(xué)」的能力,使其能夠在交互中不斷進(jìn)化?

AgentFlow:

在流中學(xué)習(xí)的智能體系統(tǒng)

為了解決以上挑戰(zhàn),研究團(tuán)隊(duì)提出了AgentFlow—— 一個(gè)可訓(xùn)練的、工具集成的智能體系統(tǒng),旨在突破現(xiàn)有方法在可擴(kuò)展性與泛化能力上的限制。AgentFlow 采用了模塊化的智能體結(jié)構(gòu),由四個(gè)具備記憶能力的專門化智能體協(xié)同配合,共同完成復(fù)雜推理,從而實(shí)現(xiàn)「即時(shí)學(xué)習(xí)」:

  • 規(guī)劃器(Action Planner):分析任務(wù)、制定策略并選擇最合適的工具
  • 執(zhí)行器(Tool Executor):調(diào)用工具集并整合工具執(zhí)行結(jié)果
  • 驗(yàn)證器(Verifier):基于系統(tǒng)維護(hù)的累積記憶評估中間結(jié)果是否滿足目標(biāo)與約束
  • 生成器(Generator):整合所有信息與驗(yàn)證反饋,生成最終答案或行動(dòng)建議

AgentFlow 的關(guān)鍵創(chuàng)新在于:規(guī)劃器(Planner)并非固定不變,而是能夠在智能體交互的「流」(flow)中實(shí)時(shí)進(jìn)行 on-policy 優(yōu)化,使決策過程隨著環(huán)境變化及其他智能體的反饋不斷自適應(yīng)進(jìn)化。通過這一機(jī)制,各模塊在推理流中協(xié)同演化,使整個(gè)智能體系統(tǒng)在復(fù)雜環(huán)境下實(shí)現(xiàn)自適應(yīng)推理(adaptive reasoning)與魯棒工具調(diào)用(robust tool-calling)



Flow-GRPO:

流中強(qiáng)化學(xué)習(xí)優(yōu)化算法

實(shí)現(xiàn)智能體流中強(qiáng)化學(xué)習(xí)訓(xùn)練的核心挑戰(zhàn)在于多輪信用分配(multi-turn credit assignment):即如何在長時(shí)跨度(long-horizon)獎(jiǎng)勵(lì)稀疏(sparse reward)的條件下,穩(wěn)定且高效地訓(xùn)練。為此團(tuán)隊(duì)提出動(dòng)作級別的(Action Level)的多輪推理優(yōu)化目標(biāo):



通過將軌跡最終結(jié)果的成功或失敗信號(outcome reward)廣播至每一步,將原本復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問題轉(zhuǎn)化為一系列可處理的單輪策略更新。該方法不僅緩解了獎(jiǎng)勵(lì)稀疏問題,還顯著提升了訓(xùn)練效率,為智能體在復(fù)雜多輪推理中的穩(wěn)定學(xué)習(xí)提供了基礎(chǔ)。



實(shí)驗(yàn)結(jié)果:

AgentFlow 全面基準(zhǔn)測試

為了充分評估 AgentFlow 的泛化能力與高效性,研究團(tuán)隊(duì)在 10 個(gè)跨各個(gè)領(lǐng)域的基準(zhǔn)測試上進(jìn)行了系統(tǒng)評測,涵蓋知識檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。 以 Qwen-2.5-7B-Instruct 為基座模型的 AgentFlow 在各項(xiàng)基準(zhǔn)上均超越現(xiàn)有領(lǐng)先方法:

  • 知識檢索(Search):提升 +14.9%
  • 智能體推理(Agentic Reasoning):提升 +14.0%
  • 數(shù)學(xué)推理(Math):提升 +14.5%
  • 科學(xué)推理(Science):提升 +4.1%

值得注意的是,AgentFlow 的表現(xiàn)甚至超過了大規(guī)模的專有模型,如 GPT-4o(~200B)。





實(shí)驗(yàn)發(fā)現(xiàn):

小模型的「大智慧」

研究團(tuán)隊(duì)在 10 個(gè)基準(zhǔn)測試上進(jìn)行了評估,涵蓋知識檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。 一些有趣的發(fā)現(xiàn):

  • 模型規(guī)模不是唯一答案

使用 7B 參數(shù)的 AgentFlow 在多個(gè)任務(wù)上超過了約 200B 參數(shù)的 GPT-4o,Llama3.1-405B,在搜索任務(wù)上領(lǐng)先 8.2%,在智能體任務(wù)上領(lǐng)先 15.8%。這再一次展現(xiàn)了,合理的系統(tǒng)設(shè)計(jì)和訓(xùn)練方法可能比單純堆砌參數(shù)訓(xùn)練 All in one 的大模型更有效。

  • 「在流中學(xué)習(xí)」至關(guān)重要

對比實(shí)驗(yàn)顯示,若采用離線監(jiān)督學(xué)習(xí)(SFT)方式訓(xùn)練規(guī)劃器,性能反而顯著下降,平均降低 19%。這表明,智能體在真實(shí)交互環(huán)境「流」中進(jìn)行在線學(xué)習(xí)是實(shí)現(xiàn)高效推理的必要條件。此外,盡管 AgentFlow 的推理流本身能夠利用其強(qiáng)大的任務(wù)分解能力帶來顯著性能提升,但仍可能出現(xiàn)循環(huán)錯(cuò)誤或卡頓問題。通過在真實(shí)環(huán)境中的訓(xùn)練,智能體系統(tǒng)展現(xiàn)出快速修正錯(cuò)誤的工具調(diào)用、更精細(xì)的子任務(wù)規(guī)劃,以及全局任務(wù)解決性能的提升。

這些結(jié)果進(jìn)一步證明了模塊協(xié)作機(jī)制以及流中強(qiáng)化學(xué)習(xí)在提升多輪智能體系統(tǒng)穩(wěn)定性與效率方面的顯著作用。





  • 自主發(fā)現(xiàn)新的解決路徑

有意思的是,經(jīng)過 Flow-GRPO 的強(qiáng)化訓(xùn)練規(guī)劃器,系統(tǒng)學(xué)會(huì)了根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合;同時(shí),經(jīng)過訓(xùn)練的系統(tǒng)會(huì)自發(fā)探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search)和特定網(wǎng)頁增強(qiáng)搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓(xùn)練的推理流中出現(xiàn)。



  • 動(dòng)態(tài)推理深度與性能提升

對于相同的數(shù)據(jù)集下的不同難度任務(wù):譬如說多跳搜索(Multihop Search),智能體任務(wù)中的密集長鏈推理任務(wù),AgentFlow 在經(jīng)過 Flow-GRPO 訓(xùn)練后能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能,同時(shí)又不會(huì)大幅提升平均推理步數(shù)——這表示對于長難任務(wù)會(huì)增加有效的推理步數(shù)來提升正確率,而不會(huì)一味地所有任務(wù)都隨著最大輪數(shù)限制而延長推理步數(shù)。



結(jié)語

AgentFlow 為智能體訓(xùn)練提供了一種全新的思路:與其追求一個(gè)功能完備的單一大語言模型或「一次性完美」的智能體系統(tǒng),不如讓智能體在系統(tǒng)中自我適應(yīng)與持續(xù)學(xué)習(xí)。通過將群體智能與「邊做邊學(xué)」的范式相結(jié)合,AgentFlow 使智能體系統(tǒng)能夠在協(xié)同演化中不斷優(yōu)化,從而高效應(yīng)對復(fù)雜任務(wù)。

盡管從研究探索到實(shí)際應(yīng)用仍有較長的距離,但這樣的工作讓我們看到:Agentic AI 依然蘊(yùn)藏著巨大的潛力與想象空間。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
歐盟玩大了!扣俄3000億資產(chǎn)當(dāng)"人質(zhì)"放貸,俄直接凍結(jié)美企反擊

歐盟玩大了!扣俄3000億資產(chǎn)當(dāng)"人質(zhì)"放貸,俄直接凍結(jié)美企反擊

扶蘇聊歷史
2025-10-24 18:29:59
在釣魚島問題上,中國對待日本的態(tài)度出現(xiàn)了明顯的變化

在釣魚島問題上,中國對待日本的態(tài)度出現(xiàn)了明顯的變化

窺史
2025-10-23 21:01:43
不忍了!竇驍大學(xué)同學(xué)發(fā)聲,一句話直接撕碎豪門何超蓮的體面

不忍了!竇驍大學(xué)同學(xué)發(fā)聲,一句話直接撕碎豪門何超蓮的體面

陳意小可愛
2025-10-25 13:42:58
日本前首相安倍晉三遇刺案下周開庭審理

日本前首相安倍晉三遇刺案下周開庭審理

澎湃新聞
2025-10-25 11:37:03
A股漲到3950,釋放兩個(gè)信號,尾盤明牌了,下周一A股可能這樣走

A股漲到3950,釋放兩個(gè)信號,尾盤明牌了,下周一A股可能這樣走

杰絲聊古今
2025-10-25 14:13:26
48歲司機(jī)被刑拘!致1死多傷,為啥不叫車禍叫危害公共安全?

48歲司機(jī)被刑拘!致1死多傷,為啥不叫車禍叫危害公共安全?

一絲不茍的法律人
2025-10-25 14:02:20
一位河南農(nóng)民的玉米秋收戰(zhàn):花3200元自制烘干機(jī),還幫農(nóng)友烘了20萬斤

一位河南農(nóng)民的玉米秋收戰(zhàn):花3200元自制烘干機(jī),還幫農(nóng)友烘了20萬斤

極目新聞
2025-10-24 22:41:43
“救命!這哪是健身房,這分明是盤絲洞!”

“救命!這哪是健身房,這分明是盤絲洞!”

健身迷
2025-09-27 09:41:29
“多款知名進(jìn)口藥退出國內(nèi)市場”,這次,卻沒人叫好了?

“多款知名進(jìn)口藥退出國內(nèi)市場”,這次,卻沒人叫好了?

走讀新生
2025-10-21 17:08:08
郭亞雄主任:蘋果和它一起煮,是秋季最好的“散結(jié)藥”!

郭亞雄主任:蘋果和它一起煮,是秋季最好的“散結(jié)藥”!

蠟筆小小子
2025-10-21 15:25:25
中央重磅文件點(diǎn)題四大新興支柱產(chǎn)業(yè),這些城市已領(lǐng)跑

中央重磅文件點(diǎn)題四大新興支柱產(chǎn)業(yè),這些城市已領(lǐng)跑

第一財(cái)經(jīng)資訊
2025-10-24 21:04:10
重磅預(yù)告!遼寧衛(wèi)視湖南衛(wèi)視今晚同步播出

重磅預(yù)告!遼寧衛(wèi)視湖南衛(wèi)視今晚同步播出

陳意小可愛
2025-10-25 11:53:54
財(cái)運(yùn)黑馬!這4生肖靠實(shí)力破局,月底賺錢多多,終成贏家

財(cái)運(yùn)黑馬!這4生肖靠實(shí)力破局,月底賺錢多多,終成贏家

毅談生肖
2025-10-25 12:37:10
俄羅斯“強(qiáng)硬”回應(yīng)美歐制裁,凸顯其虛弱不堪

俄羅斯“強(qiáng)硬”回應(yīng)美歐制裁,凸顯其虛弱不堪

山河路口
2025-10-24 12:42:39
西安連日陰雨后,市民稱窗外“古墓變森林” 相關(guān)部門:該地塊考古工作已結(jié)束

西安連日陰雨后,市民稱窗外“古墓變森林” 相關(guān)部門:該地塊考古工作已結(jié)束

紅星新聞
2025-10-24 15:04:15
蘋果用戶把好好的手機(jī)退換十幾次,就為了個(gè)“三星屏”

蘋果用戶把好好的手機(jī)退換十幾次,就為了個(gè)“三星屏”

藍(lán)字計(jì)劃
2025-10-22 16:05:08
37分仍輸球,杜蘭特?cái)偸钟?xùn)話!開季苦吞2連敗火箭隊(duì)該認(rèn)清4個(gè)事實(shí)

37分仍輸球,杜蘭特?cái)偸钟?xùn)話!開季苦吞2連敗火箭隊(duì)該認(rèn)清4個(gè)事實(shí)

鍋?zhàn)踊@球
2025-10-25 13:57:54
知名主持人金昀去世,僅43歲!確診肺動(dòng)脈高壓,被下多次病危通知

知名主持人金昀去世,僅43歲!確診肺動(dòng)脈高壓,被下多次病危通知

查爾菲的筆記
2025-10-24 20:21:35
六款最適合40-50歲大叔的SUV,動(dòng)力強(qiáng),空間大,氣場十足!

六款最適合40-50歲大叔的SUV,動(dòng)力強(qiáng),空間大,氣場十足!

生活魔術(shù)專家
2025-10-25 09:45:42
盧浮宮大盜失誤了?不,他們故意扔掉了最值錢的歐仁妮王冠!

盧浮宮大盜失誤了?不,他們故意扔掉了最值錢的歐仁妮王冠!

珠寶匠
2025-10-22 08:27:58
2025-10-25 15:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11554文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

傳特斯拉人形機(jī)器人再延期,雙手只能用6周

頭條要聞

杭州男子花1600萬元買別墅 拒繳7萬元水費(fèi)被物業(yè)停水

頭條要聞

杭州男子花1600萬元買別墅 拒繳7萬元水費(fèi)被物業(yè)停水

體育要聞

從2400人小島打進(jìn)NBA 他才是"上喬下科"?

娛樂要聞

張柏芝自曝被大兒子管很兇

財(cái)經(jīng)要聞

宗馥莉已回娃哈哈上班 娃小宗暫時(shí)退場

汽車要聞

插混皮卡爭霸戰(zhàn),誰能笑到最后?

態(tài)度原創(chuàng)

旅游
時(shí)尚
健康
家居
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

沙特,一部活色生香的《一千零一夜》

骨頭"咔咔響"?肌骨超聲到底有何用

家居要聞

寵物友好 溫馨社交空間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 成人网站国产在线视频内射视频| 国产偷国产偷亚洲清高| 少妇白雪的新婚之夜| 韩国无码成人| 蜜臀av色欲a片无码精品一区| 国产精品久久久毛片A| 被按摩师玩弄到潮喷| 人人妻人人澡人人爽超污| 久久久亚洲精品无码| 欧美性爱在线观看视频网站| av永久免费网站在线观看| 国产AV 无码 高潮| 亚洲av无码国产一区二区三区| 精品午夜福利短视频一区| 狠狠摸狠狠澡| 少妇精品人妻一区二区三区| 无毛喷水久久久久| 国产精品女视频一区二区| 久久亚洲中文无码咪咪爱| 国产熟女大屁股喷水91精品| 国产精品麻豆中文字幕| 亚洲 AV 免费在线| 香蕉国产综合久久电影| 色欲综合一区二区在线视频| 国产成人午夜精华液| 一本加勒比HEZYO黑人| 日韩成人午夜影院| 国产一区二区精品高清在线观看| 亚洲av无码一区东京热久久| 国产品牌久久久久久久久久| 日韩成人在线午夜| 亚洲色大成网站www国产| 婷婷五月在线激情| 无码精品人妻一区二区三区漫刘涛| 亚洲中文字幕久久精品无码喷水| 国产极品粉嫩网红主播| 999精品视频久久| 精品国产久一区二区三区| 美女午夜精品偷| 亚洲国产精品无码专区在线观看| 久久99国产精品黄毛片禁果|