智能體系統(tǒng)如何「邊做邊學(xué)」？斯坦福團(tuán)隊(duì)探索在線優(yōu)化的新范式

2025-10-24 22:30:30　來源: 機(jī)器之心Pro

浙江舉報(bào)

分享至

如何讓智能體進(jìn)行復(fù)雜推理與工具調(diào)用？傳統(tǒng)方法主要有兩類：訓(xùn)練單一的大語言模型，使其同時(shí)承擔(dān)思考與工具調(diào)用的任務(wù)；要么依賴靜態(tài)提示詞驅(qū)動(dòng)的 training-free 智能體系統(tǒng)。

然而，前者在長鏈推理、工具多樣化與動(dòng)態(tài)環(huán)境反饋下訓(xùn)練常變得不穩(wěn)定，缺乏可擴(kuò)展性（scalability）；后者則缺少學(xué)習(xí)與適應(yīng)能力，難以應(yīng)對復(fù)雜場景。

為此，斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)（Texas A&M）、加州大學(xué)圣地亞哥分校（UC San Diego）和 Lambda 的研究團(tuán)隊(duì)提出了 AgentFlow 框架，通過多個(gè)獨(dú)立 Agent 模塊協(xié)作，并且提出 Flow-GRPO 算法用于訓(xùn)練。在評測中，AgentFlow 在搜索、代理、數(shù)學(xué)與科學(xué)任務(wù)上均取得顯著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

該方法創(chuàng)新性地將智能體協(xié)作推理與強(qiáng)化學(xué)習(xí)融為一體，提出流中強(qiáng)化學(xué)習(xí)機(jī)制，讓智能體系統(tǒng)在推理流中協(xié)同演化，形成「動(dòng)態(tài)共振」效應(yīng)。使其在長期規(guī)劃能力、工具調(diào)用效率和動(dòng)態(tài)推理深度上實(shí)現(xiàn)大幅提升，并在搜索、數(shù)學(xué)、科學(xué)及智能體任務(wù)等多個(gè)領(lǐng)域展現(xiàn)優(yōu)秀的泛化能力。

項(xiàng)目主頁：https://agentflow.stanford.edu/
論文鏈接：https://huggingface.co/papers/2510.05592
開源代碼：https://github.com/lupantech/AgentFlow
開源模型：https://huggingface.co/AgentFlow
在線 Demo：https://huggingface.co/spaces/AgentFlow/agentflow
YouTube 視頻：https://www.youtube.com/watch?v=kIQbCQIH1SI

該工作目前不僅在X 上收獲了超高的關(guān)注度，同時(shí)榮登Huggingface Paper 日榜第二名！

https://x.com/lupantech/status/1976016000345919803

https://huggingface.co/papers/date/2025-10-08

研究動(dòng)機(jī)：

從「單兵作戰(zhàn)」到「團(tuán)隊(duì)協(xié)作」

目前，讓語言模型學(xué)會(huì)使用工具進(jìn)行復(fù)雜任務(wù)推理主要有兩種思路：一種是訓(xùn)練一個(gè)「全能型」模型，讓它既要思考又要調(diào)用工具，所有操作都在一個(gè)完整的上下文中交織進(jìn)行；另一種是采用「智能體系統(tǒng)」，將任務(wù)分解給多個(gè)專門化的智能體模塊協(xié)同完成。

第一種方法在簡單場景中表現(xiàn)良好，但在面對長鏈推理、多樣化工具調(diào)用以及動(dòng)態(tài)環(huán)境反饋時(shí)，訓(xùn)練過程往往不穩(wěn)定，難以實(shí)現(xiàn)良好的可擴(kuò)展性。第二種方法雖然具備更高的靈活性，但多數(shù)系統(tǒng)依賴人工設(shè)計(jì)的提示詞與邏輯，缺乏從經(jīng)驗(yàn)中自我學(xué)習(xí)與優(yōu)化的能力。

這使得研究團(tuán)隊(duì)思考：能否讓智能體系統(tǒng)也具備「邊做邊學(xué)」的能力，使其能夠在交互中不斷進(jìn)化？

AgentFlow：

在流中學(xué)習(xí)的智能體系統(tǒng)

為了解決以上挑戰(zhàn)，研究團(tuán)隊(duì)提出了AgentFlow—— 一個(gè)可訓(xùn)練的、工具集成的智能體系統(tǒng)，旨在突破現(xiàn)有方法在可擴(kuò)展性與泛化能力上的限制。AgentFlow 采用了模塊化的智能體結(jié)構(gòu)，由四個(gè)具備記憶能力的專門化智能體協(xié)同配合，共同完成復(fù)雜推理，從而實(shí)現(xiàn)「即時(shí)學(xué)習(xí)」：

規(guī)劃器（Action Planner）：分析任務(wù)、制定策略并選擇最合適的工具
執(zhí)行器（Tool Executor）：調(diào)用工具集并整合工具執(zhí)行結(jié)果
驗(yàn)證器（Verifier）：基于系統(tǒng)維護(hù)的累積記憶評估中間結(jié)果是否滿足目標(biāo)與約束
生成器（Generator）：整合所有信息與驗(yàn)證反饋，生成最終答案或行動(dòng)建議

AgentFlow 的關(guān)鍵創(chuàng)新在于：規(guī)劃器（Planner）并非固定不變，而是能夠在智能體交互的「流」（flow）中實(shí)時(shí)進(jìn)行 on-policy 優(yōu)化，使決策過程隨著環(huán)境變化及其他智能體的反饋不斷自適應(yīng)進(jìn)化。通過這一機(jī)制，各模塊在推理流中協(xié)同演化，使整個(gè)智能體系統(tǒng)在復(fù)雜環(huán)境下實(shí)現(xiàn)自適應(yīng)推理（adaptive reasoning）與魯棒工具調(diào)用（robust tool-calling）

Flow-GRPO：

流中強(qiáng)化學(xué)習(xí)優(yōu)化算法

實(shí)現(xiàn)智能體流中強(qiáng)化學(xué)習(xí)訓(xùn)練的核心挑戰(zhàn)在于多輪信用分配（multi-turn credit assignment）：即如何在長時(shí)跨度（long-horizon）獎(jiǎng)勵(lì)稀疏（sparse reward）的條件下，穩(wěn)定且高效地訓(xùn)練。為此團(tuán)隊(duì)提出動(dòng)作級別的（Action Level）的多輪推理優(yōu)化目標(biāo)：

通過將軌跡最終結(jié)果的成功或失敗信號（outcome reward）廣播至每一步，將原本復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問題轉(zhuǎn)化為一系列可處理的單輪策略更新。該方法不僅緩解了獎(jiǎng)勵(lì)稀疏問題，還顯著提升了訓(xùn)練效率，為智能體在復(fù)雜多輪推理中的穩(wěn)定學(xué)習(xí)提供了基礎(chǔ)。

實(shí)驗(yàn)結(jié)果：

AgentFlow 全面基準(zhǔn)測試

為了充分評估 AgentFlow 的泛化能力與高效性，研究團(tuán)隊(duì)在 10 個(gè)跨各個(gè)領(lǐng)域的基準(zhǔn)測試上進(jìn)行了系統(tǒng)評測，涵蓋知識檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。以 Qwen-2.5-7B-Instruct 為基座模型的 AgentFlow 在各項(xiàng)基準(zhǔn)上均超越現(xiàn)有領(lǐng)先方法：

知識檢索（Search）：提升 +14.9%
智能體推理（Agentic Reasoning）：提升 +14.0%
數(shù)學(xué)推理（Math）：提升 +14.5%
科學(xué)推理（Science）：提升 +4.1%

值得注意的是，AgentFlow 的表現(xiàn)甚至超過了大規(guī)模的專有模型，如 GPT-4o（~200B）。

實(shí)驗(yàn)發(fā)現(xiàn)：

小模型的「大智慧」

研究團(tuán)隊(duì)在 10 個(gè)基準(zhǔn)測試上進(jìn)行了評估，涵蓋知識檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。一些有趣的發(fā)現(xiàn)：

模型規(guī)模不是唯一答案

使用 7B 參數(shù)的 AgentFlow 在多個(gè)任務(wù)上超過了約 200B 參數(shù)的 GPT-4o，Llama3.1-405B，在搜索任務(wù)上領(lǐng)先 8.2%，在智能體任務(wù)上領(lǐng)先 15.8%。這再一次展現(xiàn)了，合理的系統(tǒng)設(shè)計(jì)和訓(xùn)練方法可能比單純堆砌參數(shù)訓(xùn)練 All in one 的大模型更有效。

「在流中學(xué)習(xí)」至關(guān)重要

對比實(shí)驗(yàn)顯示，若采用離線監(jiān)督學(xué)習(xí)（SFT）方式訓(xùn)練規(guī)劃器，性能反而顯著下降，平均降低 19%。這表明，智能體在真實(shí)交互環(huán)境「流」中進(jìn)行在線學(xué)習(xí)是實(shí)現(xiàn)高效推理的必要條件。此外，盡管 AgentFlow 的推理流本身能夠利用其強(qiáng)大的任務(wù)分解能力帶來顯著性能提升，但仍可能出現(xiàn)循環(huán)錯(cuò)誤或卡頓問題。通過在真實(shí)環(huán)境中的訓(xùn)練，智能體系統(tǒng)展現(xiàn)出快速修正錯(cuò)誤的工具調(diào)用、更精細(xì)的子任務(wù)規(guī)劃，以及全局任務(wù)解決性能的提升。

這些結(jié)果進(jìn)一步證明了模塊協(xié)作機(jī)制以及流中強(qiáng)化學(xué)習(xí)在提升多輪智能體系統(tǒng)穩(wěn)定性與效率方面的顯著作用。

自主發(fā)現(xiàn)新的解決路徑

有意思的是，經(jīng)過 Flow-GRPO 的強(qiáng)化訓(xùn)練規(guī)劃器，系統(tǒng)學(xué)會(huì)了根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合；同時(shí)，經(jīng)過訓(xùn)練的系統(tǒng)會(huì)自發(fā)探索出新的工具使用模式，比如組合使用維基百科搜索（Wikipedia Search）和特定網(wǎng)頁增強(qiáng)搜索（Web Search）的連招，通過工具鏈獲得更加深入地信息挖掘，而這些模式幾乎沒有在未訓(xùn)練的推理流中出現(xiàn)。

動(dòng)態(tài)推理深度與性能提升

對于相同的數(shù)據(jù)集下的不同難度任務(wù)：譬如說多跳搜索（Multihop Search），智能體任務(wù)中的密集長鏈推理任務(wù)，AgentFlow 在經(jīng)過 Flow-GRPO 訓(xùn)練后能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能，同時(shí)又不會(huì)大幅提升平均推理步數(shù)——這表示對于長難任務(wù)會(huì)增加有效的推理步數(shù)來提升正確率，而不會(huì)一味地所有任務(wù)都隨著最大輪數(shù)限制而延長推理步數(shù)。

結(jié)語

AgentFlow 為智能體訓(xùn)練提供了一種全新的思路：與其追求一個(gè)功能完備的單一大語言模型或「一次性完美」的智能體系統(tǒng)，不如讓智能體在系統(tǒng)中自我適應(yīng)與持續(xù)學(xué)習(xí)。通過將群體智能與「邊做邊學(xué)」的范式相結(jié)合，AgentFlow 使智能體系統(tǒng)能夠在協(xié)同演化中不斷優(yōu)化，從而高效應(yīng)對復(fù)雜任務(wù)。

盡管從研究探索到實(shí)際應(yīng)用仍有較長的距離，但這樣的工作讓我們看到：Agentic AI 依然蘊(yùn)藏著巨大的潛力與想象空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.