夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福7B智能體全面超越GPT-4o,推理流登頂HF

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】傳統(tǒng)智能體系統(tǒng)難以兼顧穩(wěn)定性和學(xué)習(xí)能力,斯坦福等學(xué)者提出AgentFlow框架,通過模塊化和實(shí)時強(qiáng)化學(xué)習(xí),在推理中持續(xù)優(yōu)化策略,并使小規(guī)模模型在多項任務(wù)中超越GPT-4o,為AI發(fā)展開辟新思路。

當(dāng)前AI Agent的發(fā)展正陷入兩難的境地:

一方面,訓(xùn)練「全能型」大模型讓其同時承擔(dān)推理、規(guī)劃與工具調(diào)用,雖具一體化優(yōu)勢,但在長鏈推理中往往訓(xùn)練不穩(wěn)定、擴(kuò)展性受限;

另一方面,基于prompt的智能體系統(tǒng)雖具靈活性,卻缺乏學(xué)習(xí)與自我優(yōu)化能力,無法從交互中持續(xù)進(jìn)化。

如何突破這一瓶頸?

斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)(Texas A&M)、加州大學(xué)圣地亞哥分校(UC San Diego)和Lambda的研究團(tuán)隊給出了新答案:讓智能體系統(tǒng)在推理「流」中進(jìn)行在線強(qiáng)化學(xué)習(xí),從而實(shí)現(xiàn)持續(xù)的自我提升與能力進(jìn)化。


論文地址:https://arxiv.org/abs/2510.05592

項目主頁:https://agentflow.stanford.edu/

開源代碼:https://github.com/lupantech/AgentFlow

在線展示:https://huggingface.co/spaces/AgentFlow/agentflow

視頻教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

他們提出AgentFlow框架采用模塊化架構(gòu),通過4個專門化智能體協(xié)同工作,配合專門設(shè)計的Flow-GRPO算法,使系統(tǒng)能夠在真實(shí)交互環(huán)境中持續(xù)優(yōu)化決策策略。


實(shí)驗(yàn)結(jié)果顯示,僅7B參數(shù)的AgentFlow在搜索、數(shù)學(xué)、科學(xué)等多個任務(wù)上全面超越GPT-4o(約200B參數(shù))和 Llama-3.1-405B。

團(tuán)隊負(fù)責(zé)人在推特上分享了工作,獲得了極大的關(guān)注。





該工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 項目。



長鏈推理中的信用分配難題

訓(xùn)練智能體系統(tǒng)面臨的核心挑戰(zhàn)是多輪信用分配(multi-turn credit assignment)問題:在長時跨度、獎勵稀疏的環(huán)境中,如何準(zhǔn)確判斷每一步?jīng)Q策對最終結(jié)果的貢獻(xiàn)?


傳統(tǒng)的單一模型方法將所有功能集成在一個LLM中,通過特殊標(biāo)簽(如 )一體化輸出思考、工具調(diào)用和回復(fù)。

這種方式在短鏈任務(wù)中有效,但在復(fù)雜場景下容易出現(xiàn):推理鏈過長導(dǎo)致訓(xùn)練不穩(wěn)定、工具選擇錯誤難以追溯、無法根據(jù)環(huán)境反饋動態(tài)調(diào)整策略。

而現(xiàn)有的智能體系統(tǒng)(如 LangGraph、OWL、Pydantic、AutoGen)雖然實(shí)現(xiàn)了模塊化,但大多依賴固定的 prompt 工程,缺乏從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)制。

AgentFlow多模塊實(shí)時交互

在「流」中學(xué)習(xí)

AgentFlow的設(shè)計思路是:將復(fù)雜的推理任務(wù)分解給專門化的智能體模塊,同時讓核心決策模塊能夠在交互中持續(xù)學(xué)習(xí)。


四模塊協(xié)同架構(gòu)

系統(tǒng)由四個具備記憶能力的專門化智能體組成:

  • 規(guī)劃器(Action Planner):分析任務(wù)需求,制定執(zhí)行策略,選擇最合適的工具。這是系統(tǒng)的核心決策模塊,也是唯一需要訓(xùn)練的部分。

  • 執(zhí)行器(Tool Executor):負(fù)責(zé)實(shí)際調(diào)用工具API,整合工具返回結(jié)果。

  • 驗(yàn)證器(Verifier):基于系統(tǒng)累積的歷史記憶,評估中間結(jié)果是否符合任務(wù)目標(biāo)和約束條件。

  • 生成器(Generator):整合所有信息和驗(yàn)證反饋,生成最終答案或下一步行動建議。

關(guān)鍵創(chuàng)新在于:規(guī)劃器不是靜態(tài)的,而是通過在線(on-policy)強(qiáng)化學(xué)習(xí)在推理流中實(shí)時優(yōu)化。

每輪交互后,系統(tǒng)會根據(jù)最終結(jié)果的成功或失敗,更新規(guī)劃器的決策策略,并將優(yōu)化結(jié)果整合到系統(tǒng)記憶中,形成閉環(huán)的自適應(yīng)學(xué)習(xí)過程。

Flow-GRPO算法

解決信用分配問題

團(tuán)隊提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,專門針對多輪推理場景設(shè)計。核心思想是將軌跡最終的獎勵信號(成功/失?。V播到每一步動作,把復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問題轉(zhuǎn)化為一系列單輪策略更新。



具體做法是:

1. 收集完整的推理軌跡(從初始任務(wù)到最終結(jié)果);

2. 根據(jù)最終結(jié)果計算 outcome reward;

3. 將這個 reward 分配給軌跡中每個規(guī)劃動作;

4. 使用相對優(yōu)勢函數(shù)計算每個動作的優(yōu)勢,進(jìn)行策略梯度更新。

這種方法有效緩解了獎勵稀疏問題,同時保持了訓(xùn)練的穩(wěn)定性。

在線學(xué)習(xí)使系統(tǒng)能夠:快速糾正錯誤的工具調(diào)用、探索更優(yōu)的子任務(wù)分解方式、根據(jù)環(huán)境反饋動態(tài)調(diào)整推理深度。

實(shí)驗(yàn)結(jié)果:小模型的逆襲

研究團(tuán)隊在10個跨領(lǐng)域基準(zhǔn)上進(jìn)行了系統(tǒng)評測,覆蓋知識檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。

性能對比

以Qwen-2.5-7B-Instruct為基座模型,AgentFlow 在所有類別中均顯著領(lǐng)先。

知識檢索:相比基線提升14.9%

智能體推理:提升14.0%

數(shù)學(xué)推理:提升14.5%

科學(xué)推理:提升4.1%

更令人驚訝的是跨規(guī)模對比結(jié)果:

  • 7B的AgentFlow在搜索任務(wù)上比GPT-4o(約200B)高8.2%

  • 在智能體任務(wù)上比Llama-3.1-405B高15.8%

  • 3B模型的AgentFlow也能在多項任務(wù)中超越405B的基線模型



消融實(shí)驗(yàn)的關(guān)鍵發(fā)現(xiàn)

1. 在線學(xué)習(xí) vs 離線學(xué)習(xí)

對比實(shí)驗(yàn)顯示,如果用傳統(tǒng)SFT方式訓(xùn)練規(guī)劃器,性能反而會平均下降19%。這證明在真實(shí)交互環(huán)境中的在線學(xué)習(xí)是實(shí)現(xiàn)高效推理的必要條件。


2. 自主探索新策略

根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合;同時,經(jīng)過訓(xùn)練的系統(tǒng)會自發(fā)探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search) 和特定網(wǎng)頁增強(qiáng)搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓(xùn)練的推理流中出現(xiàn)。


3. 動態(tài)推理深度

在多跳搜索等密集推理任務(wù)中,訓(xùn)練后的AgentFlow展現(xiàn)出「智能的懶惰」:對簡單任務(wù)保持較少的推理步數(shù),對復(fù)雜任務(wù)才會增加推理深度。

隨著最大步數(shù)限制的提升,性能穩(wěn)步上升但平均步數(shù)不會同比例增長。



4. 模塊協(xié)作的價值

雖然推理流本身就能帶來性能提升,但未經(jīng)訓(xùn)練的系統(tǒng)容易出現(xiàn)循環(huán)錯誤或卡頓。

通過強(qiáng)化學(xué)習(xí)訓(xùn)練后,系統(tǒng)在工具調(diào)用準(zhǔn)確性、子任務(wù)規(guī)劃精細(xì)度和全局性能上都有明顯改善。作者團(tuán)隊提供過了一個例子來生動展示了在實(shí)驗(yàn)中的有趣發(fā)現(xiàn)。


在這個例子中,在經(jīng)過Flow-GRPO訓(xùn)練前的推理系統(tǒng),一旦遇到了諸如這里的python變量定義錯誤,便會反復(fù)輸出相同的子目標(biāo)和工具調(diào)用,極大地浪費(fèi)時間和推理效率。

在經(jīng)過Flow-GRPO在線更新后,動作規(guī)劃器能夠根據(jù)之前的錯誤自動調(diào)整用更確切的子目標(biāo)和任務(wù)描述來指導(dǎo)后續(xù)步驟,并且經(jīng)過這樣的隨機(jī)應(yīng)變后,一步成功。

這個例子也極大程度展現(xiàn)了,在智能體系統(tǒng)真實(shí)推理中進(jìn)行強(qiáng)化學(xué)習(xí)的極大潛力。

技術(shù)意義與未來展望

AgentFlow的工作價值在于:

1. 提供了新的訓(xùn)練范式證明了智能體系統(tǒng)可以通過在線強(qiáng)化學(xué)習(xí)獲得類似大模型的學(xué)習(xí)能力,且在特定任務(wù)上效率更高。

2. 驗(yàn)證了「小而精」的可行性在合理的系統(tǒng)設(shè)計下,小模型通過模塊化協(xié)作和持續(xù)學(xué)習(xí),可以在復(fù)雜推理任務(wù)中超越大規(guī)模通用模型。

3. 為可擴(kuò)展AI提供思路模塊化架構(gòu)使得系統(tǒng)可以靈活添加新工具、調(diào)整模塊功能。

AgentFlow至少讓我們看到:Agentic AI的發(fā)展不必完全依賴模型規(guī)模的堆砌,系統(tǒng)架構(gòu)創(chuàng)新+高效訓(xùn)練方法可能是更值得探索的方向。

參考資料:

https://arxiv.org/abs/2510.05592

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
退休兩年后,重慶國企原高管龔曉莉被查!

退休兩年后,重慶國企原高管龔曉莉被查!

時代周報
2025-11-04 16:19:13
邊境談判穩(wěn)住中國后,趁巴基斯坦打阿富汗,印度或報0:7之仇

邊境談判穩(wěn)住中國后,趁巴基斯坦打阿富汗,印度或報0:7之仇

boss外傳
2025-11-03 16:10:03
藍(lán)盈瑩蔡文靜撞衫,蔡文靜當(dāng)場黑臉,網(wǎng)友:她倆穿的像司儀!

藍(lán)盈瑩蔡文靜撞衫,蔡文靜當(dāng)場黑臉,網(wǎng)友:她倆穿的像司儀!

娛圈小愚
2025-11-04 08:56:23
劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

瑤卿文史
2025-10-29 22:56:09
25歲小伙花170萬買邁巴赫跑婚車,貸款100萬,每月還車貸19000元!一個月穩(wěn)賺2萬

25歲小伙花170萬買邁巴赫跑婚車,貸款100萬,每月還車貸19000元!一個月穩(wěn)賺2萬

極目新聞
2025-11-04 10:38:03
梅西封王!他封網(wǎng)?C羅逆天言論遭群嘲!

梅西封王!他封網(wǎng)?C羅逆天言論遭群嘲!

耀陽體育
2025-11-04 15:12:03
從年薪30萬到月薪低保:北京央企設(shè)計院降薪潮下的生存困境

從年薪30萬到月薪低保:北京央企設(shè)計院降薪潮下的生存困境

悟話八門
2025-11-03 23:28:21
我退休金1萬1,每月都會給女兒打6000,飯桌上女婿突然開口

我退休金1萬1,每月都會給女兒打6000,飯桌上女婿突然開口

媛來這樣
2025-11-04 09:41:18
孫儷現(xiàn)身江蘇無錫一高檔小區(qū)!皮膚有點(diǎn)黑,臉也變圓了,反差太大

孫儷現(xiàn)身江蘇無錫一高檔小區(qū)!皮膚有點(diǎn)黑,臉也變圓了,反差太大

樂悠悠娛樂
2025-11-04 11:02:49
馬洛塔談出售阿什拉夫:決定很艱難,但為了俱樂部不得不這樣

馬洛塔談出售阿什拉夫:決定很艱難,但為了俱樂部不得不這樣

懂球帝
2025-11-04 13:15:07
掘金險勝!約基奇34+7+14,賽后戈登跑過去,一把抱住威少

掘金險勝!約基奇34+7+14,賽后戈登跑過去,一把抱住威少

擔(dān)酒
2025-11-04 12:29:41
趙鴻剛回應(yīng)出手綿軟:被打太陽穴眼睛看不清,害怕犯規(guī)不敢瞎發(fā)力

趙鴻剛回應(yīng)出手綿軟:被打太陽穴眼睛看不清,害怕犯規(guī)不敢瞎發(fā)力

楊華評論
2025-11-04 14:32:51
北京將迎明顯降水,局地雨夾雪或雪,具體時段——

北京將迎明顯降水,局地雨夾雪或雪,具體時段——

BRTV新聞
2025-11-04 15:23:26
李蘭娟院士提醒:胃部開始癌變的第一信號,吃東西可能就知道

李蘭娟院士提醒:胃部開始癌變的第一信號,吃東西可能就知道

阿纂看事
2025-10-23 09:38:57
周二收評:今天A股跌到3939,不出意外的話,周三可能這樣走

周二收評:今天A股跌到3939,不出意外的話,周三可能這樣走

一只番茄魚
2025-11-04 15:01:47
全市調(diào)整!即日起,廣州電費(fèi)有變!

全市調(diào)整!即日起,廣州電費(fèi)有變!

羊城攻略
2025-11-03 21:31:18
你見過天賦最高的人是啥樣?網(wǎng)友:第一位絕對是神人,這技能可以

你見過天賦最高的人是啥樣?網(wǎng)友:第一位絕對是神人,這技能可以

帶你感受人間冷暖
2025-11-03 00:20:03
爸爸去哪兒6孩子現(xiàn)狀:子承父業(yè)、進(jìn)國家隊、國外讀書,個個不同

爸爸去哪兒6孩子現(xiàn)狀:子承父業(yè)、進(jìn)國家隊、國外讀書,個個不同

書雁飛史oh
2025-11-04 17:26:59
陜西女護(hù)士遇害后續(xù):畢業(yè)十年沒談過對象,被男友下藥拍照威脅

陜西女護(hù)士遇害后續(xù):畢業(yè)十年沒談過對象,被男友下藥拍照威脅

熱風(fēng)追逐者
2025-11-03 09:46:18
女生穿成這樣去健身房,真的合適嗎??

女生穿成這樣去健身房,真的合適嗎??

健身廚屋
2025-10-20 12:22:34
2025-11-04 17:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13783文章數(shù) 66237關(guān)注度
往期回顧 全部

科技要聞

硅谷甄嬛傳:奧特曼優(yōu)雅挑釁馬斯克狠狠回?fù)?/h3>

頭條要聞

女兒"下腰癱"后家長起訴中國舞協(xié):教師資格證由其頒發(fā)

頭條要聞

女兒"下腰癱"后家長起訴中國舞協(xié):教師資格證由其頒發(fā)

體育要聞

27歲熱刺門將,奪冠后退役當(dāng)導(dǎo)演

娛樂要聞

爸爸去哪兒6孩子現(xiàn)狀,個個不同

財經(jīng)要聞

作價40億美元!星巴克中國易主

汽車要聞

把海岸詩意織進(jìn)日常 法拉利Amalfi重塑超跑生活方式

態(tài)度原創(chuàng)

游戲
親子
時尚
房產(chǎn)
數(shù)碼

走錯一步,直接宇宙爆炸?星鐵新版本的預(yù)告居然這么勁爆?

親子要聞

科學(xué)通報 | 點(diǎn)亮兒童“睛”彩未來:AI賦能近視風(fēng)險早期預(yù)警新突破

冬天穿灰色,這8種搭配方式很高級!

房產(chǎn)要聞

信達(dá)·繁花里 | 老照片征集活動 溫情啟幕

數(shù)碼要聞

不只顯卡:微星“小飛機(jī)”MSI Afterburner 將支持其它類型硬件

無障礙瀏覽 進(jìn)入關(guān)懷版 少妇精品毛片| 骚逼AV网站| 每日更新AV资源综合网站| 美女扒开大腿让男人桶| 午夜蜜桃模特| 中文人妻| 成人国产AV| 日本午夜国产精彩| 性猛交富婆ⅩXXx乱大交| 国产+成+人+亚洲欧洲自线| 21AV少妇导航| 全黄h全肉边做边吃奶| 国产精品久久无码一区二区三区网| 国产成人精品在线观看| 成人欧美一区| 黑人巨大精品欧美一区二区| 香蕉久久网站| 国产伦高清一区二区三区| 久久成人国产精品一区二区| 国产精品老熟女视频一区二区| 深灬深灬深灬深灬一点| 亚洲色国产欧美日韩| 处破痛哭a√18成年片免费| 中文字幕在线观看| 在线精品国产中文字幕| 亚洲人69XXX| 国产gv在线| 国产精品成人欧美一区桃花岛| 18禁1区2区| 无码电影中文字幕| 奇米影777888| 丁香五月亚洲综合在线国内自拍| 精品久久秘 秘 av| 亚洲伊人久久精品影院| 69精品一区二区三区无码吞精| 制服丝袜中文字幕在线| 1000部免费啪啪| av免费在线无码| 日韩人妻少妇一区二区三区| 久久婷婷色五月综合图区| 五月开心播播网|