夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM強(qiáng)化學(xué)習(xí)新框架!UCSD多智能體訓(xùn)練框架讓LLM工具調(diào)用能力暴增

0
分享至

PettingLLMs團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

大語(yǔ)言模型智能體的強(qiáng)化學(xué)習(xí)框架, 首次實(shí)現(xiàn)了通用的多智能體的“群體強(qiáng)化”。

在大語(yǔ)言模型(LLM)智能體的各種任務(wù)中,已有大量研究表明在各領(lǐng)域下的多智能體工作流在未經(jīng)訓(xùn)練的情況下就能相對(duì)單智能體有顯著提升。

但是現(xiàn)有的LLM智能體訓(xùn)練框架都是針對(duì)單智能體的,多智能體的“群體強(qiáng)化”仍是一個(gè)亟須解決的問(wèn)題。

為了解決這一領(lǐng)域的研究痛點(diǎn),來(lái)自UCSD和英特爾的研究人員,提出了新的提出通用化多智能體強(qiáng)化學(xué)習(xí)框架——PettingLLMs。支持任意組合的多個(gè)LLM一起訓(xùn)練。



研究背景

大語(yǔ)言模型驅(qū)動(dòng)的多智能體系統(tǒng)在醫(yī)療、編程、科研、具身智能等多個(gè)領(lǐng)域均能大幅度提升任務(wù)表現(xiàn)。

為訓(xùn)練大模型智能體,Group Relative Policy Optimization (GRPO) 已被驗(yàn)證為通用的有效強(qiáng)化學(xué)習(xí)算法。然而,當(dāng)前所有針對(duì)LLM的強(qiáng)化學(xué)習(xí)訓(xùn)練框架,包括GRPO算法本身,都局限于單智能體訓(xùn)練的范疇。多智能體間的協(xié)作優(yōu)化,即“群體強(qiáng)化”的學(xué)習(xí)機(jī)制,仍然是一個(gè)亟待填補(bǔ)的空白。

GRPO算法的核心機(jī)制是,針對(duì)同一個(gè)輸入(prompt),通過(guò)多次采樣生成一組候選回答。隨后,算法在組內(nèi)對(duì)這些回答進(jìn)行評(píng)估(例如,通過(guò)一個(gè)獎(jiǎng)勵(lì)模型),并計(jì)算它們之間的相對(duì)優(yōu)勢(shì)。

這種優(yōu)勢(shì)計(jì)算的有效性與公平性依賴(lài)于一個(gè)關(guān)鍵假設(shè)——組內(nèi)所有用于比較的候選回答,都必須基于一個(gè)完全相同的上下文(即prompt)生成。

然而,將GRPO直接應(yīng)用于多智能體(multi-agent)多輪(multi-turn)環(huán)境中存在一個(gè)核心困難。

在多智能體場(chǎng)景下,即使是針對(duì)同一個(gè)初始問(wèn)題,不同智能體在不同輪次接收到的prompt差異顯著。

例如(如圖所示),一個(gè)負(fù)責(zé)編程的智能體,其在第二輪的prompt不僅包含原始問(wèn)題,還可能融合了第一輪中自己生成的代碼以及其他智能體生成的單元測(cè)試。



因此,如果在MA環(huán)境中仍然簡(jiǎn)單地將同一個(gè)初始問(wèn)題產(chǎn)生的所有(跨輪次、跨智能體的)回答視為一個(gè)“group”來(lái)進(jìn)行優(yōu)勢(shì)計(jì)算,這就直接違反了GRPO所要求的“共同prompt”的核心假設(shè)。

這導(dǎo)致組內(nèi)的優(yōu)勢(shì)計(jì)算基準(zhǔn)不統(tǒng)一,使得計(jì)算結(jié)果不再公平或有效。

所以核心問(wèn)題就是,如何既保證每個(gè)組內(nèi)有一定批次量的回答,又能保證優(yōu)勢(shì)計(jì)算的公平。

方法概述

作者提出了一種greedy-search的樹(shù)狀采樣方法。

每輪次每個(gè)agent形成一個(gè)節(jié)點(diǎn)進(jìn)行K個(gè)分支,在分支以后選擇此時(shí)reward最高的agent進(jìn)行下一次分支。這樣能夠讓多智能體訓(xùn)練能平衡好探索(exploration)與利用(exploitation)。

每一個(gè)agent的獎(jiǎng)勵(lì)函數(shù)都考慮自身角色的獎(jiǎng)勵(lì)和全局任務(wù)的獎(jiǎng)勵(lì)來(lái)保證角色專(zhuān)屬能力和合作能力的進(jìn)化。



對(duì)于多智能體的強(qiáng)化學(xué)習(xí)進(jìn)化的另一個(gè)面臨一個(gè)核心的策略問(wèn)題:在何種任務(wù)下,讓模型進(jìn)化成不同角色的“專(zhuān)屬模型”(specialized models)?又在何種任務(wù)下,讓所有智能體共享一個(gè)“通用模型”(shared model)會(huì)更優(yōu)?

為了實(shí)現(xiàn)兩種不同的訓(xùn)練模式,作者搭建了如圖所示的異步分發(fā)訓(xùn)練系統(tǒng)。



系統(tǒng)中的路由模塊負(fù)責(zé)收集多智能體系統(tǒng)在環(huán)境中交互產(chǎn)生的軌跡數(shù)據(jù)。

專(zhuān)屬模型模式下,系統(tǒng)可以配置多個(gè)獨(dú)立的模型資源池(如圖中的池i和池j)。路由模塊會(huì)將智能體i的數(shù)據(jù)批次僅發(fā)送給池i的更新單元,專(zhuān)門(mén)更新模型i;同時(shí)將智能體j的數(shù)據(jù)批次發(fā)送給池j的更新單元,獨(dú)立更新模型j。

而在共享模型模式中,相對(duì)地,路由模塊也可以將所有智能體的軌跡數(shù)據(jù)合并,并全部發(fā)送給同一個(gè)模型資源池的更新單元,以集中更新一個(gè)共享模型。

通用的多智能體強(qiáng)化學(xué)習(xí)框架:PettingLLMs

基于該項(xiàng)研究,作者開(kāi)源了通用的多智能體強(qiáng)化學(xué)習(xí)框架,使得多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練開(kāi)發(fā)變得敏捷、簡(jiǎn)潔、優(yōu)雅。

  • 在作者現(xiàn)有的系統(tǒng)上搭建環(huán)境開(kāi)發(fā)只需要任務(wù)特有的agent的交互和獎(jiǎng)勵(lì)函數(shù)。同時(shí),作者也給環(huán)境開(kāi)發(fā)設(shè)計(jì)建立了詳細(xì)的環(huán)境開(kāi)發(fā)教程。
  • 已有的環(huán)境也已經(jīng)包括了主流的agent任務(wù)比如數(shù)學(xué)、code、游戲等。
  • 該框架支持不同模型和agent之間的任意映射。也支持每個(gè)agent適配不同的lora的方式。

實(shí)驗(yàn)效果

在推箱子這種長(zhǎng)規(guī)劃任務(wù)中,通過(guò)AT-GRPO訓(xùn)練,兩個(gè)agent都得到了強(qiáng)化,任務(wù)性能從14%提升至96%。



作者在Qwen3-1.7B與Qwen3-8B兩個(gè)規(guī)模上開(kāi)展了大規(guī)模實(shí)驗(yàn),覆蓋規(guī)劃(Sokoban、Plan-Path)、代碼(LiveCodeBench、APPS、CodeContests)與數(shù)學(xué)(AIME24/25、OlympiadBench)三大類(lèi)任務(wù)。



實(shí)驗(yàn)結(jié)果表明:

  • 規(guī)劃類(lèi)任務(wù)中,Sokoban從14%提升至96%,Plan-Path從47%提升至99.5%;
  • 代碼生成任務(wù)中,LiveCodeBench提升+6.1%,APPS+4.2%,CodeContests+7.0%;
  • 數(shù)學(xué)推理中,AIME 24提升+9.0%,AIME 25提升+17.9%。



消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了關(guān)鍵設(shè)計(jì)——

只在單智能體(SA)里訓(xùn)練,收益有限:把規(guī)劃/工具等子角色各自放在 SA 環(huán)境里訓(xùn)練,單看各自指標(biāo)會(huì)從 5.0% 提到11.0%/14.5%,但放回MAS聯(lián)合作業(yè)僅到16.0%。

互換角色策略會(huì)“崩盤(pán)”:把已經(jīng)學(xué)成的兩個(gè)角色策略對(duì)調(diào),準(zhǔn)確率從96.0%→6.0%,說(shuō)明兩位“隊(duì)友”學(xué)到的是互補(bǔ)但不可替代的能力。

協(xié)同越來(lái)越順、回合越來(lái)越少:訓(xùn)練過(guò)程中兩位代理的學(xué)習(xí)回報(bào)同步上升,任務(wù)所需平均回合數(shù)持續(xù)下降——體現(xiàn)出更緊密的對(duì)齊與分工協(xié)作。



PettingLLMs通過(guò)支持通用的多智能體強(qiáng)化學(xué)習(xí)算法,讓多智能體一起學(xué)習(xí)一起進(jìn)化,實(shí)現(xiàn)了跨任務(wù)、跨規(guī)模的通用強(qiáng)化學(xué)習(xí)算法。

論文:https://huggingface.co/papers/2510.11062
GitHub:https://github.com/pettingllms-ai/PettingLLMs

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中日兩國(guó)必有一戰(zhàn),誰(shuí)也無(wú)法調(diào)和,誰(shuí)也無(wú)法阻擋中華民族統(tǒng)一大業(yè)

中日兩國(guó)必有一戰(zhàn),誰(shuí)也無(wú)法調(diào)和,誰(shuí)也無(wú)法阻擋中華民族統(tǒng)一大業(yè)

易玄
2025-11-13 06:25:22
三人男籃江蘇隊(duì)不滿(mǎn)判罰,四名隊(duì)員全部被吹罰奪權(quán)離場(chǎng)直接判負(fù)

三人男籃江蘇隊(duì)不滿(mǎn)判罰,四名隊(duì)員全部被吹罰奪權(quán)離場(chǎng)直接判負(fù)

懂球帝
2025-11-13 21:02:14
日本在準(zhǔn)備打仗:一旦動(dòng)武,日本數(shù)萬(wàn)部隊(duì)將沉入東海?這不是預(yù)言

日本在準(zhǔn)備打仗:一旦動(dòng)武,日本數(shù)萬(wàn)部隊(duì)將沉入東海?這不是預(yù)言

大國(guó)觀察眼
2025-11-14 12:05:08
CCTV直播!陳夢(mèng)大戰(zhàn)王曼昱,孫穎莎對(duì)決朱雨玲 女單世界冠軍爆冷出局!

CCTV直播!陳夢(mèng)大戰(zhàn)王曼昱,孫穎莎對(duì)決朱雨玲 女單世界冠軍爆冷出局!

好乒乓
2025-11-14 10:36:31
山東雙預(yù)警齊發(fā)!這場(chǎng)寒潮有多猛?局部雨雪+10級(jí)北風(fēng);濟(jì)南直降15℃,最低溫跌至-7℃;最冷一天時(shí)間確定

山東雙預(yù)警齊發(fā)!這場(chǎng)寒潮有多猛?局部雨雪+10級(jí)北風(fēng);濟(jì)南直降15℃,最低溫跌至-7℃;最冷一天時(shí)間確定

魯中晨報(bào)
2025-11-14 17:03:20
發(fā)文道歉,官宣分手,疑似鬧離婚…才一天,娛樂(lè)圈中曝出多個(gè)大瓜

發(fā)文道歉,官宣分手,疑似鬧離婚…才一天,娛樂(lè)圈中曝出多個(gè)大瓜

東方不敗然多多
2025-11-15 01:19:05
高市早苗拒不撤回!中方突然改口,剛發(fā)出最后通牒,日敢插手就打

高市早苗拒不撤回!中方突然改口,剛發(fā)出最后通牒,日敢插手就打

時(shí)時(shí)有聊
2025-11-14 09:31:40
CCTV5直播!王楚欽大戰(zhàn)樊振東,林詩(shī)棟VS袁勵(lì)岑 男單4人沖擊全運(yùn)會(huì)冠軍!

CCTV5直播!王楚欽大戰(zhàn)樊振東,林詩(shī)棟VS袁勵(lì)岑 男單4人沖擊全運(yùn)會(huì)冠軍!

好乒乓
2025-11-14 10:36:13
6國(guó)外援候命,高市通知全球,對(duì)華打響第二槍?zhuān)夥跑姳槐粕嫌膊?>
    </a>
        <h3>
      <a href=軍機(jī)Talk
2025-11-14 11:02:16
史上最長(zhǎng)停擺結(jié)束 民主黨是“可恥失敗”還是“雖敗猶榮”

史上最長(zhǎng)停擺結(jié)束 民主黨是“可恥失敗”還是“雖敗猶榮”

陶短房之短話(huà)短說(shuō)
2025-11-13 21:15:32
中國(guó)領(lǐng)事遭圍攻,日本記者:要100多年前,我們就直接打過(guò)去了!

中國(guó)領(lǐng)事遭圍攻,日本記者:要100多年前,我們就直接打過(guò)去了!

淺深說(shuō)
2025-11-13 10:34:33
神舟二十二號(hào)即將無(wú)人發(fā)射!發(fā)射時(shí)間已確定,備受矚目

神舟二十二號(hào)即將無(wú)人發(fā)射!發(fā)射時(shí)間已確定,備受矚目

林子說(shuō)事
2025-11-14 20:46:42
重磅!中國(guó)航天首次“換船返回”展現(xiàn)硬實(shí)力,神二十飛船情況披露

重磅!中國(guó)航天首次“換船返回”展現(xiàn)硬實(shí)力,神二十飛船情況披露

派大星紀(jì)錄片
2025-11-14 16:20:01
成功著陸!神舟二十號(hào)航天員返回:飛船在南大西洋異常區(qū)離軌

成功著陸!神舟二十號(hào)航天員返回:飛船在南大西洋異常區(qū)離軌

火星一號(hào)
2025-11-14 17:43:05
燕梳樓:如果日本驅(qū)逐薛劍,就是向中國(guó)宣戰(zhàn)!

燕梳樓:如果日本驅(qū)逐薛劍,就是向中國(guó)宣戰(zhàn)!

燕梳樓頻道
2025-11-13 12:44:36
日本民眾82%支持涉臺(tái)武力表態(tài) 中日軍力對(duì)決風(fēng)險(xiǎn)下的亞太局勢(shì)變局

日本民眾82%支持涉臺(tái)武力表態(tài) 中日軍力對(duì)決風(fēng)險(xiǎn)下的亞太局勢(shì)變局

行者聊官
2025-11-12 16:59:14
雖敗猶榮!河南女排0-3江蘇,朱婷雙拳難敵四手,吳夢(mèng)潔強(qiáng)攻發(fā)威

雖敗猶榮!河南女排0-3江蘇,朱婷雙拳難敵四手,吳夢(mèng)潔強(qiáng)攻發(fā)威

騎馬寺的少年
2025-11-14 20:49:43
全球首發(fā)!新機(jī)官宣:12月5日,正式發(fā)布上市!

全球首發(fā)!新機(jī)官宣:12月5日,正式發(fā)布上市!

科技堡壘
2025-11-14 09:48:38
武漢小象超市的“原切牛肉”是合成肉?廠(chǎng)家:是不同部位牛肉擠壓后切片丨封面深鏡

武漢小象超市的“原切牛肉”是合成肉?廠(chǎng)家:是不同部位牛肉擠壓后切片丨封面深鏡

封面新聞
2025-11-14 18:57:05
美學(xué)者一語(yǔ)中的:高市妄言,讓中國(guó)人一下子想到了90年前…

美學(xué)者一語(yǔ)中的:高市妄言,讓中國(guó)人一下子想到了90年前…

觀察者網(wǎng)
2025-11-14 20:18:02
2025-11-15 04:52:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11676文章數(shù) 176330關(guān)注度
往期回顧 全部

科技要聞

京東“失去的五年”后,找到新增長(zhǎng)了嗎?

頭條要聞

中方連發(fā)六張雙語(yǔ)海報(bào)@高市早苗 媒體:總該看懂了吧

頭條要聞

中方連發(fā)六張雙語(yǔ)海報(bào)@高市早苗 媒體:總該看懂了吧

體育要聞

7-0狂勝!15萬(wàn)人口小島離世界杯只差1分

娛樂(lè)要聞

王家衛(wèi)讓古二替秦雯寫(xiě)劇情主線(xiàn)?

財(cái)經(jīng)要聞

財(cái)政部:加強(qiáng)逆周期和跨周期調(diào)節(jié)

汽車(chē)要聞

小鵬X9超級(jí)增程動(dòng)態(tài)評(píng)測(cè)全網(wǎng)首發(fā) 高速實(shí)測(cè)車(chē)內(nèi)65分貝

態(tài)度原創(chuàng)

手機(jī)
本地
時(shí)尚
公開(kāi)課
軍事航空

手機(jī)要聞

華為Mate80 Pro Max突然曝光:定制20GB大內(nèi)存,雙長(zhǎng)焦也來(lái)了!

本地新聞

云游安徽 | 江聲浩蕩閱千年,文脈相承看蕪湖

“羽絨服+半身裙”,混搭風(fēng)太好看了!保暖又氣質(zhì)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

國(guó)防部:日方若膽敢鋌而走險(xiǎn)必將碰得頭破血流

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲精品麻豆| 久久精品女人天堂av麻| 中文字幕美人妻亅u乚一596| 成人电影免费网址| 国内精品小视频在线| 久久搜索美女黄色视频| 国产精品久免费的黄网站| 熟女5566一区| 无码人妻一区二区三区免费看| 91精品人妻人人做人碰人人爽| 高清无码精品一区二区三区| 波多野结衣人性奴隶| 国产精品林美惠子在线播放| 国产精品免费一区二区三区都可以| 中出人妻中文字幕无码| 欧美黑人巨大XXX极品| 国产肉丝袜在线观看| 少妇放荡的呻吟干柴烈火动漫| 日韩精品中文字幕有码| 亚洲 欧美 国产 日韩 精品| 综合大色堂一二三区| 国产精品玩偶在线观看| 伦理一区二区影院| 六月丁香婷婷色狠狠久久| 日本午夜福利欧美| 成全动漫在线观看免费高清| 免费视频A级毛片免费视频| 精品国产在天天在线观看| www 在线观看免费色视频| 高清日韩一区二区三区视频| 无码AV日韩| 亚洲无码不卡福利影院在线观看 | 未满成年国产在线观看| 国内精品久久久久电影院| 久久久久夜夜夜综合国产| 操四十岁老热女区| 色偷偷888欧美精品久久久| 国产黄色性爱视频| 亚洲欧美成人aⅴ在线| 少妇人妻无码精品视频| 国产精品超清白人精品av|