夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Agent RL與智能體進(jìn)化關(guān)鍵一步:TaskCraft實(shí)現(xiàn)復(fù)雜任務(wù)自動(dòng)生成

0
分享至



近年來,基于智能體的強(qiáng)化學(xué)習(xí)(Agent + RL)與智能體優(yōu)化(Agent Optimization)在學(xué)術(shù)界引發(fā)了廣泛關(guān)注。然而,實(shí)現(xiàn)具備工具調(diào)用能力的端到端智能體訓(xùn)練,首要瓶頸在于高質(zhì)量任務(wù)數(shù)據(jù)的極度稀缺。當(dāng)前如GAIA 與 BrowserComp 等主流數(shù)據(jù)集在構(gòu)建過程中高度依賴人工標(biāo)注,因而在規(guī)模與任務(wù)復(fù)雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個(gè)搜索任務(wù),GAIA 則僅提供約 500 條多工具協(xié)同任務(wù)樣本。與基礎(chǔ)大模型訓(xùn)練中動(dòng)輒萬級(jí)以上的指令數(shù)據(jù)相比,差距十分顯著。

盡管在基礎(chǔ)模型階段,像self-instruct 這樣的自監(jiān)督方法已經(jīng)借助大語言模型(LLM)成功構(gòu)建了大規(guī)模的指令型數(shù)據(jù),有效提升了模型的通用性和泛化能力,但在智能體(Agent)場(chǎng)景下,這類靜態(tài)指令數(shù)據(jù)卻難以滿足實(shí)際需求。原因在于,復(fù)雜的智能體任務(wù)通常需要模型與環(huán)境進(jìn)行持續(xù)的動(dòng)態(tài)交互,同時(shí)涉及多工具的協(xié)同操作和多步驟推理。而傳統(tǒng)的指令數(shù)據(jù)缺乏這種交互性和操作性,導(dǎo)致其在智能體訓(xùn)練中遷移性差、適用性有限。

為應(yīng)對(duì)上述挑戰(zhàn),OPPO 研究院的研究者提出了 TaskCraft,一個(gè)面向智能體任務(wù)的自動(dòng)化生成框架,旨在高效構(gòu)建具備可擴(kuò)展難度、多工具協(xié)同與可驗(yàn)證執(zhí)行路徑的智能體任務(wù)實(shí)例。TaskCraft 通過統(tǒng)一的流程化建構(gòu)機(jī)制,擺脫了對(duì)人工標(biāo)注的依賴,能夠系統(tǒng)性地產(chǎn)生覆蓋多種工具(如URL、PDF、HTML、Image 等)的復(fù)雜任務(wù)場(chǎng)景,并支持任務(wù)目標(biāo)的自動(dòng)驗(yàn)證,確保數(shù)據(jù)質(zhì)量與執(zhí)行閉環(huán)。 基于該框架,研究團(tuán)隊(duì)構(gòu)建并開源了一個(gè)包含約 41,000 條智能體任務(wù)的合成數(shù)據(jù)集,顯著擴(kuò)展了現(xiàn)有Agent 數(shù)據(jù)資源的規(guī)模與多樣性,為后續(xù)通用智能體的訓(xùn)練與評(píng)估提供了有力支撐。



  • 論文標(biāo)題:
  • TaskCraft: Automated Generation of Agentic Tasks
  • 論文地址:
  • https://arxiv.org/abs/2506.10055
  • Github:
  • https://github.com/OPPO-PersonalAI/TaskCraft
  • 數(shù)據(jù)集:
  • https://huggingface.co/datasets/PersonalAILab/TaskCraft

數(shù)據(jù)生成

生成過程主要分為兩大部分:第一部分生成簡(jiǎn)單且可驗(yàn)證的原子任務(wù);第二部分通過深度拓展和寬度拓展,不斷構(gòu)建新的原子任務(wù),使復(fù)雜性逐步提升。

原子任務(wù)的生成



原子結(jié)構(gòu)生成示意圖

可以簡(jiǎn)單理解為,從原始數(shù)據(jù)中提取核心問題,然后確保問題必須通過特定工具來解決。整個(gè)流程包含以下四個(gè)關(guān)鍵步驟:

1.收集信息:系統(tǒng)從多種來源(網(wǎng)頁(yè)、PDF、圖片等)提取信息。例如,企業(yè)財(cái)報(bào)、一張統(tǒng)計(jì)圖或一篇新聞文章。

2.識(shí)別關(guān)鍵內(nèi)容:利用LLM從這些文檔中提取候選結(jié)論,比如:2025 年蘋果公司總收入為383.3 億美元

3.生成問題:LLM需要將這些候選結(jié)論轉(zhuǎn)換為工具回答的問題。例如:“在財(cái)務(wù)報(bào)告《Apple 2025 年度報(bào)告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

4.驗(yàn)證任務(wù):每個(gè)原子任務(wù)被保留必須滿足以下兩個(gè)條件:

  • 必須依賴工具才能解答(LLM無法直接推導(dǎo)答案)。
  • 必須經(jīng)過Agent驗(yàn)證,確保能夠順利執(zhí)行任務(wù)。

任務(wù)拓展

任務(wù)拓展旨在將一個(gè)簡(jiǎn)單任務(wù)逐步演化為更具層次和挑戰(zhàn)性的復(fù)雜任務(wù),使Agent 必須通過多個(gè)步驟才能完成任務(wù)。拓展方式主要包括深度拓展寬度拓展。



深度拓展示意圖

其中,深度拓展的目標(biāo)是為了構(gòu)建可被拆解為一系列相互依賴的任務(wù)。每一步都依賴前一步的結(jié)果,從而構(gòu)建出一條多步推理鏈。其主要包括以下四步:

1.確認(rèn)主任務(wù)與拓展標(biāo)識(shí)符:拓展標(biāo)識(shí)符一般是具有強(qiáng)特殊性的文本,往往作為獲取工具上下文的輸入關(guān)鍵字。例如對(duì)于任務(wù):“電影《星際穿越》的導(dǎo)演是誰?”(答案:克里斯托弗·諾蘭),其中的拓展標(biāo)識(shí)符是:《星際穿越》。

2.執(zhí)行Agent搜索,構(gòu)造新的輔助原子任務(wù):SearchAgent以拓展標(biāo)識(shí)符為線索執(zhí)行搜索,并從搜索結(jié)果中構(gòu)造一個(gè)新的原子任務(wù),其答案即為該拓展標(biāo)識(shí)符。例如:“哪部美國(guó)著名科幻電影是在2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

3.合并輔助原子任務(wù),更新主任務(wù):將輔助原子任務(wù)與原主任務(wù)進(jìn)行融合,構(gòu)建一個(gè)邏輯連貫的復(fù)合任務(wù)。例如:“2014 年 11 月 7 日上映的美國(guó)著名科幻電影,它的導(dǎo)演是誰?“(答案:克里斯托弗·諾蘭)

4.驗(yàn)證任務(wù)合理性:為了規(guī)避對(duì)合并問題的整體驗(yàn)證,研究者采用了多種規(guī)則對(duì)合并后的主任務(wù)進(jìn)行語義驗(yàn)證,包括:超集驗(yàn)證、關(guān)系驗(yàn)證、信息泄露驗(yàn)證、替換合理性驗(yàn)證等。

這些任務(wù)應(yīng)來自同一信息源(如同一篇網(wǎng)頁(yè)或PDF),且答案之間不存在因果依賴。使用LLM 將多個(gè)任務(wù)的語義合并成一個(gè)自然、流暢且具備完整性的新任務(wù)

而寬度拓展則是通過選擇兩個(gè)(或多個(gè))結(jié)構(gòu)兼容的原子任務(wù),



寬度拓展示意圖

通過PromptLearning 提升任務(wù)生成效率

在TaskCraft 的任務(wù)構(gòu)建流程中,Prompt 的設(shè)計(jì)起到了至關(guān)重要的作用。研究團(tuán)隊(duì)采用了自舉式 few-shot 提示優(yōu)化機(jī)制,基于生成的任務(wù)數(shù)據(jù)對(duì)提示進(jìn)行了迭代優(yōu)化,從而實(shí)現(xiàn)了提示模板的自我進(jìn)化。如表1,實(shí)驗(yàn)結(jié)果顯示,原子任務(wù)的生成通過率從初始的54.9% 提高至 68.1%,同時(shí)平均生成時(shí)間減少了近 20%。在深度拓展任務(wù)中,6 輪任務(wù)擴(kuò)展的成功率由 41% 提升至 51.2%,進(jìn)一步驗(yàn)證了生成數(shù)據(jù)在提升任務(wù)構(gòu)建質(zhì)量與效率方面的顯著效果。



表1PromptLearning實(shí)驗(yàn)結(jié)果

對(duì)智能體基礎(chǔ)模型進(jìn)行SFT訓(xùn)練

其次,研究團(tuán)隊(duì)進(jìn)一步評(píng)估了TaskCraft 所生成任務(wù)數(shù)據(jù)在提升大模型能力方面的實(shí)際效果。以 Qwen2.5-3B 系列為基礎(chǔ),研究者基于三個(gè)典型的多跳問答數(shù)據(jù)集(HotpotQA、Musique 和 Bamboogle)的訓(xùn)練集,生成了約32k條多跳任務(wù)以及軌跡,并利用這些生成數(shù)據(jù)對(duì)模型進(jìn)行監(jiān)督微調(diào)(SFT)。如表2,實(shí)驗(yàn)結(jié)果表明,經(jīng)過微調(diào)后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數(shù)據(jù)在增強(qiáng)大模型的推理能力與工具調(diào)用表現(xiàn)方面具有顯著成效。此外,當(dāng)這些微調(diào)模型與強(qiáng)化學(xué)習(xí)方法 Search-R1 相結(jié)合時(shí),模型性能進(jìn)一步提升,進(jìn)一步證明 TaskCraft 所生成的任務(wù)數(shù)據(jù)不僅能用于監(jiān)督學(xué)習(xí),也可作為強(qiáng)化學(xué)習(xí)的優(yōu)質(zhì)訓(xùn)練起點(diǎn)。



表2監(jiān)督微調(diào)效果

此外,你可能會(huì)好奇:引入搜索Agent 是否真的有必要?為此,研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)對(duì)比實(shí)驗(yàn),比較了兩種任務(wù)構(gòu)建方式的效果:一是直接使用 GPT-4.1 基于某個(gè)結(jié)論生成任務(wù),另一種則是借助基于 GPT-4.1 的 Search Agent 自動(dòng)生成任務(wù)。結(jié)果如表 3 所示,TaskCraft 構(gòu)建范式在多項(xiàng)指標(biāo)上表現(xiàn)更優(yōu)。



表3任務(wù)構(gòu)建范式的有效性分析

相比之下,TaskCraft 生成的任務(wù)具有顯著更高的通過率,驗(yàn)證時(shí)間更短,且工具使用次數(shù)更符合“原子任務(wù)”的定義(理論最優(yōu)為:一次輸入索引 + 一次目標(biāo)工具調(diào)用)。此外,任務(wù)的工具調(diào)用次數(shù)也更穩(wěn)定,方差更小,反映出 TaskCraft 在保持原子任務(wù)難度的一致性方面具備更強(qiáng)的優(yōu)勢(shì)。



原子數(shù)據(jù)域分布

基于TaskCraft,研究者構(gòu)建了一個(gè)包含約41,000 個(gè) agentic 任務(wù)的大規(guī)模數(shù)據(jù)集,為 AI 智能體的系統(tǒng)化調(diào)優(yōu)與評(píng)估提供了堅(jiān)實(shí)的基礎(chǔ)。該數(shù)據(jù)集覆蓋多個(gè)工具使用場(chǎng)景,包括網(wǎng)頁(yè)搜索、PDF 閱讀、圖像理解等,任務(wù)結(jié)構(gòu)層次豐富,難度可控,支持原子級(jí)任務(wù)和多跳復(fù)雜任務(wù)。由于所有任務(wù)都附帶了真實(shí)的執(zhí)行軌跡,不僅可以進(jìn)行監(jiān)督式微調(diào)(SFT),還能為強(qiáng)化學(xué)習(xí)(RL)提供高質(zhì)量的訓(xùn)練數(shù)據(jù)起點(diǎn)。這使得該數(shù)據(jù)集可廣泛應(yīng)用于智能體基礎(chǔ)模型的能力增強(qiáng)、Agent 推理策略的評(píng)估,以及多工具調(diào)用環(huán)境下的泛化能力測(cè)試。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
悲哀!網(wǎng)傳廣東一工廠稱所有客戶要降價(jià),將工人計(jì)件工價(jià)下調(diào)10%

悲哀!網(wǎng)傳廣東一工廠稱所有客戶要降價(jià),將工人計(jì)件工價(jià)下調(diào)10%

火山詩(shī)話
2025-08-10 20:53:52
吃鹿鞭喝茅臺(tái)!45歲漂亮女干部婚內(nèi)出軌,聊天記錄太辣眼

吃鹿鞭喝茅臺(tái)!45歲漂亮女干部婚內(nèi)出軌,聊天記錄太辣眼

第7情感
2025-08-10 19:55:39
劉越復(fù)盤上海德比:變則通,不變則痛

劉越復(fù)盤上海德比:變則通,不變則痛

雷速體育
2025-08-11 10:17:09
趕在中國(guó)93閱兵前,特朗普發(fā)出特殊邀請(qǐng),美媒直呼:總統(tǒng)陷入陷阱

趕在中國(guó)93閱兵前,特朗普發(fā)出特殊邀請(qǐng),美媒直呼:總統(tǒng)陷入陷阱

談天談地談天地
2025-08-10 16:54:28
女子逆行致堵車,發(fā)干字長(zhǎng)文叫屈,揚(yáng)言追責(zé)對(duì)方,仍沒意識(shí)到錯(cuò)誤

女子逆行致堵車,發(fā)干字長(zhǎng)文叫屈,揚(yáng)言追責(zé)對(duì)方,仍沒意識(shí)到錯(cuò)誤

寒士之言本尊
2025-08-11 18:08:19
兩度心臟驟停!蘇州東吳官方:胡靖目前已恢復(fù)意識(shí),生命體征平穩(wěn)

兩度心臟驟停!蘇州東吳官方:胡靖目前已恢復(fù)意識(shí),生命體征平穩(wěn)

直播吧
2025-08-10 23:40:11
一個(gè)人成熟的標(biāo)志:不讓任何人零成本地接近你

一個(gè)人成熟的標(biāo)志:不讓任何人零成本地接近你

洞見
2025-08-10 22:04:40
演員王寧潮汕吃一個(gè)鵝頭花了1100 老板:一天賣十幾個(gè) 賺個(gè)辛苦錢

演員王寧潮汕吃一個(gè)鵝頭花了1100 老板:一天賣十幾個(gè) 賺個(gè)辛苦錢

悠閑歷史
2025-08-04 17:37:07
51歲張晉自述與蔡少芬一家五口國(guó)外旅游險(xiǎn)些喪命,強(qiáng)撐求生念頭,“我沒了她怎么辦”,兩人結(jié)婚17年

51歲張晉自述與蔡少芬一家五口國(guó)外旅游險(xiǎn)些喪命,強(qiáng)撐求生念頭,“我沒了她怎么辦”,兩人結(jié)婚17年

魯中晨報(bào)
2025-08-10 15:32:03
中國(guó)偏偏不讓出港口,19國(guó)軍隊(duì)堵門,導(dǎo)彈都架好了,倒逼中方讓步

中國(guó)偏偏不讓出港口,19國(guó)軍隊(duì)堵門,導(dǎo)彈都架好了,倒逼中方讓步

一個(gè)有靈魂的作者
2025-07-26 08:38:25
4個(gè)老師弄丟1個(gè)自閉癥男孩!萬元夏令營(yíng)竟成生死劫?

4個(gè)老師弄丟1個(gè)自閉癥男孩!萬元夏令營(yíng)竟成生死劫?

林子說事
2025-08-11 08:57:45
國(guó)外懸崖上發(fā)現(xiàn)中國(guó)漢字,內(nèi)容被翻譯后專家熱淚盈眶:終于對(duì)上了

國(guó)外懸崖上發(fā)現(xiàn)中國(guó)漢字,內(nèi)容被翻譯后專家熱淚盈眶:終于對(duì)上了

削桐作琴
2025-08-07 19:47:49
她官宣啦!正式曬出離婚證,離異不假且單身無新歡可接觸!

她官宣啦!正式曬出離婚證,離異不假且單身無新歡可接觸!

策略剖析
2025-08-10 12:03:49
荊門市委副書記趙少蓮履新湖北省委統(tǒng)戰(zhàn)部副部長(zhǎng)、省民宗委黨組書記

荊門市委副書記趙少蓮履新湖北省委統(tǒng)戰(zhàn)部副部長(zhǎng)、省民宗委黨組書記

澎湃新聞
2025-08-10 15:32:28
臺(tái)風(fēng)最新消息!最大11級(jí)!深圳雷雨“大片”即將上演

臺(tái)風(fēng)最新消息!最大11級(jí)!深圳雷雨“大片”即將上演

深圳晚報(bào)
2025-08-10 18:56:48
人社部:這些證書已取消,別再考了!

人社部:這些證書已取消,別再考了!

魯中晨報(bào)
2025-08-11 06:52:06
奶茶如何成為中國(guó)西部動(dòng)亂之源?日本人笑而不語

奶茶如何成為中國(guó)西部動(dòng)亂之源?日本人笑而不語

北山浮生
2025-08-10 16:52:43
楊景媛完了!這一次她被武漢大學(xué)徹底放棄了!

楊景媛完了!這一次她被武漢大學(xué)徹底放棄了!

V記錄號(hào)
2025-08-09 21:08:24
金華最新職務(wù)任免通知

金華最新職務(wù)任免通知

浙中在線
2025-08-11 17:07:43
驚險(xiǎn)一戰(zhàn)!王楚欽僅用25分鐘獲勝,張本智和火速挑戰(zhàn)!

驚險(xiǎn)一戰(zhàn)!王楚欽僅用25分鐘獲勝,張本智和火速挑戰(zhàn)!

體育小喇叭
2025-08-11 14:37:19
2025-08-11 18:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11059文章數(shù) 142415關(guān)注度
往期回顧 全部

科技要聞

馬斯克xAI官宣:Grok 4向用戶免費(fèi)開放!

頭條要聞

5人消費(fèi)300元逃單服務(wù)員哭一下午 店家稱報(bào)警不予立案

頭條要聞

5人消費(fèi)300元逃單服務(wù)員哭一下午 店家稱報(bào)警不予立案

體育要聞

杜蘭特有望與火箭達(dá)成續(xù)約 比頂薪標(biāo)準(zhǔn)少拿2210萬

娛樂要聞

姚笛疑似坐文章副駕?再回看當(dāng)年

財(cái)經(jīng)要聞

“任性”的百果園,被現(xiàn)實(shí)教育

汽車要聞

綜合續(xù)航超1500km 智己LS9續(xù)航信息曝光

態(tài)度原創(chuàng)

本地
時(shí)尚
教育
健康
公開課

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

60歲的媽媽夏天如何打扮?穿衣要不老氣、不裝嫩,得體又優(yōu)雅

教育要聞

云南新華,教育是愛與責(zé)任的雙翼,托起每個(gè)夢(mèng)想的翅膀

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品热久久无码av| 久久精品国产一区二区三| 成人尤物精品视频在线播放| 人妻无码一区二区三区久久99| 一本色道久久88| 操逼网站欧美1| Www。色婷婷| 九九爱爱视频| 亚洲日韩欧美内射姐弟| 欧美另类精品一区二区三区 | 日本调教少妇高潮| 中文字幕无码白丝袜| 国产精品成人免费视频一区| 精品国产福利一区二区| 中文字幕成人精品久久不卡 | 国内精品伊人久久久久| 国产精品老熟女露脸视频| 裸体欧美BBBB极品BBBB| 五月丁香六月婷婷爱色军团| 成年人视频在线观看一区| 青青操国产| 欧美在线视频一区二区。| 日韩av激情在线观看| 免费无码肉片在线观看| 亚洲天堂网2016| 亚洲无码在线观看网站| 精品无码久久久久久久动漫| 欧美黑人粗大精品一二区 | 少妇高潮大叫好爽| 国产精品高潮呻吟久久久久久 | 午夜免费无码福利视频麻豆| 狠狠综合久久二区三区| 不卡高清av手机在线观看| 无码无套少妇18p在线直播| 黄频在线播放| 欧美精品久久天天躁| 秋霞鲁丝片一区二区三区| 久久婷婷色五月综合图区| 国产成人啪精品午夜网站| 玩弄放荡少妇很黄视频| 欧美一区二区三区青椒视频|