夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Agent RL與智能體進(jìn)化關(guān)鍵一步:TaskCraft實(shí)現(xiàn)復(fù)雜任務(wù)自動(dòng)生成

0
分享至



近年來,基于智能體的強(qiáng)化學(xué)習(xí)(Agent + RL)與智能體優(yōu)化(Agent Optimization)在學(xué)術(shù)界引發(fā)了廣泛關(guān)注。然而,實(shí)現(xiàn)具備工具調(diào)用能力的端到端智能體訓(xùn)練,首要瓶頸在于高質(zhì)量任務(wù)數(shù)據(jù)的極度稀缺。當(dāng)前如GAIA 與 BrowserComp 等主流數(shù)據(jù)集在構(gòu)建過程中高度依賴人工標(biāo)注,因而在規(guī)模與任務(wù)復(fù)雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個(gè)搜索任務(wù),GAIA 則僅提供約 500 條多工具協(xié)同任務(wù)樣本。與基礎(chǔ)大模型訓(xùn)練中動(dòng)輒萬級(jí)以上的指令數(shù)據(jù)相比,差距十分顯著。

盡管在基礎(chǔ)模型階段,像self-instruct 這樣的自監(jiān)督方法已經(jīng)借助大語(yǔ)言模型(LLM)成功構(gòu)建了大規(guī)模的指令型數(shù)據(jù),有效提升了模型的通用性和泛化能力,但在智能體(Agent)場(chǎng)景下,這類靜態(tài)指令數(shù)據(jù)卻難以滿足實(shí)際需求。原因在于,復(fù)雜的智能體任務(wù)通常需要模型與環(huán)境進(jìn)行持續(xù)的動(dòng)態(tài)交互,同時(shí)涉及多工具的協(xié)同操作和多步驟推理。而傳統(tǒng)的指令數(shù)據(jù)缺乏這種交互性和操作性,導(dǎo)致其在智能體訓(xùn)練中遷移性差、適用性有限。

為應(yīng)對(duì)上述挑戰(zhàn),OPPO 研究院的研究者提出了 TaskCraft,一個(gè)面向智能體任務(wù)的自動(dòng)化生成框架,旨在高效構(gòu)建具備可擴(kuò)展難度、多工具協(xié)同與可驗(yàn)證執(zhí)行路徑的智能體任務(wù)實(shí)例。TaskCraft 通過統(tǒng)一的流程化建構(gòu)機(jī)制,擺脫了對(duì)人工標(biāo)注的依賴,能夠系統(tǒng)性地產(chǎn)生覆蓋多種工具(如URL、PDF、HTML、Image 等)的復(fù)雜任務(wù)場(chǎng)景,并支持任務(wù)目標(biāo)的自動(dòng)驗(yàn)證,確保數(shù)據(jù)質(zhì)量與執(zhí)行閉環(huán)。 基于該框架,研究團(tuán)隊(duì)構(gòu)建并開源了一個(gè)包含約 41,000 條智能體任務(wù)的合成數(shù)據(jù)集,顯著擴(kuò)展了現(xiàn)有Agent 數(shù)據(jù)資源的規(guī)模與多樣性,為后續(xù)通用智能體的訓(xùn)練與評(píng)估提供了有力支撐。



  • 論文標(biāo)題:
  • TaskCraft: Automated Generation of Agentic Tasks
  • 論文地址:
  • https://arxiv.org/abs/2506.10055
  • Github:
  • https://github.com/OPPO-PersonalAI/TaskCraft
  • 數(shù)據(jù)集:
  • https://huggingface.co/datasets/PersonalAILab/TaskCraft

數(shù)據(jù)生成

生成過程主要分為兩大部分:第一部分生成簡(jiǎn)單且可驗(yàn)證的原子任務(wù);第二部分通過深度拓展和寬度拓展,不斷構(gòu)建新的原子任務(wù),使復(fù)雜性逐步提升。

原子任務(wù)的生成



原子結(jié)構(gòu)生成示意圖

可以簡(jiǎn)單理解為,從原始數(shù)據(jù)中提取核心問題,然后確保問題必須通過特定工具來解決。整個(gè)流程包含以下四個(gè)關(guān)鍵步驟:

1.收集信息:系統(tǒng)從多種來源(網(wǎng)頁(yè)、PDF、圖片等)提取信息。例如,企業(yè)財(cái)報(bào)、一張統(tǒng)計(jì)圖或一篇新聞文章。

2.識(shí)別關(guān)鍵內(nèi)容:利用LLM從這些文檔中提取候選結(jié)論,比如:2025 年蘋果公司總收入為383.3 億美元

3.生成問題:LLM需要將這些候選結(jié)論轉(zhuǎn)換為工具回答的問題。例如:“在財(cái)務(wù)報(bào)告《Apple 2025 年度報(bào)告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

4.驗(yàn)證任務(wù):每個(gè)原子任務(wù)被保留必須滿足以下兩個(gè)條件:

  • 必須依賴工具才能解答(LLM無法直接推導(dǎo)答案)。
  • 必須經(jīng)過Agent驗(yàn)證,確保能夠順利執(zhí)行任務(wù)。

任務(wù)拓展

任務(wù)拓展旨在將一個(gè)簡(jiǎn)單任務(wù)逐步演化為更具層次和挑戰(zhàn)性的復(fù)雜任務(wù),使Agent 必須通過多個(gè)步驟才能完成任務(wù)。拓展方式主要包括深度拓展寬度拓展



深度拓展示意圖

其中,深度拓展的目標(biāo)是為了構(gòu)建可被拆解為一系列相互依賴的任務(wù)。每一步都依賴前一步的結(jié)果,從而構(gòu)建出一條多步推理鏈。其主要包括以下四步:

1.確認(rèn)主任務(wù)與拓展標(biāo)識(shí)符:拓展標(biāo)識(shí)符一般是具有強(qiáng)特殊性的文本,往往作為獲取工具上下文的輸入關(guān)鍵字。例如對(duì)于任務(wù):“電影《星際穿越》的導(dǎo)演是誰(shuí)?”(答案:克里斯托弗·諾蘭),其中的拓展標(biāo)識(shí)符是:《星際穿越》。

2.執(zhí)行Agent搜索,構(gòu)造新的輔助原子任務(wù):SearchAgent以拓展標(biāo)識(shí)符為線索執(zhí)行搜索,并從搜索結(jié)果中構(gòu)造一個(gè)新的原子任務(wù),其答案即為該拓展標(biāo)識(shí)符。例如:“哪部美國(guó)著名科幻電影是在2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

3.合并輔助原子任務(wù),更新主任務(wù):將輔助原子任務(wù)與原主任務(wù)進(jìn)行融合,構(gòu)建一個(gè)邏輯連貫的復(fù)合任務(wù)。例如:“2014 年 11 月 7 日上映的美國(guó)著名科幻電影,它的導(dǎo)演是誰(shuí)?“(答案:克里斯托弗·諾蘭)

4.驗(yàn)證任務(wù)合理性:為了規(guī)避對(duì)合并問題的整體驗(yàn)證,研究者采用了多種規(guī)則對(duì)合并后的主任務(wù)進(jìn)行語(yǔ)義驗(yàn)證,包括:超集驗(yàn)證、關(guān)系驗(yàn)證、信息泄露驗(yàn)證、替換合理性驗(yàn)證等。

這些任務(wù)應(yīng)來自同一信息源(如同一篇網(wǎng)頁(yè)或PDF),且答案之間不存在因果依賴。使用LLM 將多個(gè)任務(wù)的語(yǔ)義合并成一個(gè)自然、流暢且具備完整性的新任務(wù)。

而寬度拓展則是通過選擇兩個(gè)(或多個(gè))結(jié)構(gòu)兼容的原子任務(wù),



寬度拓展示意圖

通過PromptLearning 提升任務(wù)生成效率

在TaskCraft 的任務(wù)構(gòu)建流程中,Prompt 的設(shè)計(jì)起到了至關(guān)重要的作用。研究團(tuán)隊(duì)采用了自舉式 few-shot 提示優(yōu)化機(jī)制,基于生成的任務(wù)數(shù)據(jù)對(duì)提示進(jìn)行了迭代優(yōu)化,從而實(shí)現(xiàn)了提示模板的自我進(jìn)化。如表1,實(shí)驗(yàn)結(jié)果顯示,原子任務(wù)的生成通過率從初始的54.9% 提高至 68.1%,同時(shí)平均生成時(shí)間減少了近 20%。在深度拓展任務(wù)中,6 輪任務(wù)擴(kuò)展的成功率由 41% 提升至 51.2%,進(jìn)一步驗(yàn)證了生成數(shù)據(jù)在提升任務(wù)構(gòu)建質(zhì)量與效率方面的顯著效果。



表1PromptLearning實(shí)驗(yàn)結(jié)果

對(duì)智能體基礎(chǔ)模型進(jìn)行SFT訓(xùn)練

其次,研究團(tuán)隊(duì)進(jìn)一步評(píng)估了TaskCraft 所生成任務(wù)數(shù)據(jù)在提升大模型能力方面的實(shí)際效果。以 Qwen2.5-3B 系列為基礎(chǔ),研究者基于三個(gè)典型的多跳問答數(shù)據(jù)集(HotpotQA、Musique 和 Bamboogle)的訓(xùn)練集,生成了約32k條多跳任務(wù)以及軌跡,并利用這些生成數(shù)據(jù)對(duì)模型進(jìn)行監(jiān)督微調(diào)(SFT)。如表2,實(shí)驗(yàn)結(jié)果表明,經(jīng)過微調(diào)后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數(shù)據(jù)在增強(qiáng)大模型的推理能力與工具調(diào)用表現(xiàn)方面具有顯著成效。此外,當(dāng)這些微調(diào)模型與強(qiáng)化學(xué)習(xí)方法 Search-R1 相結(jié)合時(shí),模型性能進(jìn)一步提升,進(jìn)一步證明 TaskCraft 所生成的任務(wù)數(shù)據(jù)不僅能用于監(jiān)督學(xué)習(xí),也可作為強(qiáng)化學(xué)習(xí)的優(yōu)質(zhì)訓(xùn)練起點(diǎn)。



表2監(jiān)督微調(diào)效果

此外,你可能會(huì)好奇:引入搜索Agent 是否真的有必要?為此,研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)對(duì)比實(shí)驗(yàn),比較了兩種任務(wù)構(gòu)建方式的效果:一是直接使用 GPT-4.1 基于某個(gè)結(jié)論生成任務(wù),另一種則是借助基于 GPT-4.1 的 Search Agent 自動(dòng)生成任務(wù)。結(jié)果如表 3 所示,TaskCraft 構(gòu)建范式在多項(xiàng)指標(biāo)上表現(xiàn)更優(yōu)。



表3任務(wù)構(gòu)建范式的有效性分析

相比之下,TaskCraft 生成的任務(wù)具有顯著更高的通過率,驗(yàn)證時(shí)間更短,且工具使用次數(shù)更符合“原子任務(wù)”的定義(理論最優(yōu)為:一次輸入索引 + 一次目標(biāo)工具調(diào)用)。此外,任務(wù)的工具調(diào)用次數(shù)也更穩(wěn)定,方差更小,反映出 TaskCraft 在保持原子任務(wù)難度的一致性方面具備更強(qiáng)的優(yōu)勢(shì)。



原子數(shù)據(jù)域分布

基于TaskCraft,研究者構(gòu)建了一個(gè)包含約41,000 個(gè) agentic 任務(wù)的大規(guī)模數(shù)據(jù)集,為 AI 智能體的系統(tǒng)化調(diào)優(yōu)與評(píng)估提供了堅(jiān)實(shí)的基礎(chǔ)。該數(shù)據(jù)集覆蓋多個(gè)工具使用場(chǎng)景,包括網(wǎng)頁(yè)搜索、PDF 閱讀、圖像理解等,任務(wù)結(jié)構(gòu)層次豐富,難度可控,支持原子級(jí)任務(wù)和多跳復(fù)雜任務(wù)。由于所有任務(wù)都附帶了真實(shí)的執(zhí)行軌跡,不僅可以進(jìn)行監(jiān)督式微調(diào)(SFT),還能為強(qiáng)化學(xué)習(xí)(RL)提供高質(zhì)量的訓(xùn)練數(shù)據(jù)起點(diǎn)。這使得該數(shù)據(jù)集可廣泛應(yīng)用于智能體基礎(chǔ)模型的能力增強(qiáng)、Agent 推理策略的評(píng)估,以及多工具調(diào)用環(huán)境下的泛化能力測(cè)試。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
劉小濤任江蘇省政府黨組書記

劉小濤任江蘇省政府黨組書記

新京報(bào)政事兒
2025-09-30 17:51:11
沉默的榮耀:要不是張灝犧牲,吳石到死不知該提防的人不是谷正文

沉默的榮耀:要不是張灝犧牲,吳石到死不知該提防的人不是谷正文

動(dòng)物奇奇怪怪
2025-10-01 13:23:14
記者:巴頓、謝維軍和孫銘謙都做了核磁,孫銘謙至少歇10多天

記者:巴頓、謝維軍和孫銘謙都做了核磁,孫銘謙至少歇10多天

懂球帝
2025-10-01 22:09:15
阿努廷恐遭停職?泰總寶座還沒坐熱,對(duì)手攻勢(shì)一波又一波,怎么辦

阿努廷恐遭停職?泰總寶座還沒坐熱,對(duì)手攻勢(shì)一波又一波,怎么辦

劉森森
2025-10-01 23:57:40
搞笑,快船隊(duì)詹姆斯·哈登在Netflix拍攝期間被警察攔下

搞笑,快船隊(duì)詹姆斯·哈登在Netflix拍攝期間被警察攔下

好火子
2025-10-02 04:10:59
德國(guó)大學(xué)研究發(fā)現(xiàn):一旦做了血管造影,這8件事要注意,別害自己

德國(guó)大學(xué)研究發(fā)現(xiàn):一旦做了血管造影,這8件事要注意,別害自己

周哥一影視
2025-10-01 11:11:58
中國(guó)女排新秀閃耀,14歲天才身高1米93,未來可期

中國(guó)女排新秀閃耀,14歲天才身高1米93,未來可期

古來者說
2025-10-01 23:22:12
內(nèi)地男子在香港被毆打,眼睛重傷需22萬,對(duì)方囂張,原因令人憤怒

內(nèi)地男子在香港被毆打,眼睛重傷需22萬,對(duì)方囂張,原因令人憤怒

尋墨閣
2025-10-01 09:27:56
重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責(zé)任感和榮譽(yù)感?這是要把農(nóng)民逼上絕路

重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責(zé)任感和榮譽(yù)感?這是要把農(nóng)民逼上絕路

剛哥說法365
2025-09-24 16:33:59
No7爆冷不敵No84,艾倫出局,丁俊暉間接受益。

No7爆冷不敵No84,艾倫出局,丁俊暉間接受益。

李帕在北漂
2025-10-01 22:49:21
中國(guó)科協(xié)主席:常規(guī)體檢毫無意義!

中國(guó)科協(xié)主席:常規(guī)體檢毫無意義!

深度報(bào)
2025-09-29 23:00:16
新婚夜,董璇或被“滋潤(rùn)”得活力四射,高云翔評(píng)論區(qū)“淪陷”!

新婚夜,董璇或被“滋潤(rùn)”得活力四射,高云翔評(píng)論區(qū)“淪陷”!

默默有話說
2025-09-29 11:55:05
關(guān)詠荷:我這輩子正確的決定,就是在高齡為小丈夫生兒子

關(guān)詠荷:我這輩子正確的決定,就是在高齡為小丈夫生兒子

混沌錄
2025-09-27 17:37:12
張建亞含淚告白:我這輩子最大的遺憾,就是把張瑜從夫妻變成朋友

張建亞含淚告白:我這輩子最大的遺憾,就是把張瑜從夫妻變成朋友

查爾菲的筆記
2025-09-30 18:19:21
江原主帥:祝賀成都取得亞冠首勝,他們外援和本土球員都很強(qiáng)

江原主帥:祝賀成都取得亞冠首勝,他們外援和本土球員都很強(qiáng)

懂球帝
2025-10-01 18:24:11
中國(guó)不挽留,美國(guó)不收留,被夾在中間的李嘉誠(chéng),終于玩不轉(zhuǎn)了!

中國(guó)不挽留,美國(guó)不收留,被夾在中間的李嘉誠(chéng),終于玩不轉(zhuǎn)了!

大道無形我有型
2025-09-05 18:20:42
小米最近的遭遇表明,靠抄襲發(fā)家的時(shí)代,徹底結(jié)束了

小米最近的遭遇表明,靠抄襲發(fā)家的時(shí)代,徹底結(jié)束了

熱點(diǎn)菌本君
2025-10-01 17:27:53
為何劉海星能被任命為中央對(duì)外聯(lián)絡(luò)部新一任部長(zhǎng)?

為何劉海星能被任命為中央對(duì)外聯(lián)絡(luò)部新一任部長(zhǎng)?

李昕言溫度空間
2025-09-30 21:38:48
午睡半小時(shí)是錯(cuò)的?醫(yī)生苦勸:不想住進(jìn)醫(yī)院,秋季午睡牢記這4點(diǎn)

午睡半小時(shí)是錯(cuò)的?醫(yī)生苦勸:不想住進(jìn)醫(yī)院,秋季午睡牢記這4點(diǎn)

劉哥談體育
2025-10-02 04:23:32
廣州天河城B1層煥新重開,永旺新業(yè)態(tài)全國(guó)首店人氣爆棚

廣州天河城B1層煥新重開,永旺新業(yè)態(tài)全國(guó)首店人氣爆棚

新快報(bào)新聞
2025-10-01 19:59:09
2025-10-02 05:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11392文章數(shù) 142463關(guān)注度
往期回顧 全部

科技要聞

天問二號(hào)最新影像!五星紅旗與地球同框

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲(chǔ)系統(tǒng)被燒毀

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲(chǔ)系統(tǒng)被燒毀

體育要聞

蓉城獨(dú)撐中超!3隊(duì)6戰(zhàn)僅1勝 申花痛失好局

娛樂要聞

董璇母女國(guó)慶節(jié)跳舞 小酒窩眼神堅(jiān)定

財(cái)經(jīng)要聞

美國(guó)聯(lián)邦政府“關(guān)門”,有何影響?

汽車要聞

零跑9月銷量突破6萬臺(tái)大關(guān) 刷新新勢(shì)力單月交付紀(jì)錄

態(tài)度原創(chuàng)

旅游
房產(chǎn)
健康
家居
教育

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

買房必看!十一廣州置業(yè)攻略,熱門項(xiàng)目?jī)?yōu)惠提前曝光!

內(nèi)分泌科專家破解身高八大謠言

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

教育要聞

來上課了——高考完形填空與課內(nèi)詞匯用法精講(一)第二段

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲精品国产啊女成拍色拍| 麻豆xxxxxx在线观看| 国产成人无码A区在线观看视频不卡| 日韩人妻不卡二区三区视频| 欧洲亚洲色一区二区色99| 97香蕉超级碰碰碰久久兔费| 亚洲av午夜成人片精品网站| 人人爽人人骑| 97人妻少妇| 欧美乱大交xxxxx潮喷l头像| 亚洲一二区AV| 亚洲人成电影网站 久久影视| 国产人妻鲁鲁一区二区| 91熟妇丰满人妻刺激战场| 美女一区二区在线观看| 在线成人爽A毛片免费软件| 亚洲色图,成人影片| 亚洲福利视频网址| 成人亚洲不卡一区二区| 亚洲国产av玩弄放荡人妇系列| 午夜精品久久久久久久四虎| 精品人妻区二区三区蜜桃| 亚洲无码中文字幕人邻| 十八禁视频在线观看免费无码无遮挡骂过| 国产片免费福利片永久| 苍井空一区二区| 妺妺窝人体色www聚色窝| 亚洲有码久久综合| 黄片一区 二区 三区| 狼色在线影院| 麻豆久久五月国产综合| 国产拗女一区二区三区| 小雪第一次尝到又大又粗 | 亚洲AV秘 片一区二区三原神| 伊人久久大香线蕉av网| 亚洲永久网址| 精品国产av色欲果冻传媒| 日韩中字AV| we一区二区色com| 朝鲜女人大白屁股ass| 国产最新无码视频|