網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊AI Lab開源可復(fù)現(xiàn)的深度研究智能體，最大限度降低外部依賴

2025-08-06 15:41:00　來源: 量子位

北京舉報(bào)

分享至

騰訊AI Lab 投稿
量子位 | 公眾號(hào) QbitAI

深度研究智能體（Deep Research Agents）憑借大語(yǔ)言模型（LLM）和視覺-語(yǔ)言模型（VLM）的強(qiáng)大能力，正在重塑知識(shí)發(fā)現(xiàn)與問題解決的范式。

然而，現(xiàn)有開源智能體框架多依賴付費(fèi)工具，限制了可復(fù)現(xiàn)性和普適性。

騰訊AI Lab全新推出的Cognitive Kernel-Pro，一款全開源、多模塊、層次化的智能體框架，為深度研究智能體的開發(fā)與訓(xùn)練提供了突破性解決方案。

在GAIA基準(zhǔn)全集上，Cognitive Kernel-Pro超越開源免費(fèi)框架SmolAgents，性能逼近依賴付費(fèi)工具的智能體，展現(xiàn)出卓越的綜合能力。在GAIA-text上，訓(xùn)練的8B模型超越WebDancer和WebSailor-7B。

相關(guān)論文排上當(dāng)日HuggingFace熱榜第一。

此外，騰訊AI Lab公開了Agent Foundation Model的訓(xùn)練配方，為社區(qū)提供可復(fù)現(xiàn)的訓(xùn)練路徑。

相關(guān)技術(shù)報(bào)告及代碼已開源于GitHub，詳細(xì)鏈接可見文末。

全開源智能體框架

Cognitive Kernel-Pro以Python代碼為動(dòng)作空間，充分發(fā)揮現(xiàn)代LLM的推理和代碼生成能力。

其核心設(shè)計(jì)包括以下四點(diǎn)。

1、模塊化架構(gòu)：框架采用兩層多模塊設(shè)計(jì)，包含主智能體和多個(gè)子智能體（如網(wǎng)頁(yè)導(dǎo)航智能體、文件處理智能體）。主智能體負(fù)責(zé)任務(wù)分解和信息整合，子智能體專注于特定任務(wù)（如網(wǎng)頁(yè)瀏覽、文件操作），確保模塊獨(dú)立性和擴(kuò)展性。

2、狀態(tài)管理與規(guī)劃：通過“進(jìn)度狀態(tài)”（Progress State）機(jī)制，智能體能夠記錄已完成步驟、待辦任務(wù)、歷史經(jīng)驗(yàn)和關(guān)鍵信息。這種結(jié)構(gòu)化狀態(tài)管理顯著提升了復(fù)雜任務(wù)的處理效率。

3、標(biāo)準(zhǔn)化任務(wù)接口：主智能體與子智能體通過簡(jiǎn)潔的文本接口通信，子智能體以Python函數(shù)形式定義，輸入任務(wù)字符串，輸出格式化結(jié)果和日志，便于協(xié)作與調(diào)試。

4、測(cè)試時(shí)優(yōu)化：框架引入反思機(jī)制（Reflection）和投票機(jī)制（Voting），通過評(píng)估和優(yōu)化動(dòng)作軌跡，提升任務(wù)完成質(zhì)量。反思機(jī)制允許智能體審查和修正先前動(dòng)作，投票機(jī)制則通過多輪軌跡比較選擇最優(yōu)結(jié)果，顯著增強(qiáng)了網(wǎng)頁(yè)瀏覽等高隨機(jī)性任務(wù)的穩(wěn)定性。

上表顯示了Agent框架工具的使用和能力情況。

比較專有工具時(shí)，Google Search API（可以輕松切換到 DuckDuckGo 等免費(fèi) API）被排除在外，它是搜索相關(guān)任務(wù)的必備功能。

注：WebDancer 和 WebSailor 主要關(guān)注Web Agent，支持 PDF 獲取和簡(jiǎn)單處理，但缺乏通用文件Agent功能。

許多現(xiàn)有智能體框架依賴付費(fèi)工具，增加了使用成本并限制了廣泛應(yīng)用。而Cognitive Kernel-Pro框架盡可能使用免費(fèi)、開源工具，使用LLM的python代碼生成能力和理解能力對(duì)智能體任務(wù)進(jìn)行處理。

創(chuàng)新訓(xùn)練方法

Cognitive Kernel-Pro不僅提供了強(qiáng)大的框架，還設(shè)計(jì)了全面的訓(xùn)練流程，覆蓋網(wǎng)頁(yè)導(dǎo)航、文件處理、代碼生成和推理等多個(gè)領(lǐng)域。

關(guān)鍵創(chuàng)新包括：

高質(zhì)量Web Agent數(shù)據(jù)構(gòu)建
通過構(gòu)造可驗(yàn)證的查詢-答案對(duì)，結(jié)合中間過程提示和基于提示的拒絕采樣，顯著提升訓(xùn)練數(shù)據(jù)的質(zhì)量和相關(guān)性.
Persona Hub數(shù)據(jù)增強(qiáng)
利用Persona Hub生成多樣化的合成查詢，結(jié)合跨系統(tǒng)驗(yàn)證，增強(qiáng)訓(xùn)練數(shù)據(jù)的多樣性和魯棒性。
推理數(shù)據(jù)優(yōu)化
對(duì)現(xiàn)有數(shù)據(jù)集（如NumiaMath、LogicCot、TACO）進(jìn)行精細(xì)化處理，適配智能體任務(wù)格式，確保訓(xùn)練數(shù)據(jù)與實(shí)際應(yīng)用場(chǎng)景一致。
軌跡采樣
以GPT-4.1為骨干模型生成智能體軌跡，并通過相似度匹配進(jìn)行拒絕采樣，最大化訓(xùn)練數(shù)據(jù)的有效性。

性能優(yōu)勢(shì)

Cognitive Kernel-Pro在網(wǎng)頁(yè)信息檢索、文件處理和復(fù)雜推理等任務(wù)中表現(xiàn)出色，尤其在GAIA基準(zhǔn)上超越SmolAgents，接近依賴付費(fèi)工具的智能體框架。

相較于依賴Jina Reader、FireCrawl等付費(fèi)工具的現(xiàn)有開源框架，Cognitive Kernel-Pro強(qiáng)調(diào)LLM和VLM的內(nèi)在能力，最大限度降低外部依賴，實(shí)現(xiàn)真正的全開源。

上圖的技術(shù)報(bào)告中對(duì)比了多個(gè)AI智能體框架，顯示Cognitive Kernel-Pro在功能全面性和開源程度上具有顯著優(yōu)勢(shì)。框架支持靈活切換免費(fèi)API（如DuckDuckGo），進(jìn)一步提升了可訪問性。

上表展示了Cognitive Kernel-Pro與其他開源 Agent基礎(chǔ)模型的性能對(duì)比。

Cognitive Kernel-Pro 在 GAIA-text基準(zhǔn)測(cè)試中取得了優(yōu)異的成績(jī)，超越了WebDancer和WebSailor類似大小模型，體現(xiàn)了框架、模型訓(xùn)練方法的優(yōu)越性。

首先，Cognitive Kernel-Pro是一個(gè)通用Agent框架，有更好的文件Agent、Code Agent的處理能力，在框架上比整體上是Web Agent的WebThinker、WebDancer、WebSailor要能處理更復(fù)雜的情況。

其次，在訓(xùn)練對(duì)應(yīng)的開源模型CK-Pro-8B時(shí)，更通用、豐富的Agent數(shù)據(jù)被包含進(jìn)訓(xùn)練集，共同提升了Agent基座模型的能力。

上表展示了測(cè)試Cognitive Kernel-Pro反思功能的消融實(shí)驗(yàn)。

更強(qiáng)的模型，例如GPT-4.1，可以提供更好的反思信號(hào)，但開源模型例如Qwen-3-32B已經(jīng)能提供相當(dāng)GPT-4.1的反思效果。

Cognitive Kernel-Pro的研究團(tuán)隊(duì)表示，未來工作將關(guān)注在將反思能力蒸餾到同一個(gè)Agent基座模型中。

GitHub：https://github.com/Tencent/CognitiveKernel-Pro
Arxiv：https://arxiv.org/pdf/2508.00414

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.