騰訊AI Lab 投稿
量子位 | 公眾號(hào) QbitAI
深度研究智能體(Deep Research Agents)憑借大語(yǔ)言模型(LLM)和視覺-語(yǔ)言模型(VLM)的強(qiáng)大能力,正在重塑知識(shí)發(fā)現(xiàn)與問題解決的范式。
然而,現(xiàn)有開源智能體框架多依賴付費(fèi)工具,限制了可復(fù)現(xiàn)性和普適性。
騰訊AI Lab全新推出的Cognitive Kernel-Pro,一款全開源、多模塊、層次化的智能體框架,為深度研究智能體的開發(fā)與訓(xùn)練提供了突破性解決方案。
在GAIA基準(zhǔn)全集上,Cognitive Kernel-Pro超越開源免費(fèi)框架SmolAgents,性能逼近依賴付費(fèi)工具的智能體,展現(xiàn)出卓越的綜合能力。在GAIA-text上,訓(xùn)練的8B模型超越WebDancer和WebSailor-7B。
相關(guān)論文排上當(dāng)日HuggingFace熱榜第一。
此外,騰訊AI Lab公開了Agent Foundation Model的訓(xùn)練配方,為社區(qū)提供可復(fù)現(xiàn)的訓(xùn)練路徑。
相關(guān)技術(shù)報(bào)告及代碼已開源于GitHub,詳細(xì)鏈接可見文末。
全開源智能體框架
Cognitive Kernel-Pro以Python代碼為動(dòng)作空間,充分發(fā)揮現(xiàn)代LLM的推理和代碼生成能力。
其核心設(shè)計(jì)包括以下四點(diǎn)。
1、模塊化架構(gòu):框架采用兩層多模塊設(shè)計(jì),包含主智能體和多個(gè)子智能體(如網(wǎng)頁(yè)導(dǎo)航智能體、文件處理智能體)。主智能體負(fù)責(zé)任務(wù)分解和信息整合,子智能體專注于特定任務(wù)(如網(wǎng)頁(yè)瀏覽、文件操作),確保模塊獨(dú)立性和擴(kuò)展性。
2、狀態(tài)管理與規(guī)劃:通過“進(jìn)度狀態(tài)”(Progress State)機(jī)制,智能體能夠記錄已完成步驟、待辦任務(wù)、歷史經(jīng)驗(yàn)和關(guān)鍵信息。這種結(jié)構(gòu)化狀態(tài)管理顯著提升了復(fù)雜任務(wù)的處理效率。
3、標(biāo)準(zhǔn)化任務(wù)接口:主智能體與子智能體通過簡(jiǎn)潔的文本接口通信,子智能體以Python函數(shù)形式定義,輸入任務(wù)字符串,輸出格式化結(jié)果和日志,便于協(xié)作與調(diào)試。
4、測(cè)試時(shí)優(yōu)化:框架引入反思機(jī)制(Reflection)和投票機(jī)制(Voting),通過評(píng)估和優(yōu)化動(dòng)作軌跡,提升任務(wù)完成質(zhì)量。反思機(jī)制允許智能體審查和修正先前動(dòng)作,投票機(jī)制則通過多輪軌跡比較選擇最優(yōu)結(jié)果,顯著增強(qiáng)了網(wǎng)頁(yè)瀏覽等高隨機(jī)性任務(wù)的穩(wěn)定性。
上表顯示了Agent框架工具的使用和能力情況。
比較專有工具時(shí),Google Search API(可以輕松切換到 DuckDuckGo 等免費(fèi) API)被排除在外,它是搜索相關(guān)任務(wù)的必備功能。
注:WebDancer 和 WebSailor 主要關(guān)注Web Agent,支持 PDF 獲取和簡(jiǎn)單處理,但缺乏通用文件Agent功能。
許多現(xiàn)有智能體框架依賴付費(fèi)工具,增加了使用成本并限制了廣泛應(yīng)用。而Cognitive Kernel-Pro框架盡可能使用免費(fèi)、開源工具,使用LLM的python代碼生成能力和理解能力對(duì)智能體任務(wù)進(jìn)行處理。
創(chuàng)新訓(xùn)練方法
Cognitive Kernel-Pro不僅提供了強(qiáng)大的框架,還設(shè)計(jì)了全面的訓(xùn)練流程,覆蓋網(wǎng)頁(yè)導(dǎo)航、文件處理、代碼生成和推理等多個(gè)領(lǐng)域。
關(guān)鍵創(chuàng)新包括:
- 高質(zhì)量Web Agent數(shù)據(jù)構(gòu)建
- 通過構(gòu)造可驗(yàn)證的查詢-答案對(duì),結(jié)合中間過程提示和基于提示的拒絕采樣,顯著提升訓(xùn)練數(shù)據(jù)的質(zhì)量和相關(guān)性.
- Persona Hub數(shù)據(jù)增強(qiáng)
- 利用Persona Hub生成多樣化的合成查詢,結(jié)合跨系統(tǒng)驗(yàn)證,增強(qiáng)訓(xùn)練數(shù)據(jù)的多樣性和魯棒性。
- 推理數(shù)據(jù)優(yōu)化
- 對(duì)現(xiàn)有數(shù)據(jù)集(如NumiaMath、LogicCot、TACO)進(jìn)行精細(xì)化處理,適配智能體任務(wù)格式,確保訓(xùn)練數(shù)據(jù)與實(shí)際應(yīng)用場(chǎng)景一致。
- 軌跡采樣
- 以GPT-4.1為骨干模型生成智能體軌跡,并通過相似度匹配進(jìn)行拒絕采樣,最大化訓(xùn)練數(shù)據(jù)的有效性。
性能優(yōu)勢(shì)
Cognitive Kernel-Pro在網(wǎng)頁(yè)信息檢索、文件處理和復(fù)雜推理等任務(wù)中表現(xiàn)出色,尤其在GAIA基準(zhǔn)上超越SmolAgents,接近依賴付費(fèi)工具的智能體框架。
相較于依賴Jina Reader、FireCrawl等付費(fèi)工具的現(xiàn)有開源框架,Cognitive Kernel-Pro強(qiáng)調(diào)LLM和VLM的內(nèi)在能力,最大限度降低外部依賴,實(shí)現(xiàn)真正的全開源。
上圖的技術(shù)報(bào)告中對(duì)比了多個(gè)AI智能體框架,顯示Cognitive Kernel-Pro在功能全面性和開源程度上具有顯著優(yōu)勢(shì)。框架支持靈活切換免費(fèi)API(如DuckDuckGo),進(jìn)一步提升了可訪問性。
上表展示了Cognitive Kernel-Pro與其他開源 Agent基礎(chǔ)模型的性能對(duì)比。
Cognitive Kernel-Pro 在 GAIA-text基準(zhǔn)測(cè)試中取得了優(yōu)異的成績(jī),超越了WebDancer和WebSailor類似大小模型,體現(xiàn)了框架、模型訓(xùn)練方法的優(yōu)越性。
首先,Cognitive Kernel-Pro是一個(gè)通用Agent框架,有更好的文件Agent、Code Agent的處理能力,在框架上比整體上是Web Agent的WebThinker、WebDancer、WebSailor要能處理更復(fù)雜的情況。
其次,在訓(xùn)練對(duì)應(yīng)的開源模型CK-Pro-8B時(shí),更通用、豐富的Agent數(shù)據(jù)被包含進(jìn)訓(xùn)練集,共同提升了Agent基座模型的能力。
上表展示了測(cè)試Cognitive Kernel-Pro反思功能的消融實(shí)驗(yàn)。
更強(qiáng)的模型,例如GPT-4.1,可以提供更好的反思信號(hào),但開源模型例如Qwen-3-32B已經(jīng)能提供相當(dāng)GPT-4.1的反思效果。
Cognitive Kernel-Pro的研究團(tuán)隊(duì)表示,未來工作將關(guān)注在將反思能力蒸餾到同一個(gè)Agent基座模型中。
GitHub:https://github.com/Tencent/CognitiveKernel-Pro
Arxiv:https://arxiv.org/pdf/2508.00414
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.