近期,快手 Kwaipilot 團隊推出了KAT 系列兩款突破性 Agentic Coding 大模型開源 32B 參數(shù)模型 KAT-Dev-32B閉源旗艦模型 KAT-Coder
這兩款模型在 Code Intelligence 領域分別體現(xiàn)出輕量級的超強表現(xiàn)和極致性能。其中,在 SWE-Bench Verified 上,KAT-Dev-32B 展現(xiàn)出強勁性能并取得了 62.4% 的解決率,在所有不同規(guī)模的開源模型中排名第 5。與此同時,KAT-Coder 以 73.4% 的解決率在 SWE-Bench Verified 上取得了極佳的單模型表現(xiàn),比肩全球頂尖閉源模型。
圖 1:在 SWE-Bench Verified 上,和全尺寸開源模型對比,KAT-Dev 用極小的模型尺寸取得了第一梯隊的性能
圖 2:在 SWE-Bench Verified 上,KAT-Coder 取得極佳的單模型表現(xiàn),比肩全球頂尖閉源模型性能
模型開源和 API 開放
KAT-Dev-32B 已在開源模型托管平臺 Hugging Face 上線,可供進一步研究和開發(fā)使用。KAT-Coder 模型的 API 密鑰近期也在 “快手萬擎” 企業(yè)級大模型服務與開發(fā)平臺上開放申請,用戶將能夠通過 Claude Code 等工具直接訪問并進行編碼。
- 快手 Kwaipilot 團隊的官方技術 Blog:https://kwaipilot.github.io/KAT-Coder/
- KAT-Dev-32B 模型開源地址:https://huggingface.co/Kwaipilot/KAT-Dev
- KAT-Coder 開發(fā)工具接入指南:https://www.streamlake.com/document/WANQING/me6ymdjrqv8lp4iq0o9
- KAT-Coder API Key 申請:https://console.streamlake.com/wanqing/
核心貢獻點摘要
KAT-Dev-32B 和 KAT-Coder 在多個訓練階段進行了創(chuàng)新和優(yōu)化,包括 Mid-Training 階段、監(jiān)督微調 (SFT) 階段、強化微調 (RFT) 階段,以及大規(guī)模智能體強化學習 (RL) 階段,具體如下:
- Mid-Training:Kwaipilot 團隊發(fā)現(xiàn),在這一階段大量增加工具使用能力、多輪交互和指令遵循的訓練,雖然在當前結果上(例如在 SWE-bench 等排行榜)可能不會帶來顯著的性能提升,但對后續(xù)的 SFT 和 RL 階段具有重大影響。
- SFT & RFT:團隊在 SFT 階段精心策劃了八種任務類型和八種編程場景,以確保模型的泛化能力和綜合能力。此外,在 RL 之前,創(chuàng)新性地引入了 RFT 階段,使用人類工程師標注的 "教師軌跡" 作為訓練期間的指導。
- 大規(guī)模 Agentic RL:當前,擴展智能體 RL 面臨三個挑戰(zhàn):非線性軌跡歷史的高效學習、利用內在模型信號以及構建可擴展的高吞吐量基礎設施。對此,Kwaipilot 團隊通過對數(shù)概率計算的前綴緩存(Log-Probability Prefix Caching)、基于熵的軌跡剪枝(Entropy-based Tree Pruning)和自研的工業(yè)級規(guī)模強化學習訓練框架 SeamlessFlow 來解決這些問題。
KAT 系列模型的核心技術路線
一、Mid-Training
Kwaipilot 團隊對經(jīng)過預訓練的模型進行了兩階段訓練,該階段被稱為 Mid-Training。在其中的第一個階段,增強了模型與 “LLM-as-Agent” 相關的全方位能力,包括但不限于以下幾種能力:
- 工具調用能力:構建了在沙盒環(huán)境真實執(zhí)行工具的調用方法以及執(zhí)行結果的交互數(shù)據(jù),用于提升模型的工具調用能力;
- 多輪交互能力:構建了最長數(shù)百輪的人類、模型、工具的交互數(shù)據(jù),用于提升在長文本情況下模型的多輪交互能力;
- 編碼知識注入:加入了高質量的與編碼相關的領域知識數(shù)據(jù),用于進一步增強模型在編碼場景下的性能;
- Git Commit 數(shù)據(jù):加入了大量來自于真實 Git 倉庫的 PR 數(shù)據(jù),用于進一步提升模型在真實編程任務下的表現(xiàn);
- 指令跟隨數(shù)據(jù):收集了 30 + 類常見的用戶指令,用于增強模型對用戶指令的理解能力;
- 通用及思考數(shù)據(jù):構建了多類通用數(shù)據(jù),用于增強模型在通用領域以及在調用工具時進行思考的能力。
二、監(jiān)督微調 (Supervised Fine-Tuning, SFT)
在第二階段,Kwaipilot 團隊收集了大量人類工程師標記的真實需求交付軌跡,并基于此合成了大量的軌跡數(shù)據(jù),進一步對模型進行訓練,以增強其端到端需求交付的能力。其中覆蓋了多種任務類型:
八大用戶任務類型:
- Feature Implementation(功能實現(xiàn))
- Feature Enhancement(功能增強)
- Bug Fixing(缺陷修復)
- Refactoring(結構優(yōu)化)
- Performance Optimization(性能優(yōu)化)
- Test Case Generation(測試用例生成)
- Code Understanding(代碼理解)
- Configuration & Deployment(配置與部署)
八大用戶編程場景:
- Application Development(應用開發(fā))
- UI/UX Engineering(界面與用戶體驗工程)
- Data Science & Engineering(數(shù)據(jù)科學與工程)
- Machine Learning & AI(機器學習與人工智能)
- Database Systems(數(shù)據(jù)庫系統(tǒng))
- Infrastructure Development(基礎設施開發(fā))
- Specialized Programming Domains(專業(yè)編程領域)
- Security Engineering(安全工程)
三、強化微調(Reinforcement Finetune,RFT)
在這一階段,Kwaipilot 團隊在強化學習流程的基礎上,額外引入了多個 ground truth 用于軌跡探索的指導,提升 rollout 效率,從絕對 reward 到衡量與 ground truth 的差異,提升了強化學習階段的效率和穩(wěn)定性。
從直接給定絕對 reward 更新為衡量 rollout 樣本和 ground truth 之間的相對差異給了強化學習更穩(wěn)定和更準確的獎勵信號,同時也會在 rollout 階段實時監(jiān)督樣本的正確性,并及時終止與 ground truth 有明顯偏離的樣本生成,這也給強化學習帶來了更高的樣本效率。
圖 3:在強化微調(RFT)流程中,引入教師軌跡作為指導
經(jīng)過三階段的訓練,團隊獲得了為 RL 階段準備的冷啟動模型,RFT 的加入也為 SFT 和 RL 之間構建了橋梁。
- Mid-Training:首先,團隊教會大模型各種基本技能,包括如何使用工具、如何理解用戶意圖等;
- SFT:其次,用高質量的軌跡數(shù)據(jù),讓模型學習如何執(zhí)行真實的下游任務;
- RFT:最后,在模型準備 “自由探索” 之前,先由教師軌跡手把手教會模型如何探索,保障了模型后續(xù)在 RL 階段的穩(wěn)定性。
四、大規(guī)模 Agentic RL
1、基于熵的樹剪枝(Entropy Based Tree Pruning)
Kwaipilot 團隊發(fā)現(xiàn),即便使用上述技術,對完整樹中的所有 token 進行訓練的成本仍然過高,因此亟需設計一種能夠優(yōu)先聚焦于攜帶最強訓練信號節(jié)點的機制。
為此,團隊將軌跡壓縮成一個前綴樹,其中每個節(jié)點表示一個共享前綴,每條邊對應一段 token。在固定的計算預算下,目標是只保留最有價值的節(jié)點進行訓練。團隊基于樹中聚合的熵信號和節(jié)點被到達的可能性來估計節(jié)點的信息量,并按照重要性順序擴展節(jié)點來剪枝樹,直到預算耗盡。額外的啟發(fā)式方法確保保留結構上的重要區(qū)域(例如,工具或內存事件),并維護局部上下文以穩(wěn)定訓練。這種基于熵的剪枝大幅減少冗余計算,同時保留大部分有效的訓練信號,從而實現(xiàn)顯著的吞吐量提升和更低的總體成本。
2、RL infra:自研 SeamlessFlow 框架
圖 4:Kwaipilot 團隊自研的 RL 訓練框架 SeamlessFlow 架構
為擴展 RL,必須將 RL 訓練與智能體的多樣化內部邏輯完全解耦,同時最大化異構計算架構的利用率。遵循 SeamlessFlow 的設計,Kwaipilot 團隊在智能體和 RL 訓練之間設計了一個專門用于軌跡樹管理的中間層,確保兩者之間的嚴格分離。此外,采用提出的標簽驅動調度機制來協(xié)調異構集群中的任務分配,從而最小化管道氣泡并維持高吞吐量訓練。
3、統(tǒng)一環(huán)境接口和企業(yè)級 RL 數(shù)據(jù)構建
Kwaipilot 團隊還通過統(tǒng)一不同 RL 執(zhí)行環(huán)境的部署和評估接口,使任何新添加的環(huán)境都能以低成本無縫集成。這種統(tǒng)一設計為跨異構數(shù)據(jù)源和任務類型擴展 RL 訓練奠定了堅實基礎。具體到軟件開發(fā)場景,團隊聚集于三個基本組件:與相應分支代碼配對的問題描述、可執(zhí)行環(huán)境和可驗證的測試用例。
Kwaipilot 團隊從開源倉庫收集拉取請求和相關問題,并根據(jù)這些倉庫的星標、PR 活動和問題內容過濾低質量數(shù)據(jù),隨后系統(tǒng)地為每個收集的實例構建可執(zhí)行環(huán)境鏡像并生成單元測試用例。除了軟件工程數(shù)據(jù),團隊還納入了其他可驗證領域,如數(shù)學和推理任務,進一步豐富了 RL 信號的多樣性。
更重要的是,除了開源數(shù)據(jù),團隊還進一步收集并利用來自真實世界工業(yè)系統(tǒng)的匿名企業(yè)級代碼庫進行 RL 訓練。與僅在公共倉庫(如 GitHub 上的倉庫)上訓練不同,這些倉庫通常包含較簡單的項目,而這些大規(guī)模、復雜的代碼庫 —— 跨越多種編程語言并代表真實的業(yè)務邏輯 —— 讓模型接觸到更具挑戰(zhàn)性的開發(fā)場景,為 RL 提供了高價值的資產。訓練智能體解決這些真實世界的工業(yè)問題不僅增強了學習的魯棒性,還將所得模型的編程能力建立在現(xiàn)實的生產級環(huán)境中。
圖 5:在 SWE-Bench Verified 上,各階段訓練對模型的性能影響
模型效果展示
KAT-Coder 模型具備強大的代碼生成能力,可獨立完成完整的項目開發(fā),通過調用編程工具可實現(xiàn)從交互式游戲到代碼重構等多樣化編程任務。用戶僅需描述需求,模型即可交付完整的代碼解決方案。
1、星空效果
2、水果忍者
3、代碼重構
大規(guī)模 Agentic RL 后的涌現(xiàn)能力
對經(jīng)過大規(guī)模 Agentic RL 訓練后的模型進行分析,Kwaipilot 團隊觀測到了兩個顯著的涌現(xiàn)現(xiàn)象:
- 對話輪次顯著降低:模型傾向于用更少的交互輪次完成任務,相較于 SFT 模型,平均對話輪次下降了 32%;
- 多工具并行調用:模型展現(xiàn)出同時調用多個工具的能力,而非傳統(tǒng)的串行調用。
團隊推測,這源于軌跡樹結構帶來的隱式優(yōu)化壓力,使模型自然形成效率偏好與并行調用能力。
- 效率偏好的形成:在軌跡樹結構中,較短的路徑(更少的對話輪次)會被更多的訓練樣本共享。這創(chuàng)造了一個隱式的優(yōu)化壓力:模型傾向于學習更高效的解決方案;
- 并行化的自然選擇:在樹結構中,多工具并行調用創(chuàng)造了更多的分支可能性,這些分支在訓練時被獨立處理,使得模型能夠同時探索多個工具組合。同時熵剪枝機制(Long-term Entropy Pruning)保留了信息量較大的節(jié)點,而多工具調用節(jié)點往往具有更高的熵值,使模型逐漸學會了 "批處理" 思維。
未來展望
Kwaipilot 團隊將持續(xù)探索代碼智能的前沿領域,開拓創(chuàng)新可能:
- 增強工具集成:與流行的 IDE、版本控制系統(tǒng)和開發(fā)工作流深度集成,創(chuàng)建無縫的編碼體驗。
- 多語言擴展:擴展 KAT 模型能力以覆蓋新興的編程語言和框架,確保全面的語言支持。
- 協(xié)作編碼:探索多智能體系統(tǒng),讓 KAT 模型能夠在復雜的軟件項目上協(xié)同工作,實現(xiàn)前所未有的協(xié)作。
- 多模態(tài)代碼智能:集成視覺理解能力,處理架構圖、UI 設計、調試截圖和文檔圖像以及代碼,使開發(fā)過程更加直觀和高效。
原文鏈接:https://kwaipilot.github.io/KAT-Coder/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.