Agentic Coding表現(xiàn)創(chuàng)新高，全新KAT系列模型強勢霸榜SWE-Bench

2025-09-26 17:39:31　來源: 機器之心Pro

北京舉報

分享至

近期，快手 Kwaipilot 團隊推出了KAT 系列兩款突破性 Agentic Coding 大模型開源 32B 參數(shù)模型 KAT-Dev-32B閉源旗艦模型 KAT-Coder

這兩款模型在 Code Intelligence 領域分別體現(xiàn)出輕量級的超強表現(xiàn)和極致性能。其中，在 SWE-Bench Verified 上，KAT-Dev-32B 展現(xiàn)出強勁性能并取得了 62.4% 的解決率，在所有不同規(guī)模的開源模型中排名第 5。與此同時，KAT-Coder 以 73.4% 的解決率在 SWE-Bench Verified 上取得了極佳的單模型表現(xiàn)，比肩全球頂尖閉源模型。

圖 1：在 SWE-Bench Verified 上，和全尺寸開源模型對比，KAT-Dev 用極小的模型尺寸取得了第一梯隊的性能

圖 2：在 SWE-Bench Verified 上，KAT-Coder 取得極佳的單模型表現(xiàn)，比肩全球頂尖閉源模型性能

模型開源和 API 開放

KAT-Dev-32B 已在開源模型托管平臺 Hugging Face 上線，可供進一步研究和開發(fā)使用。KAT-Coder 模型的 API 密鑰近期也在 “快手萬擎” 企業(yè)級大模型服務與開發(fā)平臺上開放申請，用戶將能夠通過 Claude Code 等工具直接訪問并進行編碼。

快手 Kwaipilot 團隊的官方技術 Blog：https://kwaipilot.github.io/KAT-Coder/
KAT-Dev-32B 模型開源地址：https://huggingface.co/Kwaipilot/KAT-Dev
KAT-Coder 開發(fā)工具接入指南：https://www.streamlake.com/document/WANQING/me6ymdjrqv8lp4iq0o9
KAT-Coder API Key 申請：https://console.streamlake.com/wanqing/

核心貢獻點摘要

KAT-Dev-32B 和 KAT-Coder 在多個訓練階段進行了創(chuàng)新和優(yōu)化，包括 Mid-Training 階段、監(jiān)督微調 (SFT) 階段、強化微調 (RFT) 階段，以及大規(guī)模智能體強化學習 (RL) 階段，具體如下：

Mid-Training：Kwaipilot 團隊發(fā)現(xiàn)，在這一階段大量增加工具使用能力、多輪交互和指令遵循的訓練，雖然在當前結果上（例如在 SWE-bench 等排行榜）可能不會帶來顯著的性能提升，但對后續(xù)的 SFT 和 RL 階段具有重大影響。
SFT & RFT：團隊在 SFT 階段精心策劃了八種任務類型和八種編程場景，以確保模型的泛化能力和綜合能力。此外，在 RL 之前，創(chuàng)新性地引入了 RFT 階段，使用人類工程師標注的 "教師軌跡" 作為訓練期間的指導。
大規(guī)模 Agentic RL：當前，擴展智能體 RL 面臨三個挑戰(zhàn)：非線性軌跡歷史的高效學習、利用內在模型信號以及構建可擴展的高吞吐量基礎設施。對此，Kwaipilot 團隊通過對數(shù)概率計算的前綴緩存（Log-Probability Prefix Caching）、基于熵的軌跡剪枝（Entropy-based Tree Pruning）和自研的工業(yè)級規(guī)模強化學習訓練框架 SeamlessFlow 來解決這些問題。

KAT 系列模型的核心技術路線

一、Mid-Training

Kwaipilot 團隊對經(jīng)過預訓練的模型進行了兩階段訓練，該階段被稱為 Mid-Training。在其中的第一個階段，增強了模型與 “LLM-as-Agent” 相關的全方位能力，包括但不限于以下幾種能力：

工具調用能力：構建了在沙盒環(huán)境真實執(zhí)行工具的調用方法以及執(zhí)行結果的交互數(shù)據(jù)，用于提升模型的工具調用能力；
多輪交互能力：構建了最長數(shù)百輪的人類、模型、工具的交互數(shù)據(jù)，用于提升在長文本情況下模型的多輪交互能力；
編碼知識注入：加入了高質量的與編碼相關的領域知識數(shù)據(jù)，用于進一步增強模型在編碼場景下的性能；
Git Commit 數(shù)據(jù)：加入了大量來自于真實 Git 倉庫的 PR 數(shù)據(jù)，用于進一步提升模型在真實編程任務下的表現(xiàn)；
指令跟隨數(shù)據(jù)：收集了 30 + 類常見的用戶指令，用于增強模型對用戶指令的理解能力；
通用及思考數(shù)據(jù)：構建了多類通用數(shù)據(jù)，用于增強模型在通用領域以及在調用工具時進行思考的能力。

二、監(jiān)督微調 (Supervised Fine-Tuning, SFT)

在第二階段，Kwaipilot 團隊收集了大量人類工程師標記的真實需求交付軌跡，并基于此合成了大量的軌跡數(shù)據(jù)，進一步對模型進行訓練，以增強其端到端需求交付的能力。其中覆蓋了多種任務類型：

八大用戶任務類型：

Feature Implementation（功能實現(xiàn)）
Feature Enhancement（功能增強）
Bug Fixing（缺陷修復）
Refactoring（結構優(yōu)化）
Performance Optimization（性能優(yōu)化）
Test Case Generation（測試用例生成）
Code Understanding（代碼理解）
Configuration & Deployment（配置與部署）

八大用戶編程場景：

Application Development（應用開發(fā)）
UI/UX Engineering（界面與用戶體驗工程）
Data Science & Engineering（數(shù)據(jù)科學與工程）
Machine Learning & AI（機器學習與人工智能）
Database Systems（數(shù)據(jù)庫系統(tǒng)）
Infrastructure Development（基礎設施開發(fā)）
Specialized Programming Domains（專業(yè)編程領域）
Security Engineering（安全工程）

三、強化微調（Reinforcement Finetune，RFT）

在這一階段，Kwaipilot 團隊在強化學習流程的基礎上，額外引入了多個 ground truth 用于軌跡探索的指導，提升 rollout 效率，從絕對 reward 到衡量與 ground truth 的差異，提升了強化學習階段的效率和穩(wěn)定性。

從直接給定絕對 reward 更新為衡量 rollout 樣本和 ground truth 之間的相對差異給了強化學習更穩(wěn)定和更準確的獎勵信號，同時也會在 rollout 階段實時監(jiān)督樣本的正確性，并及時終止與 ground truth 有明顯偏離的樣本生成，這也給強化學習帶來了更高的樣本效率。

圖 3：在強化微調（RFT）流程中，引入教師軌跡作為指導

經(jīng)過三階段的訓練，團隊獲得了為 RL 階段準備的冷啟動模型，RFT 的加入也為 SFT 和 RL 之間構建了橋梁。

Mid-Training：首先，團隊教會大模型各種基本技能，包括如何使用工具、如何理解用戶意圖等；
SFT：其次，用高質量的軌跡數(shù)據(jù)，讓模型學習如何執(zhí)行真實的下游任務；
RFT：最后，在模型準備 “自由探索” 之前，先由教師軌跡手把手教會模型如何探索，保障了模型后續(xù)在 RL 階段的穩(wěn)定性。

四、大規(guī)模 Agentic RL

1、基于熵的樹剪枝（Entropy Based Tree Pruning）

Kwaipilot 團隊發(fā)現(xiàn)，即便使用上述技術，對完整樹中的所有 token 進行訓練的成本仍然過高，因此亟需設計一種能夠優(yōu)先聚焦于攜帶最強訓練信號節(jié)點的機制。

為此，團隊將軌跡壓縮成一個前綴樹，其中每個節(jié)點表示一個共享前綴，每條邊對應一段 token。在固定的計算預算下，目標是只保留最有價值的節(jié)點進行訓練。團隊基于樹中聚合的熵信號和節(jié)點被到達的可能性來估計節(jié)點的信息量，并按照重要性順序擴展節(jié)點來剪枝樹，直到預算耗盡。額外的啟發(fā)式方法確保保留結構上的重要區(qū)域（例如，工具或內存事件），并維護局部上下文以穩(wěn)定訓練。這種基于熵的剪枝大幅減少冗余計算，同時保留大部分有效的訓練信號，從而實現(xiàn)顯著的吞吐量提升和更低的總體成本。

2、RL infra：自研 SeamlessFlow 框架

圖 4：Kwaipilot 團隊自研的 RL 訓練框架 SeamlessFlow 架構

為擴展 RL，必須將 RL 訓練與智能體的多樣化內部邏輯完全解耦，同時最大化異構計算架構的利用率。遵循 SeamlessFlow 的設計，Kwaipilot 團隊在智能體和 RL 訓練之間設計了一個專門用于軌跡樹管理的中間層，確保兩者之間的嚴格分離。此外，采用提出的標簽驅動調度機制來協(xié)調異構集群中的任務分配，從而最小化管道氣泡并維持高吞吐量訓練。

3、統(tǒng)一環(huán)境接口和企業(yè)級 RL 數(shù)據(jù)構建

Kwaipilot 團隊還通過統(tǒng)一不同 RL 執(zhí)行環(huán)境的部署和評估接口，使任何新添加的環(huán)境都能以低成本無縫集成。這種統(tǒng)一設計為跨異構數(shù)據(jù)源和任務類型擴展 RL 訓練奠定了堅實基礎。具體到軟件開發(fā)場景，團隊聚集于三個基本組件：與相應分支代碼配對的問題描述、可執(zhí)行環(huán)境和可驗證的測試用例。

Kwaipilot 團隊從開源倉庫收集拉取請求和相關問題，并根據(jù)這些倉庫的星標、PR 活動和問題內容過濾低質量數(shù)據(jù)，隨后系統(tǒng)地為每個收集的實例構建可執(zhí)行環(huán)境鏡像并生成單元測試用例。除了軟件工程數(shù)據(jù)，團隊還納入了其他可驗證領域，如數(shù)學和推理任務，進一步豐富了 RL 信號的多樣性。

更重要的是，除了開源數(shù)據(jù)，團隊還進一步收集并利用來自真實世界工業(yè)系統(tǒng)的匿名企業(yè)級代碼庫進行 RL 訓練。與僅在公共倉庫（如 GitHub 上的倉庫）上訓練不同，這些倉庫通常包含較簡單的項目，而這些大規(guī)模、復雜的代碼庫 —— 跨越多種編程語言并代表真實的業(yè)務邏輯 —— 讓模型接觸到更具挑戰(zhàn)性的開發(fā)場景，為 RL 提供了高價值的資產。訓練智能體解決這些真實世界的工業(yè)問題不僅增強了學習的魯棒性，還將所得模型的編程能力建立在現(xiàn)實的生產級環(huán)境中。

圖 5：在 SWE-Bench Verified 上，各階段訓練對模型的性能影響

模型效果展示

KAT-Coder 模型具備強大的代碼生成能力，可獨立完成完整的項目開發(fā)，通過調用編程工具可實現(xiàn)從交互式游戲到代碼重構等多樣化編程任務。用戶僅需描述需求，模型即可交付完整的代碼解決方案。

1、星空效果

2、水果忍者

3、代碼重構

大規(guī)模 Agentic RL 后的涌現(xiàn)能力

對經(jīng)過大規(guī)模 Agentic RL 訓練后的模型進行分析，Kwaipilot 團隊觀測到了兩個顯著的涌現(xiàn)現(xiàn)象：

對話輪次顯著降低：模型傾向于用更少的交互輪次完成任務，相較于 SFT 模型，平均對話輪次下降了 32%；
多工具并行調用：模型展現(xiàn)出同時調用多個工具的能力，而非傳統(tǒng)的串行調用。

團隊推測，這源于軌跡樹結構帶來的隱式優(yōu)化壓力，使模型自然形成效率偏好與并行調用能力。

效率偏好的形成：在軌跡樹結構中，較短的路徑（更少的對話輪次）會被更多的訓練樣本共享。這創(chuàng)造了一個隱式的優(yōu)化壓力：模型傾向于學習更高效的解決方案；
并行化的自然選擇：在樹結構中，多工具并行調用創(chuàng)造了更多的分支可能性，這些分支在訓練時被獨立處理，使得模型能夠同時探索多個工具組合。同時熵剪枝機制（Long-term Entropy Pruning）保留了信息量較大的節(jié)點，而多工具調用節(jié)點往往具有更高的熵值，使模型逐漸學會了 "批處理" 思維。

未來展望

Kwaipilot 團隊將持續(xù)探索代碼智能的前沿領域，開拓創(chuàng)新可能：

增強工具集成：與流行的 IDE、版本控制系統(tǒng)和開發(fā)工作流深度集成，創(chuàng)建無縫的編碼體驗。
多語言擴展：擴展 KAT 模型能力以覆蓋新興的編程語言和框架，確保全面的語言支持。
協(xié)作編碼：探索多智能體系統(tǒng)，讓 KAT 模型能夠在復雜的軟件項目上協(xié)同工作，實現(xiàn)前所未有的協(xié)作。
多模態(tài)代碼智能：集成視覺理解能力，處理架構圖、UI 設計、調試截圖和文檔圖像以及代碼，使開發(fā)過程更加直觀和高效。

原文鏈接：https://kwaipilot.github.io/KAT-Coder/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.