夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Agentic Coding表現(xiàn)創(chuàng)新高,全新KAT系列模型強勢霸榜SWE-Bench

0
分享至



近期,快手 Kwaipilot 團隊推出了KAT 系列兩款突破性 Agentic Coding 大模型開源 32B 參數(shù)模型 KAT-Dev-32B閉源旗艦模型 KAT-Coder

這兩款模型在 Code Intelligence 領域分別體現(xiàn)出輕量級的超強表現(xiàn)和極致性能。其中,在 SWE-Bench Verified 上,KAT-Dev-32B 展現(xiàn)出強勁性能并取得了 62.4% 的解決率,在所有不同規(guī)模的開源模型中排名第 5。與此同時,KAT-Coder 以 73.4% 的解決率在 SWE-Bench Verified 上取得了極佳的單模型表現(xiàn),比肩全球頂尖閉源模型。



圖 1:在 SWE-Bench Verified 上,和全尺寸開源模型對比,KAT-Dev 用極小的模型尺寸取得了第一梯隊的性能



圖 2:在 SWE-Bench Verified 上,KAT-Coder 取得極佳的單模型表現(xiàn),比肩全球頂尖閉源模型性能

模型開源和 API 開放

KAT-Dev-32B 已在開源模型托管平臺 Hugging Face 上線,可供進一步研究和開發(fā)使用。KAT-Coder 模型的 API 密鑰近期也在 “快手萬擎” 企業(yè)級大模型服務與開發(fā)平臺上開放申請,用戶將能夠通過 Claude Code 等工具直接訪問并進行編碼。

  • 快手 Kwaipilot 團隊的官方技術 Blog:https://kwaipilot.github.io/KAT-Coder/
  • KAT-Dev-32B 模型開源地址:https://huggingface.co/Kwaipilot/KAT-Dev
  • KAT-Coder 開發(fā)工具接入指南:https://www.streamlake.com/document/WANQING/me6ymdjrqv8lp4iq0o9
  • KAT-Coder API Key 申請:https://console.streamlake.com/wanqing/

核心貢獻點摘要

KAT-Dev-32B 和 KAT-Coder 在多個訓練階段進行了創(chuàng)新和優(yōu)化,包括 Mid-Training 階段、監(jiān)督微調 (SFT) 階段、強化微調 (RFT) 階段,以及大規(guī)模智能體強化學習 (RL) 階段,具體如下:

  • Mid-Training:Kwaipilot 團隊發(fā)現(xiàn),在這一階段大量增加工具使用能力、多輪交互和指令遵循的訓練,雖然在當前結果上(例如在 SWE-bench 等排行榜)可能不會帶來顯著的性能提升,但對后續(xù)的 SFT 和 RL 階段具有重大影響。
  • SFT & RFT:團隊在 SFT 階段精心策劃了八種任務類型和八種編程場景,以確保模型的泛化能力和綜合能力。此外,在 RL 之前,創(chuàng)新性地引入了 RFT 階段,使用人類工程師標注的 "教師軌跡" 作為訓練期間的指導。
  • 大規(guī)模 Agentic RL:當前,擴展智能體 RL 面臨三個挑戰(zhàn):非線性軌跡歷史的高效學習、利用內在模型信號以及構建可擴展的高吞吐量基礎設施。對此,Kwaipilot 團隊通過對數(shù)概率計算的前綴緩存(Log-Probability Prefix Caching)、基于熵的軌跡剪枝(Entropy-based Tree Pruning)和自研的工業(yè)級規(guī)模強化學習訓練框架 SeamlessFlow 來解決這些問題。

KAT 系列模型的核心技術路線

一、Mid-Training

Kwaipilot 團隊對經(jīng)過預訓練的模型進行了兩階段訓練,該階段被稱為 Mid-Training。在其中的第一個階段,增強了模型與 “LLM-as-Agent” 相關的全方位能力,包括但不限于以下幾種能力:

  • 工具調用能力:構建了在沙盒環(huán)境真實執(zhí)行工具的調用方法以及執(zhí)行結果的交互數(shù)據(jù),用于提升模型的工具調用能力;
  • 多輪交互能力:構建了最長數(shù)百輪的人類、模型、工具的交互數(shù)據(jù),用于提升在長文本情況下模型的多輪交互能力;
  • 編碼知識注入:加入了高質量的與編碼相關的領域知識數(shù)據(jù),用于進一步增強模型在編碼場景下的性能;
  • Git Commit 數(shù)據(jù):加入了大量來自于真實 Git 倉庫的 PR 數(shù)據(jù),用于進一步提升模型在真實編程任務下的表現(xiàn);
  • 指令跟隨數(shù)據(jù):收集了 30 + 類常見的用戶指令,用于增強模型對用戶指令的理解能力;
  • 通用及思考數(shù)據(jù):構建了多類通用數(shù)據(jù),用于增強模型在通用領域以及在調用工具時進行思考的能力。

二、監(jiān)督微調 (Supervised Fine-Tuning, SFT)

在第二階段,Kwaipilot 團隊收集了大量人類工程師標記的真實需求交付軌跡,并基于此合成了大量的軌跡數(shù)據(jù),進一步對模型進行訓練,以增強其端到端需求交付的能力。其中覆蓋了多種任務類型:

八大用戶任務類型:

  • Feature Implementation(功能實現(xiàn))
  • Feature Enhancement(功能增強)
  • Bug Fixing(缺陷修復)
  • Refactoring(結構優(yōu)化)
  • Performance Optimization(性能優(yōu)化)
  • Test Case Generation(測試用例生成)
  • Code Understanding(代碼理解)
  • Configuration & Deployment(配置與部署)

八大用戶編程場景:

  • Application Development(應用開發(fā))
  • UI/UX Engineering(界面與用戶體驗工程)
  • Data Science & Engineering(數(shù)據(jù)科學與工程)
  • Machine Learning & AI(機器學習與人工智能)
  • Database Systems(數(shù)據(jù)庫系統(tǒng))
  • Infrastructure Development(基礎設施開發(fā))
  • Specialized Programming Domains(專業(yè)編程領域)
  • Security Engineering(安全工程)

三、強化微調(Reinforcement Finetune,RFT)

在這一階段,Kwaipilot 團隊在強化學習流程的基礎上,額外引入了多個 ground truth 用于軌跡探索的指導,提升 rollout 效率,從絕對 reward 到衡量與 ground truth 的差異,提升了強化學習階段的效率和穩(wěn)定性。

從直接給定絕對 reward 更新為衡量 rollout 樣本和 ground truth 之間的相對差異給了強化學習更穩(wěn)定和更準確的獎勵信號,同時也會在 rollout 階段實時監(jiān)督樣本的正確性,并及時終止與 ground truth 有明顯偏離的樣本生成,這也給強化學習帶來了更高的樣本效率。



圖 3:在強化微調(RFT)流程中,引入教師軌跡作為指導

經(jīng)過三階段的訓練,團隊獲得了為 RL 階段準備的冷啟動模型,RFT 的加入也為 SFT 和 RL 之間構建了橋梁。

  • Mid-Training:首先,團隊教會大模型各種基本技能,包括如何使用工具、如何理解用戶意圖等;
  • SFT:其次,用高質量的軌跡數(shù)據(jù),讓模型學習如何執(zhí)行真實的下游任務;
  • RFT:最后,在模型準備 “自由探索” 之前,先由教師軌跡手把手教會模型如何探索,保障了模型后續(xù)在 RL 階段的穩(wěn)定性。

四、大規(guī)模 Agentic RL

1、基于熵的樹剪枝(Entropy Based Tree Pruning)

Kwaipilot 團隊發(fā)現(xiàn),即便使用上述技術,對完整樹中的所有 token 進行訓練的成本仍然過高,因此亟需設計一種能夠優(yōu)先聚焦于攜帶最強訓練信號節(jié)點的機制。

為此,團隊將軌跡壓縮成一個前綴樹,其中每個節(jié)點表示一個共享前綴,每條邊對應一段 token。在固定的計算預算下,目標是只保留最有價值的節(jié)點進行訓練。團隊基于樹中聚合的熵信號和節(jié)點被到達的可能性來估計節(jié)點的信息量,并按照重要性順序擴展節(jié)點來剪枝樹,直到預算耗盡。額外的啟發(fā)式方法確保保留結構上的重要區(qū)域(例如,工具或內存事件),并維護局部上下文以穩(wěn)定訓練。這種基于熵的剪枝大幅減少冗余計算,同時保留大部分有效的訓練信號,從而實現(xiàn)顯著的吞吐量提升和更低的總體成本。

2、RL infra:自研 SeamlessFlow 框架



圖 4:Kwaipilot 團隊自研的 RL 訓練框架 SeamlessFlow 架構

為擴展 RL,必須將 RL 訓練與智能體的多樣化內部邏輯完全解耦,同時最大化異構計算架構的利用率。遵循 SeamlessFlow 的設計,Kwaipilot 團隊在智能體和 RL 訓練之間設計了一個專門用于軌跡樹管理的中間層,確保兩者之間的嚴格分離。此外,采用提出的標簽驅動調度機制來協(xié)調異構集群中的任務分配,從而最小化管道氣泡并維持高吞吐量訓練。

3、統(tǒng)一環(huán)境接口和企業(yè)級 RL 數(shù)據(jù)構建

Kwaipilot 團隊還通過統(tǒng)一不同 RL 執(zhí)行環(huán)境的部署和評估接口,使任何新添加的環(huán)境都能以低成本無縫集成。這種統(tǒng)一設計為跨異構數(shù)據(jù)源和任務類型擴展 RL 訓練奠定了堅實基礎。具體到軟件開發(fā)場景,團隊聚集于三個基本組件:與相應分支代碼配對的問題描述、可執(zhí)行環(huán)境和可驗證的測試用例。

Kwaipilot 團隊從開源倉庫收集拉取請求和相關問題,并根據(jù)這些倉庫的星標、PR 活動和問題內容過濾低質量數(shù)據(jù),隨后系統(tǒng)地為每個收集的實例構建可執(zhí)行環(huán)境鏡像并生成單元測試用例。除了軟件工程數(shù)據(jù),團隊還納入了其他可驗證領域,如數(shù)學和推理任務,進一步豐富了 RL 信號的多樣性。

更重要的是,除了開源數(shù)據(jù),團隊還進一步收集并利用來自真實世界工業(yè)系統(tǒng)的匿名企業(yè)級代碼庫進行 RL 訓練。與僅在公共倉庫(如 GitHub 上的倉庫)上訓練不同,這些倉庫通常包含較簡單的項目,而這些大規(guī)模、復雜的代碼庫 —— 跨越多種編程語言并代表真實的業(yè)務邏輯 —— 讓模型接觸到更具挑戰(zhàn)性的開發(fā)場景,為 RL 提供了高價值的資產。訓練智能體解決這些真實世界的工業(yè)問題不僅增強了學習的魯棒性,還將所得模型的編程能力建立在現(xiàn)實的生產級環(huán)境中。



圖 5:在 SWE-Bench Verified 上,各階段訓練對模型的性能影響

模型效果展示

KAT-Coder 模型具備強大的代碼生成能力,可獨立完成完整的項目開發(fā),通過調用編程工具可實現(xiàn)從交互式游戲到代碼重構等多樣化編程任務。用戶僅需描述需求,模型即可交付完整的代碼解決方案。

1、星空效果



2、水果忍者



3、代碼重構



大規(guī)模 Agentic RL 后的涌現(xiàn)能力

對經(jīng)過大規(guī)模 Agentic RL 訓練后的模型進行分析,Kwaipilot 團隊觀測到了兩個顯著的涌現(xiàn)現(xiàn)象:

  1. 對話輪次顯著降低:模型傾向于用更少的交互輪次完成任務,相較于 SFT 模型,平均對話輪次下降了 32%;
  2. 多工具并行調用:模型展現(xiàn)出同時調用多個工具的能力,而非傳統(tǒng)的串行調用。

團隊推測,這源于軌跡樹結構帶來的隱式優(yōu)化壓力,使模型自然形成效率偏好與并行調用能力。

  1. 效率偏好的形成:在軌跡樹結構中,較短的路徑(更少的對話輪次)會被更多的訓練樣本共享。這創(chuàng)造了一個隱式的優(yōu)化壓力:模型傾向于學習更高效的解決方案;
  2. 并行化的自然選擇:在樹結構中,多工具并行調用創(chuàng)造了更多的分支可能性,這些分支在訓練時被獨立處理,使得模型能夠同時探索多個工具組合。同時熵剪枝機制(Long-term Entropy Pruning)保留了信息量較大的節(jié)點,而多工具調用節(jié)點往往具有更高的熵值,使模型逐漸學會了 "批處理" 思維。

未來展望

Kwaipilot 團隊將持續(xù)探索代碼智能的前沿領域,開拓創(chuàng)新可能:

  1. 增強工具集成:與流行的 IDE、版本控制系統(tǒng)和開發(fā)工作流深度集成,創(chuàng)建無縫的編碼體驗。
  2. 多語言擴展:擴展 KAT 模型能力以覆蓋新興的編程語言和框架,確保全面的語言支持。
  3. 協(xié)作編碼:探索多智能體系統(tǒng),讓 KAT 模型能夠在復雜的軟件項目上協(xié)同工作,實現(xiàn)前所未有的協(xié)作。
  4. 多模態(tài)代碼智能:集成視覺理解能力,處理架構圖、UI 設計、調試截圖和文檔圖像以及代碼,使開發(fā)過程更加直觀和高效。

原文鏈接:https://kwaipilot.github.io/KAT-Coder/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
CBA杜鋒或被處罰!禁賽1-4年,接替之人浮現(xiàn),是杜鋒、朱芳雨好友

CBA杜鋒或被處罰!禁賽1-4年,接替之人浮現(xiàn),是杜鋒、朱芳雨好友

漫川舟船
2025-10-03 11:20:35
郵報:為確保家族和睦,貝肯鮑爾遺產被平均分給了遺孀和孩子

郵報:為確保家族和睦,貝肯鮑爾遺產被平均分給了遺孀和孩子

懂球帝
2025-10-03 09:10:08
臺風“麥德姆”逼近!廣東要求:這些人需撤離

臺風“麥德姆”逼近!廣東要求:這些人需撤離

蓬江發(fā)布
2025-10-03 11:17:43
全是假的!央視曝光“新騙局”,已有很多老人上當,建議轉給爸媽

全是假的!央視曝光“新騙局”,已有很多老人上當,建議轉給爸媽

鯨探所長
2025-10-03 16:12:32
不是維爾茨!利物浦中場7場0球0助攻 斯洛特該讓他替補

不是維爾茨!利物浦中場7場0球0助攻 斯洛特該讓他替補

球事百科吖
2025-10-03 16:27:57
巴黎擊敗巴薩后,法國《隊報》毫不留情,點名批評巴薩新星亞馬爾

巴黎擊敗巴薩后,法國《隊報》毫不留情,點名批評巴薩新星亞馬爾

星耀國際足壇
2025-10-02 23:47:31
本拉登被擊斃后,美軍在其房內搜出大量光碟,民眾:偽宗教人士

本拉登被擊斃后,美軍在其房內搜出大量光碟,民眾:偽宗教人士

阿校談史
2025-10-01 19:59:18
10月10日,朝鮮將舉行數(shù)萬人規(guī)模盛大閱兵

10月10日,朝鮮將舉行數(shù)萬人規(guī)模盛大閱兵

IN朝鮮
2025-10-03 14:55:59
你見過哪些悶聲發(fā)大財?shù)男袠I(yè)?網(wǎng)友:做生意的都說自己不賺錢

你見過哪些悶聲發(fā)大財?shù)男袠I(yè)?網(wǎng)友:做生意的都說自己不賺錢

帶你感受人間冷暖
2025-09-25 00:10:08
圖赫爾:不招貝林因為他沒完全恢復,我與福登和格拉利什之間沒有問題

圖赫爾:不招貝林因為他沒完全恢復,我與福登和格拉利什之間沒有問題

懂球帝
2025-10-03 22:15:08
葡萄牙大名單:C羅領銜,維蒂尼亞、萊奧、菲利克斯在列

葡萄牙大名單:C羅領銜,維蒂尼亞、萊奧、菲利克斯在列

雷速體育
2025-10-03 19:38:05
小勒布倫打瘋了!4-2終結國乒小將黑馬旅程,獲勝后激動扔拍揮拳

小勒布倫打瘋了!4-2終結國乒小將黑馬旅程,獲勝后激動扔拍揮拳

乒談
2025-10-03 20:12:34
1200億砸向湖南鄉(xiāng)村整治,農村要火了,看看有你的家鄉(xiāng)嗎

1200億砸向湖南鄉(xiāng)村整治,農村要火了,看看有你的家鄉(xiāng)嗎

特特農村生活
2025-10-03 11:28:25
乒壇名將馮天薇38歲至今未婚,賽場成績輝煌,卻被新加坡乒協(xié)除名

乒壇名將馮天薇38歲至今未婚,賽場成績輝煌,卻被新加坡乒協(xié)除名

查爾菲的筆記
2025-10-03 01:09:16
宗馥莉“心腹”嚴學峰被查:21億美元信托打開了娃哈哈潘多拉魔

宗馥莉“心腹”嚴學峰被查:21億美元信托打開了娃哈哈潘多拉魔

恪守原則和底線
2025-10-03 13:38:09
以色列警告:這是最后機會!

以色列警告:這是最后機會!

環(huán)球時報國際
2025-10-02 16:02:01
安德森:對玉昆提前保級很滿意,李小恒很優(yōu)秀很有天賦

安德森:對玉昆提前保級很滿意,李小恒很優(yōu)秀很有天賦

雷速體育
2025-10-03 22:15:17
尼克松晚年坦言:他后悔當年訪問中國,只因毛主席識破了他的計謀

尼克松晚年坦言:他后悔當年訪問中國,只因毛主席識破了他的計謀

胥言
2025-09-28 13:36:11
3比0!狂轟11比4!向鵬洗刷0比11慘敗恥辱,挑戰(zhàn)王楚欽霸主地位?

3比0!狂轟11比4!向鵬洗刷0比11慘敗恥辱,挑戰(zhàn)王楚欽霸主地位?

小鬼頭體育
2025-10-03 14:01:06
8.5億豪陣,C羅領銜!葡萄牙公布最新大名單,黃金一代劍指世界杯

8.5億豪陣,C羅領銜!葡萄牙公布最新大名單,黃金一代劍指世界杯

小金體壇大視野
2025-10-03 21:34:31
2025-10-03 23:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11396文章數(shù) 142464關注度
往期回顧 全部

科技要聞

OpenAI硬剛馬斯克:別用訴訟欺負我的人

頭條要聞

金融反腐9月至少8人被查 涉2名中管干部

頭條要聞

金融反腐9月至少8人被查 涉2名中管干部

體育要聞

四冠中鋒,比所有人更早開始新賽季

娛樂要聞

繼王晶、向太后 周杰再曝潛規(guī)則

財經(jīng)要聞

國家出手!三大世界級城市群定了

汽車要聞

元戎啟行9月合作車型 交付量突破3萬臺

態(tài)度原創(chuàng)

教育
手機
房產
數(shù)碼
藝術

教育要聞

超半數(shù)初學者犯錯!初中物理電路圖連接題,一招永久解決問題

手機要聞

小米多款應用上島,優(yōu)化妙享背屏體驗

房產要聞

買房必看!十一廣州置業(yè)攻略,熱門項目優(yōu)惠提前曝光!

數(shù)碼要聞

聯(lián)蕓介紹 SSD 主控進展:MAP1606 即將推出、MAP1802 年底量產

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 国产熟女大屁股喷水91精品| 欧美操小逼逼网站| 欧美一区二区三区四区五区六区七区黄色电影 | 狠狠色狠狠色综合| 狠狠人妻久久久久久综合| 暴操人妻av| 亚洲av无码精品色午夜蛋壳| 中文字幕你懂的| 国产高清在线精品一区αpp| 69国产成人综合久久精品 | 亚洲熟少妇精品| 亚洲人人操人| 久久国产午夜精品理论片| 无码人妻aⅴ一区二区三区视频 | 国产av激情无码久久天堂 | 亚洲av激情一区二区三区| 日韩有码一区二区三区| 国产伦精一区二区三区四区| 久久精品国产热| 俺来也俺去啦最新在线小说| 中文字幕无码视频专区| 伊人伊成久久人综合网996| 国产亚洲精品第一综合麻豆| 国产又黄又爽又色又刺激视频| 国产三级韩国三级日产三级| 国产成人vr精品a视频| 国产睡熟迷奷系列网站| 97久久免费视频| 国产亚洲TV| 鸭子tv国产在线永久播放| 色va永久地址| 国产精鲁鲁网在线视频| 俺也去色中色| 久久精品国产9久久综合| 91精品国产免费青青碰在线观看 | 久久久久久亚洲中文字幕无码| 久久精品国产亚洲精品2020| 在线观看资源天堂国产视频| 性色av色香蕉一区二区三区| www.狠狠干| 亚洲无码视频一区二区三区|