始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價格實惠,靈活方便,支持在線微調(diào)訓練模型,及和,并。
快手發(fā)布并開源了KAT-V1 自動思考(AutoThink)大模型,這是一款融合思考與非思考能力、并且可以根據(jù)問題難度自動切換思考形態(tài)的模型。該團隊不僅提出了一種全新的長短思考混合模型訓練范式,還基于傳統(tǒng)強化學習算法(GRPO),提出了帶有新型強化學習方法Step-SRPO,進一步提升了模型輸出token的思考密度以及對是否應該開啟思考模式的判斷力,40B 性能逼近 R1-0528,200B 性能飛躍。KAT-V1已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。
模型地址
https://wisemodel.cn/models/Kwaipilot/KAT-V1-40B
01.
模型能力
KAT-V1模型共有40B和200B兩個版本。在自動思考模式下,40B版本的性能可追平今年5月發(fā)布的新版DeepSeek-R1(參數(shù)量為6850億)。而200B版本的模型,則在多項基準測試中超過了Qwen、DeepSeek和Llama這三大開源模型家族中的旗艦模型。
在號稱無法作弊的競賽級實時基準測試 LiveCodeBench Pro上,KAT-V1也以40B的參數(shù)成功躋身于閉源模型之列,超越一眾思考/非思考的開源模型:
02.
模型介紹
一、推理模型過度思考問題凸顯,如何讓AI學會自主判斷?
自OpenAI推出o系列模型以來,通過工程設計和后訓練技術(shù),讓模型在回答問題前進行更深入的思考、推理和規(guī)劃,已經(jīng)成為智能水平提升的重要路徑。
然而,在實際體驗中,推理模型“凡事都要先思考”的運行模式,演變成了“過度思考”的問題:模型機械地展開冗長的推理鏈,缺乏靈活的判斷能力。
在問及簡單事實性問題時,推理模型也會過度思考
推理模型的這種思考模式,其實與人類日常的思考模式大相徑庭,人類往往先基于直覺或經(jīng)驗做出快速判斷,再在需要時進行深入的思考。
“過度思考”現(xiàn)象不僅顯著拉長了響應時間,讓用戶感到“笨重”、“遲鈍”,還會在問及簡單事實性問題時帶來明顯負面體驗。對于需要快速、直接反饋的場景(如客服問答、代碼調(diào)試),這種延遲會降低滿意度和使用意愿。同時,大模型“過度思考”還會顯著增加推理所需的計算資源和能源消耗,導致運算成本上升。對面向C端的大規(guī)模部署來說,這種浪費尤為突出。
為了“顯得在思考”,模型還有可能在中間步驟生成并不準確或邏輯矛盾的內(nèi)容。這些內(nèi)容若被用戶誤解為可靠推理,反而增加了錯誤決策的風險。
已經(jīng)有不少模型廠商注意到了“過度思考”的挑戰(zhàn)。谷歌為Gemini引入了思考預算組件,允許開發(fā)者選擇模型的思考長度;Anthropic則將Claude 4模型做成了混合推理模型,用戶無需切換模型,即可自主選擇是否開啟推理。
不過,上述流程仍需要人類的參與和配置。要更為系統(tǒng)性地解決推理模型的“過度思考”問題,研究者還需要探索如何讓模型根據(jù)任務復雜度自主決定是否思考,實現(xiàn)更靈活、高效的人機協(xié)作。
快手Kwaipilot團隊已在今年6月初發(fā)布了上述問題的初步解決方案——KwaiCoder-AutoThink-preview,雖然名字是Coder但具備通用模型能力,KAT-V1在其基礎之上針對推理能力進行了重點優(yōu)化。
二、高質(zhì)量數(shù)據(jù)+模型知識蒸餾+MTP,1/30成本完成模型的冷啟動
KAT-V1模型由Qwen2.5-32B擴展而來,通過分層定向擴展的策略,將模型參數(shù)量有選擇地擴展到40B,減少了無效的參數(shù)增長,實現(xiàn)規(guī)模與計算效率的平衡。
在KAT-V1模型的預訓練階段,Kwaipilot團隊構(gòu)造了大量的思考/非思考數(shù)據(jù)。對于非思考數(shù)據(jù),為了保證問題的廣泛性,他們從預先收集的5TB tokens預訓練數(shù)據(jù)中,抽取出部分帶有推理特征、具有一定難度的多領域數(shù)據(jù)。
思考數(shù)據(jù)則使用一個Agentic框架來合成。該框架由解答者(solver)、思考者(thinker)和評論者(critic)組成。解答者先提供初步答案,思考者對解決方案進行反思和迭代改進,評論者對整個流程進行監(jiān)督,以保證邏輯一致性和輸出質(zhì)量。
這一框架可在一定程度上提升合成數(shù)據(jù)的質(zhì)量——只有經(jīng)過核驗的高質(zhì)量合成數(shù)據(jù)才能被保留,并轉(zhuǎn)化為長思維鏈(long-CoT)數(shù)據(jù)。
預訓練階段,Kwaipilot團隊使用了大約1000萬個示例的語料,其中約34.8%的數(shù)據(jù)為思考數(shù)據(jù),約65.2%的數(shù)據(jù)為非思考數(shù)據(jù)。這些數(shù)據(jù)涵蓋了科學、代碼、數(shù)學、工具調(diào)用和通用知識等廣泛領域,給模型的能力泛化提供基礎。
Kwaipilot團隊選擇通過模型蒸餾的方式完成模型的初始化冷啟動——先讓一個大型教師模型在輸入數(shù)據(jù)上輸出詳細的概率分布,再讓較小的學生模型在相同輸入下產(chǎn)生預測,通過最小化兩者之間的差異,使學生模型學習教師模型的預測模式和知識。
不過,KAT-V1采用了獨特的異構(gòu)蒸餾框架,能夠更高效地將教師模型的知識傳遞給學生模型。該框架由通用Logits蒸餾損失(ULD Loss)和多Token預測(MTP)兩大模塊組成。
其中,MTP模塊使學生模型在一次計算中不僅能預測下一個Token,還能同時預測多個后續(xù)Token,從而增強模型對“未來收益”的理解。通俗地說,多Token預測讓模型學會做出有利于整個序列長遠表現(xiàn)的決策,提高了預測的準確性和學習效率。
在多種對齊方式中(如對齊embedding層或語言模型輸出等),Kwaipilot團隊發(fā)現(xiàn),對齊Token級別的logits效果最好,這就是通用Logits蒸餾損失(ULD Loss)的核心。
教師模型在生成每個Token(如Token A、B、C)時,會輸出對應的logits(即模型預測該Token的原始分數(shù)),并將其作為監(jiān)督信號傳遞給學生模型的MTP模塊。ULD Loss則彌合了正常序列預測與并行預測之間的差異,使得即便模型架構(gòu)不同,也能靈活實現(xiàn)知識遷移。
整體上,這個設計大大提高了知識遷移的效率,讓小模型在冷啟動時用較少算力就能快速獲得較好的性能。Kwaipilot團隊透露,他們以傳統(tǒng)方法1/30的成本,完成了模型的冷啟初始化。
三、優(yōu)化GRPO算法實現(xiàn)高效RL,激發(fā)模型智能選擇思考模式
在預訓練階段,模型已經(jīng)通過思考、非思考數(shù)據(jù)的注入,學會了在得到外部指令時,被動切換思考模式。而后訓練階段的目標,則是讓KAT-V1學會根據(jù)輸入查詢,自動確定適合的思考模式。
SFT for AutoThink
Kwaipilot團隊通過結(jié)構(gòu)化的數(shù)據(jù)合成流程,讓模型學會在Think-on(思考)和Think-off(非思考)兩種模式之間做出選擇。每個查詢先由多個模型投票決定適合的推理模式,再分別用DeepSeek-R1或DeepSeek-V3生成回答,確保內(nèi)容多樣且契合任務。
同時,為提升模型對思考模式的理解,每條樣本還由DeepSeek-V3生成解釋說明合理性,作為額外訓練信號,并將約1%的數(shù)據(jù)隨機分配模式防止過擬合。所有數(shù)據(jù)都使用統(tǒng)一模板,包含對是否需要推理的判斷、(如需推理時的)推理過程及最終回答,使模型既能判斷是否推理,又能清晰區(qū)分分析與作答。
這些數(shù)據(jù)讓模型學會了如何判斷用戶意圖以及問題難度,并決定如何思考后再進行回答。經(jīng)過冷啟 SFT,KAT-V1可以在需要思考的困難榜單上達到DeepSeek-R1-0528 95%以上的性能;在較為簡單的榜單上,由于模型自我決定部分問題進行深度思考,而出現(xiàn)10%-30%的性能漲幅。
RL via Step-SRPO
僅通過精細化數(shù)據(jù) SFT 所獲得的判斷能力受到數(shù)據(jù)制約,其智能程度和靈活性仍然受限,泛化性也還不夠強。
為讓模型的思考判斷更加智能,Kwaipilot團隊需要進行強化學習。最初,他們采用傳統(tǒng)強化學習算法GRPO進行端到端強化學習,希望讓模型更智能地判斷是否需要思考。但由于GRPO缺乏清晰的過程監(jiān)督,訓練中出現(xiàn)了不穩(wěn)定現(xiàn)象,比如模型表面上判斷應開啟思考模式,最終卻不進行推理,或者在簡單的代碼和數(shù)學題上也頻繁啟動推理。
最終,Kwaipilot團隊提出了一種分布式獎勵的強化學習算法:Step-SRPO。在Step-SRPO框架中,模型先進行“推理必要性評估”,判斷每個問題是否需要深入思考,以避免對簡單問題浪費計算資源。
隨后,通過雙重獎勵機制引導學習:判斷獎勵(Judge Reward)根據(jù)模型是否正確選擇推理模式打分,鼓勵準確判斷推理需求;答案獎勵(Answer Reward)依據(jù)最終回答的正確性和質(zhì)量進行評分,并結(jié)合判斷獎勵進行調(diào)整,確?;卮鹳|(zhì)量和推理選擇相一致。
數(shù)據(jù)顯示,由于強化學習的獎勵策略,模型選擇思考模式的比例不斷降低。
模型在訓練階段,由于強化學習的獎勵策略,模型開啟think-on的比例不斷降低
這種趨勢在測試集上的表現(xiàn)更為明顯,模型在多個測試集的平均token數(shù)下降了20%-30%,其中復雜推理榜單(例如AIME 2025/2024、LCB、GPQA) 變化趨勢最小,但是相對簡易榜單的比例下降趨勢更為明顯。
模型在測試集合,模型開啟think-on的比例不斷降低
Step-SRPO讓模型在訓練中逐步學會既能保持高準確性,也能根據(jù)問題難度靈活調(diào)整推理深度,最終實現(xiàn)在模型性能上漲的前提下,還能進一步降低token的使用,提升了模型輸出token的思考密度以及對是否應該開啟思考模式判斷的智能程度。
強化學習訓練后,KAT-V1 40B成功學會了自動在某些簡單問題上切換到非思考模式,模型性能在保持和DeepSeek-R1-0528接近的水位下,平均token消耗降低。
03.
模型實測復雜推理能力
1、小球在六邊形內(nèi)運動
這里以前段時間較火的小球問題舉例,讓大模型寫一個程序,模擬小球的運動。
"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically" (編寫一個Python程序,展示一個在旋轉(zhuǎn)六邊形內(nèi)彈跳的小球。小球需受重力和摩擦力影響,并能夠根據(jù)旋轉(zhuǎn)的六邊形墻壁實現(xiàn)真實碰撞反彈效果。)
KAT-V1-40B 編寫的小球運動代碼表現(xiàn)自然,且比較真實的反映了物理世界中重力和摩擦力的影響,滿足了題目的要求。
對比O3-mini與DeepSeek-R1 生成的代碼看起來也更流暢自然。
為了測試模型的多輪對話能力,我們給題目的難度再升升級,讓模型能夠模擬小球尾跡,并且當用戶按下空格時,小球數(shù)量增加,并且希望模型可以正確處理小球之間的碰撞,再經(jīng)過新一輪的對話后,模型寫出了以下代碼:
2、代碼生成
在代碼生成方向,由于編程相關(guān)問題往往更加復雜,而這種 “pre-think” 的推理形態(tài)也展現(xiàn)出更強大的問題理解能力以及規(guī)劃能力。
在復雜的SQL優(yōu)化例子中,KAT-V1-40B自動啟動其思考模式。在15秒的思考時間內(nèi),提供了結(jié)構(gòu)化的多步驟分析,而另一款推理模型則需要53秒,KAT-V1-40B還給出了問題的分析和路徑的規(guī)劃,在深度、架構(gòu)洞察力和可擴展性建議方面要優(yōu)于另一款推理模型。
在處理不需要思考的問題時,最先進的推理模型仍然會進行不必要的逐步分析,生成近400個token的冗長回復,并產(chǎn)生額外的17秒延遲。相比之下,KAT-V1-40B 正確地識別了任務的簡單性,迅速激活了非思考模式,并生成了高質(zhì)量的回復,這種特性進一步鞏固了其在實際部署中的實用價值:
當前的思考模型相比非思考模型,往往在復雜場景不能很好的識別用戶意圖。而在這種場景下,由于這種“pre-think”的過程存在,往往能結(jié)合用戶意圖和問題進行更詳細的方案設計與規(guī)劃。除了自主思考控制之外,KAT模型還支持用戶通過簡單的意圖指令(例如顯式的思考或非思考偏好)來引導模型是否開啟思考模式:
KAT-V1的思考形態(tài)也適配了智能體模式,模型可以在多智能體的場景中,準確地在思考與非思考之間切換。以下是一個模型和Kwaipilot產(chǎn)品中 智能體代碼生成功能協(xié)同作用的例子:
編輯丨趙雅鑫
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.