智東西
作者 陳駿達(dá)
編輯 云鵬
美團(tuán)龍貓大模型,現(xiàn)在會思考了!
智東西9月22日報(bào)道,最近,美團(tuán)在AI開源賽道上在猛踩加速。今天,在開源其首款大語言模型僅僅24天后,美團(tuán)又開源了其首款自研推理模型LongCat-Flash-Thinking。
與其基礎(chǔ)模型LongCat-Flash類似,效率也是LongCat-Flash-Thinking的最大特點(diǎn)。美團(tuán)在技術(shù)報(bào)告中透露,LongCat-Flash-Thinking在自研的DORA強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施完成訓(xùn)練,直接將訓(xùn)練速度提升到原來的3倍還多,增幅超過200%。該模型重點(diǎn)優(yōu)化了形式推理和Agent推理任務(wù),使用工具后推理效率很高,例如,可將AIME-25基準(zhǔn)測試中的平均token消耗減少64.5%。
LongCat-Flash-Thinking在多領(lǐng)域基準(zhǔn)測試中表現(xiàn)出不俗的實(shí)力:
在通用問答、數(shù)學(xué)推理、通用推理的相關(guān)測試中,它和GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等基本打平;
LongCat-Flash-Thinking還在安全、形式化定理證明等領(lǐng)域的多項(xiàng)基準(zhǔn)測試中,大幅度領(lǐng)先上述4款推理模型,并在權(quán)威Agent工具調(diào)用基準(zhǔn)測試τ2-Bench中,超越除了GPT-5-Thinking外的所有參評模型。
目前,LongCat-Flash-Thinking模型已經(jīng)開源至GitHub、Hugging Face等平臺,相關(guān)技術(shù)報(bào)告也同期發(fā)布,用戶也可在體驗(yàn)鏈接中直接使用。不過,在實(shí)際體驗(yàn)中,模型推理和回答長度往往會超出體驗(yàn)鏈接里的限制,導(dǎo)致答案不完整。
開源地址:
https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
https://github.com/meituan-longcat/LongCat-Flash-Thinking
體驗(yàn)鏈接:
https://longcat.chat/
一、靠課程學(xué)習(xí)逐步構(gòu)建能力,Agent和形式化推理能力獲補(bǔ)強(qiáng)
在模型預(yù)訓(xùn)練階段,LongCat團(tuán)隊(duì)采用了課程學(xué)習(xí)的方式,讓模型先打基礎(chǔ),再專項(xiàng)突破,最終構(gòu)建出覆蓋廣度與深度的推理能力。
LongCat-Flash-Thinking是在LongCat-Flash的基礎(chǔ)上訓(xùn)練而來的,經(jīng)歷了推理增強(qiáng)的中期訓(xùn)練(Mid-training)和面向推理的有監(jiān)督微調(diào)(SFT)。
研究團(tuán)隊(duì)特別構(gòu)建了一個高難度的推理訓(xùn)練集,涵蓋數(shù)學(xué)、物理、化學(xué)及編程問題,并通過數(shù)據(jù)比例控制,確保模型既能強(qiáng)化邏輯推理,又不丟失通用能力。
實(shí)驗(yàn)表明,這一階段顯著拓寬了模型的“推理邊界”:在AIME、BeyondAIME和LiveCodeBench等基準(zhǔn)上,單步準(zhǔn)確率和高采樣準(zhǔn)確率均有大幅提升。
進(jìn)入SFT微調(diào)階段,LongCat-Flash-Thinking的指令遵循和專業(yè)領(lǐng)域推理能力得到進(jìn)一步提升。這一步驟特別強(qiáng)調(diào)三大方向:
1、一般推理:LongCat團(tuán)隊(duì)整合跨學(xué)科高質(zhì)量問題與答案,涵蓋STEM、編程、通用問答以及邏輯推理,利用拒絕采樣與模型評審保證訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和挑戰(zhàn)性。
2、形式化推理:該團(tuán)隊(duì)還設(shè)計(jì)了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法,利用集成了Lean4服務(wù)器的專家迭代框架,生成經(jīng)過嚴(yán)格驗(yàn)證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。
3、Agentic推理:LongCat團(tuán)隊(duì)提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠比較模型在“有工具”和“無工具”條件下的表現(xiàn),篩選出僅依賴工具才能解決的高質(zhì)量問題。
隨后,系統(tǒng)自動合成多樣化的解題軌跡,從簡單調(diào)用到復(fù)雜多步流程,并通過嚴(yán)格評審確保邏輯一致性和工具使用完整性。最終,軌跡被標(biāo)準(zhǔn)化并按復(fù)雜度分層,用于課程訓(xùn)練,幫助模型在真實(shí)場景中更好地學(xué)習(xí)和發(fā)展穩(wěn)健的工具使用能力。
這種中期訓(xùn)練、推理微調(diào)的兩段式體系,幫助LongCat-Flash-Thinking在推理任務(wù)中實(shí)現(xiàn)性能提升,也為后續(xù)的強(qiáng)化學(xué)習(xí)做好準(zhǔn)備。
二、三管齊下優(yōu)化強(qiáng)化學(xué)習(xí),自研DORA框架提效超200%
強(qiáng)化學(xué)習(xí)中,LongCat-Flash-Thinking采用了一套“三管齊下”的方案,從系統(tǒng)、算法和獎勵的角度,提升強(qiáng)化學(xué)習(xí)的效率和穩(wěn)定性。
在系統(tǒng)設(shè)計(jì)中,LongCat團(tuán)隊(duì)構(gòu)建了名為DORA的分布式RL框架,這是RL訓(xùn)練的基石。DORA支持異步訓(xùn)練與靈活的加速器調(diào)度,既保證穩(wěn)定性,又提升效率。
DORA通過流式架構(gòu)讓已完成的響應(yīng)立即進(jìn)入訓(xùn)練,而不會被最長輸出拖慢;通過多版本策略保證同一響應(yīng)由同一模型版本完成,避免推理片段間的不一致;再結(jié)合彈性角色調(diào)度,讓不同算力設(shè)備可靈活切換角色,實(shí)現(xiàn)近乎零閑置。
這一機(jī)制在大規(guī)模算力集群上展現(xiàn)了較高的效率:在數(shù)萬張加速卡上,LongCat-Flash的RL訓(xùn)練速度達(dá)到傳統(tǒng)同步方式的3倍以上,FLOPs(Floating Point Operations,浮點(diǎn)運(yùn)算數(shù))的投入約為預(yù)訓(xùn)練階段的20%。
算法層面,團(tuán)隊(duì)則對經(jīng)典的PPO方法進(jìn)行改良。異步訓(xùn)練常因推理引擎與訓(xùn)練引擎的數(shù)值差異,或因舊版本策略生成的數(shù)據(jù)過多而導(dǎo)致模型收斂不穩(wěn)。
為此,研究人員引入了截?cái)嘀匾圆蓸觼砭徑庖娌町悗淼恼`差,并設(shè)計(jì)了裁剪機(jī)制,對正負(fù)樣本分別設(shè)置不同閾值。這些細(xì)節(jié)調(diào)整,大大提高了推理任務(wù)下的穩(wěn)定性。
獎勵機(jī)制是RL的方向盤。對于寫作、問答等無法直接驗(yàn)證的任務(wù),團(tuán)隊(duì)訓(xùn)練了判別式獎勵模型,基于人機(jī)聯(lián)合標(biāo)注數(shù)據(jù),學(xué)會判斷優(yōu)劣偏好。
而在數(shù)學(xué)與編程等可驗(yàn)證場景,則引入了生成式獎勵模型(GenRM),它不僅能判斷對錯,還能給出推理鏈路,做到有理有據(jù)。在編程任務(wù)中,團(tuán)隊(duì)還搭建了分布式沙箱系統(tǒng),支持?jǐn)?shù)百萬次并發(fā)代碼執(zhí)行,覆蓋20多種編程語言。
最后,LongCat團(tuán)隊(duì)提出了一個三階段的訓(xùn)練配方:領(lǐng)域平行訓(xùn)練、模型融合、通用RL微調(diào)。LongCat團(tuán)隊(duì)先分別訓(xùn)練數(shù)學(xué)、編程、智能體等專家模型,再通過參數(shù)融合技術(shù)合并為統(tǒng)一大模型,最后用多樣化數(shù)據(jù)進(jìn)行通用微調(diào),避免融合后的性能退化,確保安全性、泛化性和實(shí)用性。
▲融合后的模型性能優(yōu)于專家模型
三、MATH-500得分接近滿分,用上工具后性價(jià)比更高
LongCat-Flash-Thinking在多領(lǐng)域的基準(zhǔn)測試中表現(xiàn)出色。
在通用能力上,LongCat-Flash-Thinking在MMLU-Redux上拿下89.3%的成績,與業(yè)內(nèi)多款頂級開源模型處在同一水準(zhǔn),但與OpenAI-o3相比仍有差距。
數(shù)學(xué)推理是該模型的亮點(diǎn)之一。其在MATH-500中取得99.2%的高分,幾乎達(dá)到滿分水平。在更具挑戰(zhàn)性的AIME與HMMT等競賽級任務(wù)中,同樣展現(xiàn)出接近甚至超越GPT-5與Qwen3的表現(xiàn),凸顯其復(fù)雜多步推理的強(qiáng)大能力。
在邏輯與一般推理方面,該模型在ARC-AGI上達(dá)到50.3%,超過了OpenAI-o3與Gemini 2.5-Pro。同時,它在解謎任務(wù)ZebraLogic上得分高達(dá)95.5%,并在數(shù)獨(dú)測試Sudoku-Bench上遠(yuǎn)超大部分模型,顯示出較強(qiáng)的結(jié)構(gòu)化推理能力。
編程能力方面,LongCat-Flash-Thinking在動態(tài)編程測試LiveCodeBench中取得79.4%的分?jǐn)?shù),緊追GPT-5,遠(yuǎn)超開源同類模型。
值得注意的是,LongCat-Flash-Thinking模型在工具增強(qiáng)推理能力上表現(xiàn)出色。例如,它在模擬預(yù)定飛機(jī)票的τ2-Bench-Airline中,實(shí)現(xiàn)67.5%的最佳成績,并在SWE-Bench、BFCL等任務(wù)上保持較強(qiáng)的競爭力。
啟用外部工具后,其在AIME-25基準(zhǔn)測試中的準(zhǔn)確率保持不變,但平均token消耗減少近65%,驗(yàn)證了智能體系統(tǒng)在效率與性能間實(shí)現(xiàn)平衡。
在定理證明領(lǐng)域,LongCat-Flash-Thinking在MiniF2F測試中得分達(dá)67.6%,比次優(yōu)模型高出18%,奠定了其在形式化數(shù)學(xué)推理上的領(lǐng)先地位。
最后,在安全性上,LongCat-Flash-Thinking在有害內(nèi)容、犯罪、虛假信息及隱私四類風(fēng)險(xiǎn)測試中均拿下安全性最高分。
結(jié)語:切入真實(shí)場景,美團(tuán)探索推理大模型落地路徑
LongCat團(tuán)隊(duì)稱,憑借LongCat-Flash-Thinking的開源,他們希望進(jìn)一步推動高效RL訓(xùn)練、原生Agent推理等方面的研究。
從論文的技術(shù)細(xì)節(jié)中,我們也能看到,LongCat有針對性地提升了模型在工具使用、指令遵循和安全性等方面的表現(xiàn)。
結(jié)合美團(tuán)最近在面向消費(fèi)者的Agent產(chǎn)品、AI搜索產(chǎn)品等領(lǐng)域的動態(tài),不難預(yù)見,這些新模型或?qū)⑨槍π缘胤?wù)于美團(tuán)自身業(yè)務(wù),帶來更智能的用戶體驗(yàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.