美團(tuán)王興，又開源一款大模型！

2025-09-22 19:21:11　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯云鵬

美團(tuán)龍貓大模型，現(xiàn)在會思考了！

智東西9月22日報(bào)道，最近，美團(tuán)在AI開源賽道上在猛踩加速。今天，在開源其首款大語言模型僅僅24天后，美團(tuán)又開源了其首款自研推理模型LongCat-Flash-Thinking。

與其基礎(chǔ)模型LongCat-Flash類似，效率也是LongCat-Flash-Thinking的最大特點(diǎn)。美團(tuán)在技術(shù)報(bào)告中透露，LongCat-Flash-Thinking在自研的DORA強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施完成訓(xùn)練，直接將訓(xùn)練速度提升到原來的3倍還多，增幅超過200%。該模型重點(diǎn)優(yōu)化了形式推理和Agent推理任務(wù)，使用工具后推理效率很高，例如，可將AIME-25基準(zhǔn)測試中的平均token消耗減少64.5%。

LongCat-Flash-Thinking在多領(lǐng)域基準(zhǔn)測試中表現(xiàn)出不俗的實(shí)力：

在通用問答、數(shù)學(xué)推理、通用推理的相關(guān)測試中，它和GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等基本打平；

LongCat-Flash-Thinking還在安全、形式化定理證明等領(lǐng)域的多項(xiàng)基準(zhǔn)測試中，大幅度領(lǐng)先上述4款推理模型，并在權(quán)威Agent工具調(diào)用基準(zhǔn)測試τ2-Bench中，超越除了GPT-5-Thinking外的所有參評模型。

目前，LongCat-Flash-Thinking模型已經(jīng)開源至GitHub、Hugging Face等平臺，相關(guān)技術(shù)報(bào)告也同期發(fā)布，用戶也可在體驗(yàn)鏈接中直接使用。不過，在實(shí)際體驗(yàn)中，模型推理和回答長度往往會超出體驗(yàn)鏈接里的限制，導(dǎo)致答案不完整。

開源地址：

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

https://github.com/meituan-longcat/LongCat-Flash-Thinking

體驗(yàn)鏈接：

https://longcat.chat/

一、靠課程學(xué)習(xí)逐步構(gòu)建能力，Agent和形式化推理能力獲補(bǔ)強(qiáng)

在模型預(yù)訓(xùn)練階段，LongCat團(tuán)隊(duì)采用了課程學(xué)習(xí)的方式，讓模型先打基礎(chǔ)，再專項(xiàng)突破，最終構(gòu)建出覆蓋廣度與深度的推理能力。

LongCat-Flash-Thinking是在LongCat-Flash的基礎(chǔ)上訓(xùn)練而來的，經(jīng)歷了推理增強(qiáng)的中期訓(xùn)練（Mid-training）和面向推理的有監(jiān)督微調(diào)（SFT）。

研究團(tuán)隊(duì)特別構(gòu)建了一個高難度的推理訓(xùn)練集，涵蓋數(shù)學(xué)、物理、化學(xué)及編程問題，并通過數(shù)據(jù)比例控制，確保模型既能強(qiáng)化邏輯推理，又不丟失通用能力。

實(shí)驗(yàn)表明，這一階段顯著拓寬了模型的“推理邊界”：在AIME、BeyondAIME和LiveCodeBench等基準(zhǔn)上，單步準(zhǔn)確率和高采樣準(zhǔn)確率均有大幅提升。

進(jìn)入SFT微調(diào)階段，LongCat-Flash-Thinking的指令遵循和專業(yè)領(lǐng)域推理能力得到進(jìn)一步提升。這一步驟特別強(qiáng)調(diào)三大方向：

1、一般推理：LongCat團(tuán)隊(duì)整合跨學(xué)科高質(zhì)量問題與答案，涵蓋STEM、編程、通用問答以及邏輯推理，利用拒絕采樣與模型評審保證訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和挑戰(zhàn)性。

2、形式化推理：該團(tuán)隊(duì)還設(shè)計(jì)了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法，利用集成了Lean4服務(wù)器的專家迭代框架，生成經(jīng)過嚴(yán)格驗(yàn)證的證明過程，從而系統(tǒng)性提升模型的形式化推理能力。

3、Agentic推理：LongCat團(tuán)隊(duì)提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠比較模型在“有工具”和“無工具”條件下的表現(xiàn)，篩選出僅依賴工具才能解決的高質(zhì)量問題。

隨后，系統(tǒng)自動合成多樣化的解題軌跡，從簡單調(diào)用到復(fù)雜多步流程，并通過嚴(yán)格評審確保邏輯一致性和工具使用完整性。最終，軌跡被標(biāo)準(zhǔn)化并按復(fù)雜度分層，用于課程訓(xùn)練，幫助模型在真實(shí)場景中更好地學(xué)習(xí)和發(fā)展穩(wěn)健的工具使用能力。

這種中期訓(xùn)練、推理微調(diào)的兩段式體系，幫助LongCat-Flash-Thinking在推理任務(wù)中實(shí)現(xiàn)性能提升，也為后續(xù)的強(qiáng)化學(xué)習(xí)做好準(zhǔn)備。

二、三管齊下優(yōu)化強(qiáng)化學(xué)習(xí)，自研DORA框架提效超200%

強(qiáng)化學(xué)習(xí)中，LongCat-Flash-Thinking采用了一套“三管齊下”的方案，從系統(tǒng)、算法和獎勵的角度，提升強(qiáng)化學(xué)習(xí)的效率和穩(wěn)定性。

在系統(tǒng)設(shè)計(jì)中，LongCat團(tuán)隊(duì)構(gòu)建了名為DORA的分布式RL框架，這是RL訓(xùn)練的基石。DORA支持異步訓(xùn)練與靈活的加速器調(diào)度，既保證穩(wěn)定性，又提升效率。

DORA通過流式架構(gòu)讓已完成的響應(yīng)立即進(jìn)入訓(xùn)練，而不會被最長輸出拖慢；通過多版本策略保證同一響應(yīng)由同一模型版本完成，避免推理片段間的不一致；再結(jié)合彈性角色調(diào)度，讓不同算力設(shè)備可靈活切換角色，實(shí)現(xiàn)近乎零閑置。

這一機(jī)制在大規(guī)模算力集群上展現(xiàn)了較高的效率：在數(shù)萬張加速卡上，LongCat-Flash的RL訓(xùn)練速度達(dá)到傳統(tǒng)同步方式的3倍以上，FLOPs（Floating Point Operations，浮點(diǎn)運(yùn)算數(shù)）的投入約為預(yù)訓(xùn)練階段的20%。

算法層面，團(tuán)隊(duì)則對經(jīng)典的PPO方法進(jìn)行改良。異步訓(xùn)練常因推理引擎與訓(xùn)練引擎的數(shù)值差異，或因舊版本策略生成的數(shù)據(jù)過多而導(dǎo)致模型收斂不穩(wěn)。

為此，研究人員引入了截?cái)嘀匾圆蓸觼砭徑庖娌町悗淼恼`差，并設(shè)計(jì)了裁剪機(jī)制，對正負(fù)樣本分別設(shè)置不同閾值。這些細(xì)節(jié)調(diào)整，大大提高了推理任務(wù)下的穩(wěn)定性。

獎勵機(jī)制是RL的方向盤。對于寫作、問答等無法直接驗(yàn)證的任務(wù)，團(tuán)隊(duì)訓(xùn)練了判別式獎勵模型，基于人機(jī)聯(lián)合標(biāo)注數(shù)據(jù)，學(xué)會判斷優(yōu)劣偏好。

而在數(shù)學(xué)與編程等可驗(yàn)證場景，則引入了生成式獎勵模型（GenRM），它不僅能判斷對錯，還能給出推理鏈路，做到有理有據(jù)。在編程任務(wù)中，團(tuán)隊(duì)還搭建了分布式沙箱系統(tǒng)，支持?jǐn)?shù)百萬次并發(fā)代碼執(zhí)行，覆蓋20多種編程語言。

最后，LongCat團(tuán)隊(duì)提出了一個三階段的訓(xùn)練配方：領(lǐng)域平行訓(xùn)練、模型融合、通用RL微調(diào)。LongCat團(tuán)隊(duì)先分別訓(xùn)練數(shù)學(xué)、編程、智能體等專家模型，再通過參數(shù)融合技術(shù)合并為統(tǒng)一大模型，最后用多樣化數(shù)據(jù)進(jìn)行通用微調(diào)，避免融合后的性能退化，確保安全性、泛化性和實(shí)用性。

▲融合后的模型性能優(yōu)于專家模型

三、MATH-500得分接近滿分，用上工具后性價(jià)比更高

LongCat-Flash-Thinking在多領(lǐng)域的基準(zhǔn)測試中表現(xiàn)出色。

在通用能力上，LongCat-Flash-Thinking在MMLU-Redux上拿下89.3%的成績，與業(yè)內(nèi)多款頂級開源模型處在同一水準(zhǔn)，但與OpenAI-o3相比仍有差距。

數(shù)學(xué)推理是該模型的亮點(diǎn)之一。其在MATH-500中取得99.2%的高分，幾乎達(dá)到滿分水平。在更具挑戰(zhàn)性的AIME與HMMT等競賽級任務(wù)中，同樣展現(xiàn)出接近甚至超越GPT-5與Qwen3的表現(xiàn)，凸顯其復(fù)雜多步推理的強(qiáng)大能力。

在邏輯與一般推理方面，該模型在ARC-AGI上達(dá)到50.3%，超過了OpenAI-o3與Gemini 2.5-Pro。同時，它在解謎任務(wù)ZebraLogic上得分高達(dá)95.5%，并在數(shù)獨(dú)測試Sudoku-Bench上遠(yuǎn)超大部分模型，顯示出較強(qiáng)的結(jié)構(gòu)化推理能力。

編程能力方面，LongCat-Flash-Thinking在動態(tài)編程測試LiveCodeBench中取得79.4%的分?jǐn)?shù)，緊追GPT-5，遠(yuǎn)超開源同類模型。

值得注意的是，LongCat-Flash-Thinking模型在工具增強(qiáng)推理能力上表現(xiàn)出色。例如，它在模擬預(yù)定飛機(jī)票的τ2-Bench-Airline中，實(shí)現(xiàn)67.5%的最佳成績，并在SWE-Bench、BFCL等任務(wù)上保持較強(qiáng)的競爭力。

啟用外部工具后，其在AIME-25基準(zhǔn)測試中的準(zhǔn)確率保持不變，但平均token消耗減少近65%，驗(yàn)證了智能體系統(tǒng)在效率與性能間實(shí)現(xiàn)平衡。

在定理證明領(lǐng)域，LongCat-Flash-Thinking在MiniF2F測試中得分達(dá)67.6%，比次優(yōu)模型高出18%，奠定了其在形式化數(shù)學(xué)推理上的領(lǐng)先地位。

最后，在安全性上，LongCat-Flash-Thinking在有害內(nèi)容、犯罪、虛假信息及隱私四類風(fēng)險(xiǎn)測試中均拿下安全性最高分。

結(jié)語：切入真實(shí)場景，美團(tuán)探索推理大模型落地路徑

LongCat團(tuán)隊(duì)稱，憑借LongCat-Flash-Thinking的開源，他們希望進(jìn)一步推動高效RL訓(xùn)練、原生Agent推理等方面的研究。

從論文的技術(shù)細(xì)節(jié)中，我們也能看到，LongCat有針對性地提升了模型在工具使用、指令遵循和安全性等方面的表現(xiàn)。

結(jié)合美團(tuán)最近在面向消費(fèi)者的Agent產(chǎn)品、AI搜索產(chǎn)品等領(lǐng)域的動態(tài)，不難預(yù)見，這些新模型或?qū)⑨槍π缘胤?wù)于美團(tuán)自身業(yè)務(wù)，帶來更智能的用戶體驗(yàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.