夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

美團(tuán)王興,又開源一款大模型!

0
分享至


智東西
作者 陳駿達(dá)
編輯 云鵬

美團(tuán)龍貓大模型,現(xiàn)在會思考了!

智東西9月22日報(bào)道,最近,美團(tuán)在AI開源賽道上在猛踩加速。今天,在開源其首款大語言模型僅僅24天后,美團(tuán)又開源了其首款自研推理模型LongCat-Flash-Thinking。

與其基礎(chǔ)模型LongCat-Flash類似,效率也是LongCat-Flash-Thinking的最大特點(diǎn)。美團(tuán)在技術(shù)報(bào)告中透露,LongCat-Flash-Thinking在自研的DORA強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施完成訓(xùn)練,直接將訓(xùn)練速度提升到原來的3倍還多,增幅超過200%。該模型重點(diǎn)優(yōu)化了形式推理和Agent推理任務(wù),使用工具后推理效率很高,例如,可將AIME-25基準(zhǔn)測試中的平均token消耗減少64.5%。

LongCat-Flash-Thinking在多領(lǐng)域基準(zhǔn)測試中表現(xiàn)出不俗的實(shí)力:

通用問答、數(shù)學(xué)推理、通用推理的相關(guān)測試中,它和GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等基本打平;

LongCat-Flash-Thinking還在安全、形式化定理證明等領(lǐng)域的多項(xiàng)基準(zhǔn)測試中,大幅度領(lǐng)先上述4款推理模型,并在權(quán)威Agent工具調(diào)用基準(zhǔn)測試τ2-Bench中,超越除了GPT-5-Thinking外的所有參評模型。


目前,LongCat-Flash-Thinking模型已經(jīng)開源至GitHub、Hugging Face等平臺,相關(guān)技術(shù)報(bào)告也同期發(fā)布,用戶也可在體驗(yàn)鏈接中直接使用。不過,在實(shí)際體驗(yàn)中,模型推理和回答長度往往會超出體驗(yàn)鏈接里的限制,導(dǎo)致答案不完整。


開源地址:

https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

https://github.com/meituan-longcat/LongCat-Flash-Thinking

體驗(yàn)鏈接:

https://longcat.chat/

一、靠課程學(xué)習(xí)逐步構(gòu)建能力,Agent和形式化推理能力獲補(bǔ)強(qiáng)

在模型預(yù)訓(xùn)練階段,LongCat團(tuán)隊(duì)采用了課程學(xué)習(xí)的方式,讓模型先打基礎(chǔ),再專項(xiàng)突破,最終構(gòu)建出覆蓋廣度與深度的推理能力。

LongCat-Flash-Thinking是在LongCat-Flash的基礎(chǔ)上訓(xùn)練而來的,經(jīng)歷了推理增強(qiáng)的中期訓(xùn)練(Mid-training)面向推理的有監(jiān)督微調(diào)(SFT)。

研究團(tuán)隊(duì)特別構(gòu)建了一個高難度的推理訓(xùn)練集,涵蓋數(shù)學(xué)、物理、化學(xué)及編程問題,并通過數(shù)據(jù)比例控制,確保模型既能強(qiáng)化邏輯推理,又不丟失通用能力。

實(shí)驗(yàn)表明,這一階段顯著拓寬了模型的“推理邊界”:在AIME、BeyondAIME和LiveCodeBench等基準(zhǔn)上,單步準(zhǔn)確率和高采樣準(zhǔn)確率均有大幅提升。


進(jìn)入SFT微調(diào)階段,LongCat-Flash-Thinking的指令遵循和專業(yè)領(lǐng)域推理能力得到進(jìn)一步提升。這一步驟特別強(qiáng)調(diào)三大方向:

1、一般推理:LongCat團(tuán)隊(duì)整合跨學(xué)科高質(zhì)量問題與答案,涵蓋STEM、編程、通用問答以及邏輯推理,利用拒絕采樣與模型評審保證訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和挑戰(zhàn)性。

2、形式化推理:該團(tuán)隊(duì)還設(shè)計(jì)了一套全新的基于專家迭代框架的數(shù)據(jù)合成方法,利用集成了Lean4服務(wù)器的專家迭代框架,生成經(jīng)過嚴(yán)格驗(yàn)證的證明過程,從而系統(tǒng)性提升模型的形式化推理能力。

3、Agentic推理:LongCat團(tuán)隊(duì)提出了創(chuàng)新性的“雙路徑推理框架”。該框架能夠比較模型在“有工具”和“無工具”條件下的表現(xiàn),篩選出僅依賴工具才能解決的高質(zhì)量問題。

隨后,系統(tǒng)自動合成多樣化的解題軌跡,從簡單調(diào)用到復(fù)雜多步流程,并通過嚴(yán)格評審確保邏輯一致性和工具使用完整性。最終,軌跡被標(biāo)準(zhǔn)化并按復(fù)雜度分層,用于課程訓(xùn)練,幫助模型在真實(shí)場景中更好地學(xué)習(xí)和發(fā)展穩(wěn)健的工具使用能力。

這種中期訓(xùn)練、推理微調(diào)的兩段式體系,幫助LongCat-Flash-Thinking在推理任務(wù)中實(shí)現(xiàn)性能提升,也為后續(xù)的強(qiáng)化學(xué)習(xí)做好準(zhǔn)備。

二、三管齊下優(yōu)化強(qiáng)化學(xué)習(xí),自研DORA框架提效超200%

強(qiáng)化學(xué)習(xí)中,LongCat-Flash-Thinking采用了一套“三管齊下”的方案,從系統(tǒng)、算法和獎勵的角度,提升強(qiáng)化學(xué)習(xí)的效率和穩(wěn)定性。

在系統(tǒng)設(shè)計(jì)中,LongCat團(tuán)隊(duì)構(gòu)建了名為DORA的分布式RL框架,這是RL訓(xùn)練的基石。DORA支持異步訓(xùn)練與靈活的加速器調(diào)度,既保證穩(wěn)定性,又提升效率。

DORA通過流式架構(gòu)讓已完成的響應(yīng)立即進(jìn)入訓(xùn)練,而不會被最長輸出拖慢;通過多版本策略保證同一響應(yīng)由同一模型版本完成,避免推理片段間的不一致;再結(jié)合彈性角色調(diào)度,讓不同算力設(shè)備可靈活切換角色,實(shí)現(xiàn)近乎零閑置。

這一機(jī)制在大規(guī)模算力集群上展現(xiàn)了較高的效率:在數(shù)萬張加速卡上,LongCat-Flash的RL訓(xùn)練速度達(dá)到傳統(tǒng)同步方式的3倍以上,FLOPs(Floating Point Operations,浮點(diǎn)運(yùn)算數(shù))的投入約為預(yù)訓(xùn)練階段的20%。

算法層面,團(tuán)隊(duì)則對經(jīng)典的PPO方法進(jìn)行改良。異步訓(xùn)練常因推理引擎與訓(xùn)練引擎的數(shù)值差異,或因舊版本策略生成的數(shù)據(jù)過多而導(dǎo)致模型收斂不穩(wěn)。

為此,研究人員引入了截?cái)嘀匾圆蓸觼砭徑庖娌町悗淼恼`差,并設(shè)計(jì)了裁剪機(jī)制,對正負(fù)樣本分別設(shè)置不同閾值。這些細(xì)節(jié)調(diào)整,大大提高了推理任務(wù)下的穩(wěn)定性。

獎勵機(jī)制是RL的方向盤。對于寫作、問答等無法直接驗(yàn)證的任務(wù),團(tuán)隊(duì)訓(xùn)練了判別式獎勵模型,基于人機(jī)聯(lián)合標(biāo)注數(shù)據(jù),學(xué)會判斷優(yōu)劣偏好。

而在數(shù)學(xué)與編程等可驗(yàn)證場景,則引入了生成式獎勵模型(GenRM),它不僅能判斷對錯,還能給出推理鏈路,做到有理有據(jù)。在編程任務(wù)中,團(tuán)隊(duì)還搭建了分布式沙箱系統(tǒng),支持?jǐn)?shù)百萬次并發(fā)代碼執(zhí)行,覆蓋20多種編程語言。

最后,LongCat團(tuán)隊(duì)提出了一個三階段的訓(xùn)練配方:領(lǐng)域平行訓(xùn)練、模型融合、通用RL微調(diào)。LongCat團(tuán)隊(duì)先分別訓(xùn)練數(shù)學(xué)、編程、智能體等專家模型,再通過參數(shù)融合技術(shù)合并為統(tǒng)一大模型,最后用多樣化數(shù)據(jù)進(jìn)行通用微調(diào),避免融合后的性能退化,確保安全性、泛化性和實(shí)用性。


▲融合后的模型性能優(yōu)于專家模型

三、MATH-500得分接近滿分,用上工具后性價(jià)比更高

LongCat-Flash-Thinking在多領(lǐng)域的基準(zhǔn)測試中表現(xiàn)出色。

在通用能力上,LongCat-Flash-Thinking在MMLU-Redux上拿下89.3%的成績,與業(yè)內(nèi)多款頂級開源模型處在同一水準(zhǔn),但與OpenAI-o3相比仍有差距。

數(shù)學(xué)推理是該模型的亮點(diǎn)之一。其在MATH-500中取得99.2%的高分,幾乎達(dá)到滿分水平。在更具挑戰(zhàn)性的AIME與HMMT等競賽級任務(wù)中,同樣展現(xiàn)出接近甚至超越GPT-5與Qwen3的表現(xiàn),凸顯其復(fù)雜多步推理的強(qiáng)大能力。


在邏輯與一般推理方面,該模型在ARC-AGI上達(dá)到50.3%,超過了OpenAI-o3與Gemini 2.5-Pro。同時,它在解謎任務(wù)ZebraLogic上得分高達(dá)95.5%,并在數(shù)獨(dú)測試Sudoku-Bench上遠(yuǎn)超大部分模型,顯示出較強(qiáng)的結(jié)構(gòu)化推理能力。

編程能力方面,LongCat-Flash-Thinking在動態(tài)編程測試LiveCodeBench中取得79.4%的分?jǐn)?shù),緊追GPT-5,遠(yuǎn)超開源同類模型。

值得注意的是,LongCat-Flash-Thinking模型在工具增強(qiáng)推理能力上表現(xiàn)出色。例如,它在模擬預(yù)定飛機(jī)票的τ2-Bench-Airline中,實(shí)現(xiàn)67.5%的最佳成績,并在SWE-Bench、BFCL等任務(wù)上保持較強(qiáng)的競爭力。


啟用外部工具后,其在AIME-25基準(zhǔn)測試中的準(zhǔn)確率保持不變,但平均token消耗減少近65%,驗(yàn)證了智能體系統(tǒng)在效率與性能間實(shí)現(xiàn)平衡。


在定理證明領(lǐng)域,LongCat-Flash-Thinking在MiniF2F測試中得分達(dá)67.6%,比次優(yōu)模型高出18%,奠定了其在形式化數(shù)學(xué)推理上的領(lǐng)先地位。

最后,在安全性上,LongCat-Flash-Thinking在有害內(nèi)容、犯罪、虛假信息及隱私四類風(fēng)險(xiǎn)測試中均拿下安全性最高分。

結(jié)語:切入真實(shí)場景,美團(tuán)探索推理大模型落地路徑

LongCat團(tuán)隊(duì)稱,憑借LongCat-Flash-Thinking的開源,他們希望進(jìn)一步推動高效RL訓(xùn)練、原生Agent推理等方面的研究。

從論文的技術(shù)細(xì)節(jié)中,我們也能看到,LongCat有針對性地提升了模型在工具使用、指令遵循和安全性等方面的表現(xiàn)。

結(jié)合美團(tuán)最近在面向消費(fèi)者的Agent產(chǎn)品、AI搜索產(chǎn)品等領(lǐng)域的動態(tài),不難預(yù)見,這些新模型或?qū)⑨槍π缘胤?wù)于美團(tuán)自身業(yè)務(wù),帶來更智能的用戶體驗(yàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
百萬元房車不上鎖異地停放十余天,陌生人開走帶全家旅游,車主:房車空著是浪費(fèi)

百萬元房車不上鎖異地停放十余天,陌生人開走帶全家旅游,車主:房車空著是浪費(fèi)

極目新聞
2025-09-25 07:53:46
智利總統(tǒng)火力全開:我不想看到他被炸成碎片,我想看他被審判

智利總統(tǒng)火力全開:我不想看到他被炸成碎片,我想看他被審判

觀察者網(wǎng)
2025-09-25 15:15:03
周正毅近況顯落魄!前上海首富與網(wǎng)紅扎堆,辦私董會,毛玉萍怒懟

周正毅近況顯落魄!前上海首富與網(wǎng)紅扎堆,辦私董會,毛玉萍怒懟

小咪侃娛圈
2025-09-25 11:03:14
149國承認(rèn)后,巴勒斯坦突然拋出“和平炸彈”:愿與以色列共存!

149國承認(rèn)后,巴勒斯坦突然拋出“和平炸彈”:愿與以色列共存!

南宮一二
2025-09-25 07:19:07
西媒:皇馬0-3慘敗阿森納后就聯(lián)系阿隆索 皇馬目標(biāo)瞄準(zhǔn)巴薩馬競

西媒:皇馬0-3慘敗阿森納后就聯(lián)系阿隆索 皇馬目標(biāo)瞄準(zhǔn)巴薩馬競

直播吧
2025-09-26 01:13:03
今夜!利好,暴漲!

今夜!利好,暴漲!

中國基金報(bào)
2025-09-26 00:22:09
大部分女技師,最后都去哪了

大部分女技師,最后都去哪了

麥小柒
2025-06-14 14:03:24
中國網(wǎng)紅大學(xué)生大阪“窮游”翻車:超市試吃用過牙簽反復(fù)叉葡萄,引發(fā)中日網(wǎng)友強(qiáng)烈反感

中國網(wǎng)紅大學(xué)生大阪“窮游”翻車:超市試吃用過牙簽反復(fù)叉葡萄,引發(fā)中日網(wǎng)友強(qiáng)烈反感

日本物語
2025-09-24 21:43:41
俄羅斯甩出80年前鐵證,日本全國瞬間炸鍋,戰(zhàn)敗國身份仍然有效!

俄羅斯甩出80年前鐵證,日本全國瞬間炸鍋,戰(zhàn)敗國身份仍然有效!

璠爺財(cái)事通
2025-09-25 19:00:03
郭田雨引眾怒,直播表示對不起自己,對得起俱樂部,泰山球迷怒懟

郭田雨引眾怒,直播表示對不起自己,對得起俱樂部,泰山球迷怒懟

體壇風(fēng)之子
2025-09-25 04:30:03
感動!郎平回國僅6天,到上海探望周蘇紅前夫,桌上紅包格外醒目

感動!郎平回國僅6天,到上海探望周蘇紅前夫,桌上紅包格外醒目

阿黼體育評論
2025-09-26 01:03:39
麻六記上菜慢變優(yōu)點(diǎn),西貝沙漏終被看穿,網(wǎng)友:鍋氣菜大勝料理包

麻六記上菜慢變優(yōu)點(diǎn),西貝沙漏終被看穿,網(wǎng)友:鍋氣菜大勝料理包

史行途
2025-09-21 10:11:17
賭王四位太太豪宅:二太三太房子氣派,四太梁安琪房子外表破敗

賭王四位太太豪宅:二太三太房子氣派,四太梁安琪房子外表破敗

老呶侃史
2025-09-24 17:14:06
170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

170cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭了…

健身迷
2025-09-20 09:22:20
3M公司,到底多奇葩?

3M公司,到底多奇葩?

科學(xué)火箭叔
2025-09-24 22:05:06
泰山隊(duì)外租第一人,創(chuàng)生涯最佳,賽季造7球,27歲有望回歸挑大梁

泰山隊(duì)外租第一人,創(chuàng)生涯最佳,賽季造7球,27歲有望回歸挑大梁

體壇風(fēng)之子
2025-09-26 04:30:03
米萊在聯(lián)合國大會批評聯(lián)合國對以色列存在偏見

米萊在聯(lián)合國大會批評聯(lián)合國對以色列存在偏見

桂系007
2025-09-25 16:00:34
兩性關(guān)系:65歲女人說大實(shí)話,到了這歲數(shù),選男人只看一個“字”

兩性關(guān)系:65歲女人說大實(shí)話,到了這歲數(shù),選男人只看一個“字”

二十一號故事鋪
2025-09-25 20:20:04
遠(yuǎn)離“造神”陷阱!59歲的于東來,人設(shè)接連翻車,給所有人提了醒

遠(yuǎn)離“造神”陷阱!59歲的于東來,人設(shè)接連翻車,給所有人提了醒

有范又有料
2025-09-23 15:52:53
橫行三年的新冠消失了,卻留下了四大奇怪現(xiàn)象,是好還是壞?

橫行三年的新冠消失了,卻留下了四大奇怪現(xiàn)象,是好還是壞?

39健康網(wǎng)
2025-09-24 18:31:01
2025-09-26 06:15:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10520文章數(shù) 116860關(guān)注度
往期回顧 全部

科技要聞

復(fù)盤與反思,一文看盡雷軍年度演講

頭條要聞

小米17售價(jià)4499元起 雷軍:拆了3輛Model Y 真的是好車

頭條要聞

小米17售價(jià)4499元起 雷軍:拆了3輛Model Y 真的是好車

體育要聞

ESPN百大球星榜:約基奇居首 庫詹杜7-9名

娛樂要聞

張馨予和李晨分手6年后 活成人生贏家

財(cái)經(jīng)要聞

基金經(jīng)理賭博被行拘 西部利得基金回應(yīng)

汽車要聞

奇瑞港股上市 募資91.4億港元成年內(nèi)最大車企IPO

態(tài)度原創(chuàng)

藝術(shù)
教育
旅游
游戲
手機(jī)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

通州區(qū)15家優(yōu)質(zhì)資源+6萬學(xué)位,農(nóng)村學(xué)校教學(xué)質(zhì)量迎“質(zhì)變”

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

這么多年了,鵝廠還是忘不了他的白月光太刀俠

手機(jī)要聞

4499元起!小米17系列來了,這是iPhone 17最強(qiáng)勁敵?

無障礙瀏覽 進(jìn)入關(guān)懷版 99久久精品国产熟女拳交| 性色AV人蜜桃Av色欲AV| 羞羞影院午夜男女爽爽 | 金发美女大战黑巨茎| 一本大道东京热无码| 免费a级毛片在线播放| 久久精品美女| 精品一区二区av| 夜夜夜久久久| 国产偷窥熟女高潮精品视频| 国产精品美女一区二区三区| 中文字幕精品亚洲无线码一区| 亚洲熟少妇精品| av天堂一区二区| 亚洲欧洲精品成人久久曰影片| 游戏国产一二三精品| 久久人妻国产精品| 免费高清特级毛片A片| 91精品国产综合蜜臀蜜臀| 国产又爽又大又黄a片| 亚洲无码影视| 456视频亚洲| 久久久久久一次| 国产在线精品无码二区二区| 国产日产欧产美精品中文字幕在线| 欧美交换配乱吟粗大视频| 真实国产乱子伦精品视频| 精品亚洲中文字幕免费播放| 2016人人操人人吻| 五月婷婷色五月| 国产色婷婷视频在线观看| 办公室激情啪波多野结衣图片| 日韩AV无遮挡污污在线播放| 天堂а√在线中文在线| 亚洲伊人成综| 中文最新版地址在线| 亚洲の无码国产の无码喷水| 亚洲精品一区久久久久一品av| 狠狠躁夜夜躁人人爽天天不| 欧美码日本视频| 无遮掩无码h成人av动漫|