夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復旦NLP&美團LongCat重磅發(fā)布LRMs能力邊界探測新范式

0
分享至



陸毅,復旦大學自然語言處理實驗室碩士生,在 ACL、EMNLP、COLM、NeurIPS 等頂會發(fā)表論文十余篇,LongCat Team 核心成員,研究方向為大模型的復雜推理和長序列建模,指導老師為桂韜老師。

郭林森,碩士畢業(yè)于東南大學,在 NAACL、EMNLP、Recsys 等會議發(fā)表論文多篇,目前就職于美團,LongCat Team 核心成員,研究方向為大模型評測與數(shù)據(jù)價值挖掘。

王嘉寧,獲得華東師范大學博士學位,曾前往 UCSD 訪問學習,在 ACL、EMNLP、AAAI、ICLR 等頂會發(fā)表論文數(shù)十篇,目前就職于美團,LongCat Team 核心成員,研究方向為大模型訓練與復雜推理。

研究背景:從「單步推理」到「長鏈決策」

OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出現(xiàn),標志著 AI 推理能力進入了「測試時擴展」的新紀元。通過長鏈推理 Long Chain-of-Thought(CoT),這些模型在數(shù)學推理、代碼生成、智能體任務等領(lǐng)域取得了令人矚目的突破。

然而,當前的訓練與評測范式存在一個根本性的局限:幾乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的單步問題,問題之間相互獨立,模型只需「回答一個問題,然后結(jié)束」。但真實世界的推理場景往往截然不同:

  • 一個軟件工程師需要連續(xù)調(diào)試多個相互依賴的代碼模塊
  • 一個數(shù)學研究者需要基于前序定理推導后續(xù)結(jié)論
  • 一個智能助手需要在多輪對話中逐步完成復雜任務規(guī)劃

這些場景要求模型具備跨問題的長鏈推理能力 —— 不僅要解決單個問題,還要在多個相互關(guān)聯(lián)的子問題間維持推理連貫性、合理分配思考資源、進行跨步驟的反思與糾錯。

這引出了一個核心問題:大型推理模型的長鏈推理能力邊界究竟在哪里?

現(xiàn)有評測無法回答這個問題,傳統(tǒng)訓練數(shù)據(jù)也無法培養(yǎng)這種能力(如圖所示,模型在長程推理場景下性能下降嚴重)。



R1 系列模型在長程推理場景下理論準確率和實際準確率的差異

為填補這一空白,復旦大學與美團 LongCat Team聯(lián)合推出 R-HORIZON—— 首個系統(tǒng)性評估與增強 LRMs 長鏈推理能力的方法與基準。



  • 論文標題: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
  • 論文地址: https://arxiv.org/abs/2510.08189
  • 項目主頁: https://reasoning-horizon.github.io
  • 代碼地址:https://github.com/meituan-longcat/R-HORIZON
  • 數(shù)據(jù)集: https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

R-HORIZON:揭開推理模型「能力地平線」

核心創(chuàng)新:Query Composition 方法

R-HORIZON 提出了一種簡潔而強大的問題組合(Query Composition)方法,通過建立問題間的依賴關(guān)系,將孤立任務轉(zhuǎn)化為復雜的多步驟推理場景。

以數(shù)學任務為例:

1. 提取關(guān)鍵信息:從多個獨立問題中提取核心數(shù)值、變量等信息

2. 建立依賴關(guān)系:將前一個問題的答案嵌入到后一個問題的條件中

3. 形成推理鏈:模型必須按順序正確解決所有問題才能得到最終答案

這種方法具有三大優(yōu)勢:

  • 可擴展性:可靈活控制推理鏈長度(n=2, 4, 8...)
  • 可控性:可靈活設(shè)定問題間的依賴關(guān)系
  • 低成本:基于現(xiàn)有數(shù)據(jù)集即可構(gòu)建,無需額外標注

基于這一方法,我們構(gòu)建了長鏈推理的評測基準 R-HORIZON Benchmark,用于系統(tǒng)性評估 LRMs 在多步推理場景下的真實能力;同時,我們還構(gòu)建了長鏈推理的訓練數(shù)據(jù),通過強化學習(RLVR)訓練來提升模型的長鏈推理能力。



R-HORIZON 方法示意圖 —— 從單一問題到復雜推理鏈的轉(zhuǎn)化過程以及 R-HORIZON 的應用場景

R-HORIZON Benchmark:全面的長鏈推理評測基準


基于 Query Composition 方法,我們構(gòu)建了 R-HORIZON Benchmark,涵蓋 6 大代表性數(shù)據(jù)集:



核心發(fā)現(xiàn):頂級模型的「推理斷崖」

我們評測了 20+ 個主流 LRMs(包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等頂級商業(yè)模型以及開源模型),結(jié)果揭示了一個令人震驚的現(xiàn)象:即使是最先進的模型,在長鏈推理場景下也會出現(xiàn)性能斷崖式下降。

關(guān)鍵發(fā)現(xiàn):

  • 普遍性能衰退:所有模型隨著問題數(shù)量增加都出現(xiàn)顯著性能下降。DeepSeek-R1 在 AIME25 單問題場景下準確率達 87.3%,但在 5 個組合問題場景下暴跌至 24.6%
  • 模型規(guī)模影響:更大的模型對多步推理挑戰(zhàn)展現(xiàn)出更強的韌性
  • 任務依賴性衰退:代碼生成任務相比數(shù)學任務表現(xiàn)出更陡峭的性能下降;許多推理模型在網(wǎng)頁搜索場景中失去了工具調(diào)用能力



R-HORIZON Benchmark 評測結(jié)果 —— 所有模型均出現(xiàn)顯著性能衰退

深度分析:推理模型的三大瓶頸


為了理解性能斷崖背后的原因,我們進行了深入的機制分析,發(fā)現(xiàn)當前 LRMs 存在三個關(guān)鍵瓶頸:

1. 有效推理長度受限

隨著相互依賴問題數(shù)量的增加,LRMs 難以維持其性能。實際準確率與理論準確率之間的差距顯著擴大,表明模型無法在更長的推理范圍內(nèi)保持原有性能。

深入分析發(fā)現(xiàn):

  • 模型錯誤穩(wěn)定在特定的上下文范圍內(nèi)
  • 7B 模型的主要錯誤范圍在 (4-6K tokens)
  • 32B 模型將范圍擴展到 (8-10K tokens)
  • 這表明更大的模型擁有更長的有效推理邊界



R1-Qwen-7B 和 R1-Qwen-32B 在準確率和錯誤位置上的分析

2. 反思機制高度局部化

我們分析了模型的「反思」行為,發(fā)現(xiàn):

  • 模型的反思頻率隨著問題數(shù)量增加而上升并趨于收斂
  • 超過半數(shù)的復雜任務完全缺乏長程反思(跨越當前問題的反思)
  • 這表明當前 LRMs 的反思機制高度局部化,不足以支撐長鏈場景



MATH500 數(shù)據(jù)集上的反思行為分析

3. 思考預算分配失衡

最令人意外的發(fā)現(xiàn)是:包括 DeepSeek-R1 在內(nèi)的主流 LRMs 都無法有效地在推理范圍內(nèi)分配思考預算。

  • 模型傾向于過度分配 tokens 給早期推理階段
  • 未能合理地將資源分配給后續(xù)的關(guān)鍵問題
  • 這種失衡嚴重影響了整體推理鏈的完成質(zhì)量



不同組合問題數(shù)量下各模型的思考預算分配

R-HORIZON 訓練:重塑推理模型的能力邊界

發(fā)現(xiàn)問題只是第一步,我們進一步探索:能否通過使用組合數(shù)據(jù)進行強化學習訓練來突破這些瓶頸?

RLVR with R-HORIZON:用長鏈數(shù)據(jù)訓練推理模型

我們使用 R-HORIZON 構(gòu)建的長鏈推理數(shù)據(jù)并使用 GRPO 算法進行訓練,訓練策略:

  • 基于主流 RLVR 算法 GRPO 進行訓練
  • 使用 R-HORIZON 組合數(shù)據(jù)(n=2, n=4)
  • 設(shè)計不同的獎勵函數(shù)進行對比實驗

突破性成果:雙重性能提升

實驗結(jié)果令人振奮:R-HORIZON 訓練不僅顯著提升長鏈任務表現(xiàn),連單問題性能也大幅增強。



加粗數(shù)字表示該列最佳成績



不同訓練配置下的性能對比。"Origin" 表示單問題場景,"n=X" 表示 X 個組合問題場景,"Multi" 表示多問題場景的平均性能

關(guān)鍵發(fā)現(xiàn):

1. 雙重性能提升:使用 n=2 組合問題訓練,不僅大幅提升多步推理性能(AIME24 n=2 +17.4 分),單問題性能也顯著增強(AIME24 單題 +7.5 分)

2. 可擴展復雜度:增加組合復雜度(n=4)增強了模型處理需要更多推理步驟問題的能力,在 MATH500 (n=8) 上達到 50.6%

訓練帶來的質(zhì)變


R-HORIZON 訓練不僅提升了性能數(shù)字,更帶來了推理機制的深層改變:

更高效的推理長度:

訓練顯著改善了模型在組合任務上的性能,展現(xiàn)出更好的泛化到更長推理鏈的能力,同時緩解了「overthinking」現(xiàn)象(生成更短、更高效的回答)。

更合理的預算分配:

模型學會了在多步問題中進行更合理的 token 預算分配,不再「重頭輕尾」。

更長程的反思能力:

R-HORIZON 促進了模型進行更長程反思的頻率增加,直接改善了長鏈推理性能。



圖:使用標準數(shù)據(jù)集和組合數(shù)據(jù)集進行強化學習的效果分析

結(jié)論與展望:開啟長鏈推理新紀元


R-HORIZON 的推出,標志著大型推理模型研究進入了一個新的階段 —— 從「能解決什么問題」到「能走多遠」的范式轉(zhuǎn)變。

技術(shù)貢獻

  • 首個長鏈推理評測基準:系統(tǒng)性揭示了 LRMs 的能力邊界,包括有效推理長度、反思范圍和思考預算分配的局限性
  • 可擴展訓練范式:提供了低成本、高效率的能力提升路徑,通過 Query Composition 方法實現(xiàn)可控的長鏈推理數(shù)據(jù)構(gòu)建
  • 深度機制分析:為未來的推理模型指明了改進方向,揭示了當前模型在長鏈推理中的三大瓶頸

開放生態(tài)

R-HORIZON 框架已全面開源,包括:

  • 完整評測代碼與 Benchmark 數(shù)據(jù)
  • 訓練數(shù)據(jù)和訓練代碼
  • 數(shù)據(jù)構(gòu)建流程
  • 詳細文檔與使用教程

期待與全球研究者攜手,共同推動下一代推理模型的發(fā)展,讓人工智能在現(xiàn)實世界中展現(xiàn)出更卓越的長鏈推理能力。

資源鏈接:

Paper:https://arxiv.org/abs/2510.08189

Project Page:https://reasoning-horizon.github.io

GitHub:https://github.com/meituan-longcat/R-HORIZON

Dataset:https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普終于制裁俄羅斯了!歐盟剛通過第19輪法案,俄軍舉行核演習

特朗普終于制裁俄羅斯了!歐盟剛通過第19輪法案,俄軍舉行核演習

鷹眼Defence
2025-10-23 17:05:27
攻擊力很快耗盡,50多名被圍俄軍棄械投降!烏克蘭幼兒園又遭轟炸

攻擊力很快耗盡,50多名被圍俄軍棄械投降!烏克蘭幼兒園又遭轟炸

鷹眼Defence
2025-10-23 17:12:14
美國玉石泛濫成災,為什么玉石只有在國內(nèi)才值錢?

美國玉石泛濫成災,為什么玉石只有在國內(nèi)才值錢?

西方尋史
2025-10-23 15:52:26
大陸18份通緝令見效,臺獨分子天塌了,賣慘哭窮,金庫被一鍋端

大陸18份通緝令見效,臺獨分子天塌了,賣慘哭窮,金庫被一鍋端

Ck的蜜糖
2025-10-23 03:03:18
中美吉隆坡談判前,瑞士專家:普京的遭遇,讓中國已“鐵了心”

中美吉隆坡談判前,瑞士專家:普京的遭遇,讓中國已“鐵了心”

深析古今
2025-10-24 09:02:03
閱兵結(jié)束才幾天,令人擔心的事情發(fā)生了,多位老戲骨無辜躺槍

閱兵結(jié)束才幾天,令人擔心的事情發(fā)生了,多位老戲骨無辜躺槍

貴州小娟
2025-10-02 15:42:45
楊振寧排面有多大?看看和李政道分手后,當和事佬的人有誰?

楊振寧排面有多大?看看和李政道分手后,當和事佬的人有誰?

削桐作琴
2025-10-23 15:56:28
79-71!中國男籃狂飆,4大天王回歸,降維打擊韓國

79-71!中國男籃狂飆,4大天王回歸,降維打擊韓國

草莓信箱
2025-10-24 16:32:38
美媒:法官駁回羅齊爾交1000萬美元保釋金請求,并讓其交護照抵押房產(chǎn)

美媒:法官駁回羅齊爾交1000萬美元保釋金請求,并讓其交護照抵押房產(chǎn)

懂球帝
2025-10-24 08:06:14
今日金價:10月24日,要有心理準備,下周,金價或?qū)⒅噩F(xiàn)13年歷史

今日金價:10月24日,要有心理準備,下周,金價或?qū)⒅噩F(xiàn)13年歷史

花小貓的美食日常
2025-10-24 01:09:10
鄭麗文倒計時接棒,連勝文否認重用,洪秀柱式人物再現(xiàn)!

鄭麗文倒計時接棒,連勝文否認重用,洪秀柱式人物再現(xiàn)!

放開他讓wo來
2025-10-24 11:33:27
周受資,晉升一位90后女將

周受資,晉升一位90后女將

投資界
2025-10-24 15:56:03
物理學博士“手搓”拖拉機,公開全部圖紙,挑戰(zhàn)千億農(nóng)機壟斷巨頭

物理學博士“手搓”拖拉機,公開全部圖紙,挑戰(zhàn)千億農(nóng)機壟斷巨頭

DeepTech深科技
2025-10-23 18:20:29
百思不得其解!拉什福德為什么在曼聯(lián)不行,到巴薩就行了呢……?

百思不得其解!拉什福德為什么在曼聯(lián)不行,到巴薩就行了呢……?

田先生籃球
2025-10-23 20:22:26
有出息!24歲中國女子在法國博物館偷了6公斤黃金,監(jiān)控視頻曝光

有出息!24歲中國女子在法國博物館偷了6公斤黃金,監(jiān)控視頻曝光

恪守原則和底線
2025-10-24 05:30:03
足壇罕見!梅西終老邁阿密 職業(yè)生涯至今0轉(zhuǎn)會費 盧卡庫超3.6億歐

足壇罕見!梅西終老邁阿密 職業(yè)生涯至今0轉(zhuǎn)會費 盧卡庫超3.6億歐

智道足球
2025-10-24 17:43:29
特朗普警告:如果以色列吞并約旦河西岸,將失去美國所有支持;此前萬斯抨擊“以相關(guān)議案”:我感覺受到侮辱

特朗普警告:如果以色列吞并約旦河西岸,將失去美國所有支持;此前萬斯抨擊“以相關(guān)議案”:我感覺受到侮辱

魯中晨報
2025-10-24 15:32:06
安世中國強硬聲明! 荷蘭總部相關(guān)決定在中國境內(nèi)不具備法律效力,張秋明職務身份保持不變

安世中國強硬聲明! 荷蘭總部相關(guān)決定在中國境內(nèi)不具備法律效力,張秋明職務身份保持不變

每日經(jīng)濟新聞
2025-10-23 21:20:26
世界杯亂了,誕生頭號黑馬!日本助攻中國女足,輸球也有望進16強

世界杯亂了,誕生頭號黑馬!日本助攻中國女足,輸球也有望進16強

侃球熊弟
2025-10-24 02:40:03
天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態(tài)卻依舊十分亮眼

天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態(tài)卻依舊十分亮眼

TVB的四小花
2025-10-22 02:25:03
2025-10-24 20:24:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11552文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

馬斯克“加倍下注”,再次挑戰(zhàn)特朗普手下

頭條要聞

全國人大常委會:將10月25日設(shè)立為臺灣光復紀念日

頭條要聞

全國人大常委會:將10月25日設(shè)立為臺灣光復紀念日

體育要聞

NBA反賭掃黑!楊瀚森一覺起來主教練沒了

娛樂要聞

VOGUE大合照太勢利:影后只能站角落?

財經(jīng)要聞

央行:維護股市等金融市場平穩(wěn)運行

汽車要聞

精致實用還智能 試駕體驗全新歐拉5

態(tài)度原創(chuàng)

親子
游戲
本地
藝術(shù)
軍事航空

親子要聞

郭!富城方媛三胎出生

新槍新圖,沖突再起!《戰(zhàn)地6》的第一賽季都有什么?

本地新聞

這個秋天,一起來粉上漓渚!所有風景只為等你

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

專家:清除加沙地表未爆彈藥或需20多年

無障礙瀏覽 進入關(guān)懷版 欧美激欧美啪啪片sm| 国产国拍亚洲精品永久不卡 | 我要看特黄特黄的亚洲黄片| 欧美日韩影院一区| 无码熟熟妇丰满人妻porn| 日韩精品在线一区| 东京热大乱系列无码| 欧美va亚洲va在线观看日本| 亚洲精品国产99| 四虎国产精品成人| 放荡的美妇在线播放| 日韩福利免费在线| 粉嫩国产一区| 色与欲影视天天看综合网| 韩国美女免费视频高清观看| 久久这里精品国产99丫e6| 国产精品自拍午夜福利| 亚洲AV成人片| 精品少妇无码一区二区三批| 999成人精品视频在线| 97人妻熟女成人免费视频| 欧美性大战久久久久久| 亚洲色欲色欲欲www在线| 久久久久久亚洲色| 婷婷丁香之开心五月| 欧美尤物国产精品激情在线| 久久成人五月天| 美女视频黄是免费视频| 公开被调教当众高潮H喷水| 嗯灬啊灬把腿张开灬动态图| 亚洲淫视频在线| 日韩无码网址| 国产在线视频欧美| 朝鲜女子内射杂交bbw| 欧美人妻少妇嫩| 在线欧美国产| 茄子视频APP色版 永久免费| 激情亚洲综合AV| 爆乳熟妇一区二区三区| 日韩熟女av| 亚洲天堂在线观看网站|