夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

推理提速4倍!北航、浙大提出動態(tài)拼接,大小模型智能協作

0
分享至


新智元報道

編輯:LRST

【新智元導讀】針對「大模型推理速度慢,生成token高延遲」的難題,北航、浙大等提出R-Stitch框架,通過大小模型動態(tài)協作,衡量任務風險后靈活選擇:簡單任務用小模型,關鍵部分用大模型。實驗顯示推理速度提升最高4倍,同時保證高準確率。

近兩年,思維鏈(Chain-of-Thought, CoT)推理讓大語言模型在復雜推理任務上展現出前所未有的能力——從數學解題到邏輯分析,表現令人驚嘆。

然而,這種強大的推理能力也帶來了一個長期存在的挑戰(zhàn):推理過程過于緩慢。

每生成一個 token,模型都要完整算一遍前向傳播。長一點的推理鏈,幾千上萬個 token,不僅延遲高,成本也成倍增加。

在加速大語言模型的諸多方向中,Speculative Decoding(投機解碼) 一直是備受關注的方案。

它的思路簡單:讓小模型(SLM)先預測一段輸出,大模型(LLM)校驗一致性。若一致,大模型就能夠一次接受小模型的輸出,減少大模型解碼的次數,從而加速。

莫納什、北航、浙江大學等機構的研究者提出了一種動態(tài)拼接的大模型推理框架R-Stitch,讓大小模型智能協作,在vLLM推理框架下提速最高可達4倍。


項目主頁:https://caesarhhh.github.io/R-Stitch

論文鏈接:https://arxiv.org/abs/2507.17307

研究團隊在AMC數據集上,對投機解碼測試了多組模型組合,包括DeepSeek-R1-Distill-Qwen-1.5B/7B、L1-1.5B-Short、以及 Qwen2.5-Math-1.5B/7B-Oat-Zero等。

結果顯示出一致的趨勢:token 一致性越高,加速越明顯;一致性越低,速度提升就越有限。

并且,并非所有樣本都能加速。團隊觀察到相當一部分輸入的速度提升低于 1×,即比原始推理還慢——說明當模型間差異較大時,投機解碼的一致性校驗可能反而帶來開銷。


圖1 Token一致性與推理加速分析。 (a) 不同大模型–小模型組合在AMC數據集上的token一致率與加速比關系;(b) 各樣本的加速比分布,可見部分樣本出現低于1×的情況;(c) 在兩者都答對的問題上,L1-1.5B-Short的推理更短、更簡潔。

更有意思的是,在DeepSeek-R1-Distill-Qwen -7B與L1-1.5B-Short的實驗中,研究人員發(fā)現:

當兩者都答對時,L1-Short的推理長度遠小于該7B模型。

這意味著:小模型可能以更短的推理路徑到達相同結論,而投機解碼對token一致性的強調,則忽略了這些更高效的路徑。

經驗熵分析

不確定性揭示推理風險


圖2 熵與錯誤位置的關系。 (a) 錯誤解答的整體熵明顯高于正確解答;(b) 熵分布高度集中在0附近,大多數token具有極低或接近零的熵;(c) 首個導致錯誤的 token 附近區(qū)域平均熵更高,說明模型往往在不確定區(qū)域產生錯誤。

在讓大小模型協同推理之前,需要弄清楚一個關鍵問題:

小模型在什么時候能被信任?又是什么跡象預示它可能要「翻車」?

為此,團隊在AMC數據集 上,對推理過程中的token熵分布進行了深入分析,使用DeepSeek-R1-Distill-Qwen-7B作為大模型,L1-1.5B-Short作為小模型,逐步揭示出三個穩(wěn)定的規(guī)律。

首先,大多數token的熵極低。統計結果顯示,只有約10%的token熵超過 0.1,而絕大部分幾乎為零。這意味著模型在大部分生成過程中都非?!缸孕拧梗嬲牟淮_定區(qū)域其實只占很小一部分。

其次,錯誤推理的平均熵顯著更高。在同樣的題目上,錯誤答案的 token 熵明顯更高,說明模型在這些題目的推理中更不確定。

并且,團隊觀察到一個關鍵細節(jié):在小模型出錯的樣本中,錯誤往往起源于局部的高熵區(qū)域。

在第一個導致錯誤的 token 附近 token的平均熵顯著高于全局水平,因此上述現象可以說明高熵的地方更容易導致錯誤。

大小模型協同動態(tài)解碼


圖3 R-Stitch方法流程圖

熵引導的動態(tài)切換

基于上述實驗觀察,團隊提出了一種能根據熵動態(tài)切換大小模型的解碼框架R-Stitch,讓推理既快又穩(wěn)。

核心思路是:

讓小模型 (SLM)盡可能多地負責推理,以提升速度;

讓大模型 (LLM)只在「高熵、高風險」的時刻介入,以保證正確率;

當LLM處理完復雜部分、進入「低熵」區(qū)間時,它又能把控制權交還給SLM,繼續(xù)快速生成。

在每一步生成中,模型都會對所有候選詞計算一個概率分布,研究人員用這個分布的歸一化熵值(介于0到1之間)來衡量不確定性。

當SLM的熵值低于閾值τ(表示確定性高)時,它繼續(xù)生成;

當熵值高于閾值時,說明「有點拿不準」,此時就交由LLM接手;

反過來,當 LLM 的熵再次降到閾值以下時,它會把控制權還給SLM

這種基于熵的雙向切換策略,使系統能在推理鏈中靈活往返,實現速度與精度的動態(tài)平衡。

基于強化學習的動態(tài)切換

在R-Stitch 基礎之上,團隊進一步提出了 R-Stitch?,通過強化學習讓一個輕量級路由器學會更智能地決策何時切換。

這個路由器會在高熵時段讀取當前模型隱狀態(tài),判斷是繼續(xù)用 SLM 還是交給 LLM。

團隊為它設計了兩種獎勵信號

準確率獎勵:答案正確則加分;

效率獎勵:計算越快越好,但前提是不能犧牲正確率。

為準確評估推理成本,R-Stitch?引入了真實延遲感知的獎勵函數。

總的獎勵形式為:


其中
表示預測正確與否,是整條推理軌跡的估計延遲,λ為平衡系數。

延遲只在輸出正確時被懲罰,確保模型不會「為快而快」。

由于在強化學習中直接測量每個樣本每條采樣軌跡的真實延遲代價太高,R-Stitch?采用了延遲估計器。

團隊為每個模型在不同輸入長度和緩存大小下采樣延時數據,并用線性回歸擬合出它們的延遲曲線。

預填充的延遲被建模為:


其中
表示當前處理的token數量,為緩存長度,系數a, b, c, d由實測數據回歸得到。

解碼階段只需將
,得到:


最終,整條推理軌跡的延遲由所有步驟的時間求和獲得。

通過這種方式,路由器在訓練時就能「腦補」每個決策的時間成本,真正實現延遲感知的策略學習——既考慮答得準,也懂得算得快。

實驗結果

速度提上去,精度穩(wěn)得住


圖4 所提方法在數學推理數據集上的表現,所有延時均在vLLM推理框架下實測

團隊將所提方法集成到vLLM中,并在多個數學推理基準上評估了所提方法。結果顯示,R-Stitch在幾乎不損失準確率的前提下,顯著降低了推理延遲:以7B 與14B模型為例,在合理閾值下可實現約2–3×的整體加速,而在更大模型上提速可達約3–4×。

當閾值進一步提高時,速度繼續(xù)上升,但會帶來精度下降,形成穩(wěn)定的效率–精度平衡。

相比之下,投機采樣在一致性較低的模型組合中常因頻繁回退導致開銷上升,甚至比原生 LLM 更慢;僅用小模型雖快但精度顯著下降。

總體來看,R-Stitch的熵路由機制在不同模型規(guī)模和推理預算下都表現穩(wěn)健,實現了「快而不失準」的推理路徑。

進一步地,R-Stitch?通過引入強化學習路由器,使切換策略更加穩(wěn)定,在不同閾值下都能保持較優(yōu)的速度–精度表現。


圖5 R-Stitch?與投機解碼的逐樣本對比(LLM-7B, AMC 數據集)。 每個柱狀條表示單個樣本相對于大模型基線的加速比,顏色表示推理是否正確。虛線為無加速(1×),黑色曲線展示了各樣本的token減少比例。

從樣本級對比可以看到,R-Stitch?在大多數樣本上都能實現穩(wěn)定提速,而投機解碼僅在少量樣本中表現出加速,大部分情況下反而因為一致性不足而變慢。

理論上,投機解碼的加速上限受限于大小模型的延遲差距,在7B以及1.5B的模型組合上當一致性極高時最多只能接近2×;而R-Stitch?額外利用了小模型生成更簡潔的表達,保持答案正確的同時,實際加速最高可達約 14×。


圖6 R-Stitch與提早退出方法結合的效果

在此之外,團隊還驗證了R-Stitch能否與免訓練的提早退出方法DEER協同工作,以進一步提升解碼效率。DEER會在模型信心超過閾值時提前結束推理,而 R-Stitch 通過熵路由在生成過程中動態(tài)切換大小模型。兩者結合后,在縮短推理路徑的同時,也顯著降低了每個token的計算成本。

從結果來看,R-Stitch與DEER的組合在多個數據集上都實現了顯著加速:在AIME上,生成token數量減少一半以上,延遲從210秒降至92秒;

在GPQA-D上,推理時間從117秒降至18秒,同時準確率還略有提升,對比原始LLM-7B推理相當于約9.5×加速。

這說明兩種機制天然互補:DEER 縮短了生成序列,而R-Stitch降低了單步成本且進一步縮短生成序列。

總結

R-Stitch提出了一種基于熵的不確定性路由機制,讓大小模型在推理過程中動態(tài)協作:小模型負責簡單部分,大模型處理關鍵步驟,從而在不損失精度的前提下顯著提速。

在此基礎上,R-Stitch?通過強化學習路由器進一步提升了切換的智能性與穩(wěn)定性,實現了更平衡的速度–精度表現。

整體來看,R-Stitch提供了一種讓大小模型協同加速、兼顧靈活性與效率的高效推理方案。

參考資料:

https://arxiv.org/abs/2507.17307

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
65分鐘鏖戰(zhàn)!國羽NO.1險翻車,復仇4號種子進決賽,靜候隊友爭冠

65分鐘鏖戰(zhàn)!國羽NO.1險翻車,復仇4號種子進決賽,靜候隊友爭冠

劉姚堯的文字城堡
2025-10-18 18:44:42
103歲楊振寧逝世!最后露面時早有端倪,醫(yī)生曾說他脖子供血不足

103歲楊振寧逝世!最后露面時早有端倪,醫(yī)生曾說他脖子供血不足

小seven的囧囧啊
2025-10-18 14:06:55
為了寬慰觀眾,《沉默的榮耀》在結局撒了一個“謊”,太戳心了

為了寬慰觀眾,《沉默的榮耀》在結局撒了一個“謊”,太戳心了

八卦南風
2025-10-17 18:20:12
有一種痛苦叫買了“頂樓帶露臺”的房子,才住三個月就想搬家!

有一種痛苦叫買了“頂樓帶露臺”的房子,才住三個月就想搬家!

裝修秀
2025-07-11 10:55:03
美國終于怕了,比稀土更致命的王牌,終于出手了!萬斯:中國要冷靜

美國終于怕了,比稀土更致命的王牌,終于出手了!萬斯:中國要冷靜

薦史
2025-10-17 19:35:32
美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

美女白色露臍T恤配藍色瑜伽褲,性感值拉滿,簡直是行走的 荷爾蒙

小喬古裝漢服
2025-09-24 07:20:03
演員克拉拉官宣離婚!結束6年婚姻!曾被評為亞洲第一美女!

演員克拉拉官宣離婚!結束6年婚姻!曾被評為亞洲第一美女!

調侃國際觀點
2025-10-17 20:58:13
董路:沒跟孩子們簽約有點后悔,當時太在乎情懷了

董路:沒跟孩子們簽約有點后悔,當時太在乎情懷了

茜子足球
2025-10-18 14:34:22
我被裁員那天,丈夫收購了我公司開除了我上司,他:你是我的人

我被裁員那天,丈夫收購了我公司開除了我上司,他:你是我的人

清茶淺談
2025-08-25 20:31:04
1:10壓倒性劣勢?巴鐵效仿中國戰(zhàn)術,阿塔緊急增兵,事態(tài)將失控

1:10壓倒性劣勢?巴鐵效仿中國戰(zhàn)術,阿塔緊急增兵,事態(tài)將失控

Ck的蜜糖
2025-10-18 11:40:02
誰都沒放眼里的吳家雜役,吳石被抓的時候,拿槍抵住了保密局的人

誰都沒放眼里的吳家雜役,吳石被抓的時候,拿槍抵住了保密局的人

今日美食分享
2025-10-17 05:05:20
中央會議定調:未來5-10年的財富風口,2025年的購房邏輯徹底變了

中央會議定調:未來5-10年的財富風口,2025年的購房邏輯徹底變了

小白鴿財經
2025-10-17 09:26:07
遼沈戰(zhàn)役之謎:東北野戰(zhàn)軍既然啃不動長春,為何敢于南下打錦州?

遼沈戰(zhàn)役之謎:東北野戰(zhàn)軍既然啃不動長春,為何敢于南下打錦州?

超人強動物俱樂部
2025-10-18 16:18:09
弗里克兩次做出打傘手勢,裁判專家:最高可被停賽6場

弗里克兩次做出打傘手勢,裁判專家:最高可被停賽6場

雷速體育
2025-10-19 00:59:07
國乒奪冠不到兩天!日本男團3人發(fā)文表決心!張本智和始終沒忘兩個字

國乒奪冠不到兩天!日本男團3人發(fā)文表決心!張本智和始終沒忘兩個字

最愛乒乓球
2025-10-19 00:05:24
陳偉霆、何穗官宣生子,“好命哥”當爸爸了

陳偉霆、何穗官宣生子,“好命哥”當爸爸了

澎湃新聞
2025-10-18 10:46:28
總參謀長被炸死!他們公開向以色列宣戰(zhàn)

總參謀長被炸死!他們公開向以色列宣戰(zhàn)

大國之翼
2025-10-17 06:53:10
楊振寧去世一天前就上熱搜,官方回應意料之中,離世時間太巧合

楊振寧去世一天前就上熱搜,官方回應意料之中,離世時間太巧合

涵豆說娛
2025-10-18 15:02:21
這是85歲的李訥近照,注意看她的坐姿,終于知道她為何沒去紀念堂

這是85歲的李訥近照,注意看她的坐姿,終于知道她為何沒去紀念堂

文史微鑒
2025-10-13 09:56:25
乒乓球奧運亞軍出局:小勒布倫兩分奪冠,助隊進男團決賽

乒乓球奧運亞軍出局:小勒布倫兩分奪冠,助隊進男團決賽

阿衃體育
2025-10-19 00:33:44
2025-10-19 02:19:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
13648文章數 66219關注度
往期回顧 全部

科技要聞

物理學家楊振寧先生逝世

頭條要聞

鄭麗文高票當選國民黨主席 競選時明確"支持一個中國"

頭條要聞

鄭麗文高票當選國民黨主席 競選時明確"支持一個中國"

體育要聞

泰州隊總分9-8點殺南京隊 晉級蘇超決賽

娛樂要聞

陳偉霆何穗無預警官宣結婚生子

財經要聞

特朗普軟了:對華高額關稅訛詐 不可持續(xù)

汽車要聞

全新領克03家族上市限時售價10.38萬起

態(tài)度原創(chuàng)

家居
藝術
教育
數碼
時尚

家居要聞

因異而生 古今文脈交融

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

其實孩子遠比你想象中更愛你!

數碼要聞

1Kg 重量:聯想預熱來酷 Air 16 輕薄本將于本月發(fā)布

今年秋天,有這幾件單品就夠了

無障礙瀏覽 進入關懷版 日本精品一区二区不卡| 亚洲综合精品香蕉久久网| 裸体美女搡BBBB搡BBBB| 国产人与禽zoz0性伦| 在线看国产精品| 精品国产乱码一区二区三区| 伊人久久精品无码麻豆一区 | 国产成人无码a区在线| 人妻人人操人人舔人人爽| 久久a级片| 亚洲av无码欧洲av无码网站| 欧美同性猛男gay69| 国产av无码一区二区二三区j | 国产精品爽爽VA在线观看无码| AV 亚洲 国产 免费| 国产农村熟妇videos| AV国内高清啪啪| 免费看女人与公拘交酡过程| 超碰人妻在线插| 3级国产操逼片| 三级性爱网站| 日韩免费电影久久久| 精品少妇VA区一区二| 亚洲一区黄色| 久久亚洲男人第一AV网站| 欧美性爱成人| 婷婷午夜影院| 每天更新的免费av片在线观看| 99re这里只有精品7| 亚洲处破女AⅤ一区二区| 国产精品亚洲精品一区二区| 公妇公侵波多野结衣| 国产极品久久久| 国产成人精品高清不卡在线| 搡老女人老91妇女老熟女| 欧美性群另类交| 他掀开裙子把舌头伸进去添视频| Av好色Av熟妇Av| b站永久免费看片大全| 国产久9视频这里只有精品| 国产一区二区在线影院|