新智元報道
編輯:LRST
【新智元導讀】針對「大模型推理速度慢,生成token高延遲」的難題,北航、浙大等提出R-Stitch框架,通過大小模型動態(tài)協作,衡量任務風險后靈活選擇:簡單任務用小模型,關鍵部分用大模型。實驗顯示推理速度提升最高4倍,同時保證高準確率。
近兩年,思維鏈(Chain-of-Thought, CoT)推理讓大語言模型在復雜推理任務上展現出前所未有的能力——從數學解題到邏輯分析,表現令人驚嘆。
然而,這種強大的推理能力也帶來了一個長期存在的挑戰(zhàn):推理過程過于緩慢。
每生成一個 token,模型都要完整算一遍前向傳播。長一點的推理鏈,幾千上萬個 token,不僅延遲高,成本也成倍增加。
在加速大語言模型的諸多方向中,Speculative Decoding(投機解碼) 一直是備受關注的方案。
它的思路簡單:讓小模型(SLM)先預測一段輸出,大模型(LLM)校驗一致性。若一致,大模型就能夠一次接受小模型的輸出,減少大模型解碼的次數,從而加速。
莫納什、北航、浙江大學等機構的研究者提出了一種動態(tài)拼接的大模型推理框架R-Stitch,讓大小模型智能協作,在vLLM推理框架下提速最高可達4倍。
項目主頁:https://caesarhhh.github.io/R-Stitch
論文鏈接:https://arxiv.org/abs/2507.17307
研究團隊在AMC數據集上,對投機解碼測試了多組模型組合,包括DeepSeek-R1-Distill-Qwen-1.5B/7B、L1-1.5B-Short、以及 Qwen2.5-Math-1.5B/7B-Oat-Zero等。
結果顯示出一致的趨勢:token 一致性越高,加速越明顯;一致性越低,速度提升就越有限。
并且,并非所有樣本都能加速。團隊觀察到相當一部分輸入的速度提升低于 1×,即比原始推理還慢——說明當模型間差異較大時,投機解碼的一致性校驗可能反而帶來開銷。
圖1 Token一致性與推理加速分析。 (a) 不同大模型–小模型組合在AMC數據集上的token一致率與加速比關系;(b) 各樣本的加速比分布,可見部分樣本出現低于1×的情況;(c) 在兩者都答對的問題上,L1-1.5B-Short的推理更短、更簡潔。
更有意思的是,在DeepSeek-R1-Distill-Qwen -7B與L1-1.5B-Short的實驗中,研究人員發(fā)現:
當兩者都答對時,L1-Short的推理長度遠小于該7B模型。
這意味著:小模型可能以更短的推理路徑到達相同結論,而投機解碼對token一致性的強調,則忽略了這些更高效的路徑。
經驗熵分析
不確定性揭示推理風險
圖2 熵與錯誤位置的關系。 (a) 錯誤解答的整體熵明顯高于正確解答;(b) 熵分布高度集中在0附近,大多數token具有極低或接近零的熵;(c) 首個導致錯誤的 token 附近區(qū)域平均熵更高,說明模型往往在不確定區(qū)域產生錯誤。
在讓大小模型協同推理之前,需要弄清楚一個關鍵問題:
小模型在什么時候能被信任?又是什么跡象預示它可能要「翻車」?
為此,團隊在AMC數據集 上,對推理過程中的token熵分布進行了深入分析,使用DeepSeek-R1-Distill-Qwen-7B作為大模型,L1-1.5B-Short作為小模型,逐步揭示出三個穩(wěn)定的規(guī)律。
首先,大多數token的熵極低。統計結果顯示,只有約10%的token熵超過 0.1,而絕大部分幾乎為零。這意味著模型在大部分生成過程中都非?!缸孕拧梗嬲牟淮_定區(qū)域其實只占很小一部分。
其次,錯誤推理的平均熵顯著更高。在同樣的題目上,錯誤答案的 token 熵明顯更高,說明模型在這些題目的推理中更不確定。
并且,團隊觀察到一個關鍵細節(jié):在小模型出錯的樣本中,錯誤往往起源于局部的高熵區(qū)域。
在第一個導致錯誤的 token 附近 token的平均熵顯著高于全局水平,因此上述現象可以說明高熵的地方更容易導致錯誤。
大小模型協同動態(tài)解碼
圖3 R-Stitch方法流程圖
熵引導的動態(tài)切換
基于上述實驗觀察,團隊提出了一種能根據熵動態(tài)切換大小模型的解碼框架R-Stitch,讓推理既快又穩(wěn)。
核心思路是:
讓小模型 (SLM)盡可能多地負責推理,以提升速度;
讓大模型 (LLM)只在「高熵、高風險」的時刻介入,以保證正確率;
當LLM處理完復雜部分、進入「低熵」區(qū)間時,它又能把控制權交還給SLM,繼續(xù)快速生成。
在每一步生成中,模型都會對所有候選詞計算一個概率分布,研究人員用這個分布的歸一化熵值(介于0到1之間)來衡量不確定性。
當SLM的熵值低于閾值τ(表示確定性高)時,它繼續(xù)生成;
當熵值高于閾值時,說明「有點拿不準」,此時就交由LLM接手;
反過來,當 LLM 的熵再次降到閾值以下時,它會把控制權還給SLM
這種基于熵的雙向切換策略,使系統能在推理鏈中靈活往返,實現速度與精度的動態(tài)平衡。
基于強化學習的動態(tài)切換
在R-Stitch 基礎之上,團隊進一步提出了 R-Stitch?,通過強化學習讓一個輕量級路由器學會更智能地決策何時切換。
這個路由器會在高熵時段讀取當前模型隱狀態(tài),判斷是繼續(xù)用 SLM 還是交給 LLM。
團隊為它設計了兩種獎勵信號:
準確率獎勵:答案正確則加分;
效率獎勵:計算越快越好,但前提是不能犧牲正確率。
為準確評估推理成本,R-Stitch?引入了真實延遲感知的獎勵函數。
總的獎勵形式為:
其中
表示預測正確與否,是整條推理軌跡的估計延遲,λ為平衡系數。
延遲只在輸出正確時被懲罰,確保模型不會「為快而快」。
由于在強化學習中直接測量每個樣本每條采樣軌跡的真實延遲代價太高,R-Stitch?采用了延遲估計器。
團隊為每個模型在不同輸入長度和緩存大小下采樣延時數據,并用線性回歸擬合出它們的延遲曲線。
預填充的延遲被建模為:
其中
表示當前處理的token數量,為緩存長度,系數a, b, c, d由實測數據回歸得到。
解碼階段只需將
,得到:
最終,整條推理軌跡的延遲由所有步驟的時間求和獲得。
通過這種方式,路由器在訓練時就能「腦補」每個決策的時間成本,真正實現延遲感知的策略學習——既考慮答得準,也懂得算得快。
實驗結果
速度提上去,精度穩(wěn)得住
圖4 所提方法在數學推理數據集上的表現,所有延時均在vLLM推理框架下實測
團隊將所提方法集成到vLLM中,并在多個數學推理基準上評估了所提方法。結果顯示,R-Stitch在幾乎不損失準確率的前提下,顯著降低了推理延遲:以7B 與14B模型為例,在合理閾值下可實現約2–3×的整體加速,而在更大模型上提速可達約3–4×。
當閾值進一步提高時,速度繼續(xù)上升,但會帶來精度下降,形成穩(wěn)定的效率–精度平衡。
相比之下,投機采樣在一致性較低的模型組合中常因頻繁回退導致開銷上升,甚至比原生 LLM 更慢;僅用小模型雖快但精度顯著下降。
總體來看,R-Stitch的熵路由機制在不同模型規(guī)模和推理預算下都表現穩(wěn)健,實現了「快而不失準」的推理路徑。
進一步地,R-Stitch?通過引入強化學習路由器,使切換策略更加穩(wěn)定,在不同閾值下都能保持較優(yōu)的速度–精度表現。
圖5 R-Stitch?與投機解碼的逐樣本對比(LLM-7B, AMC 數據集)。 每個柱狀條表示單個樣本相對于大模型基線的加速比,顏色表示推理是否正確。虛線為無加速(1×),黑色曲線展示了各樣本的token減少比例。
從樣本級對比可以看到,R-Stitch?在大多數樣本上都能實現穩(wěn)定提速,而投機解碼僅在少量樣本中表現出加速,大部分情況下反而因為一致性不足而變慢。
理論上,投機解碼的加速上限受限于大小模型的延遲差距,在7B以及1.5B的模型組合上當一致性極高時最多只能接近2×;而R-Stitch?額外利用了小模型生成更簡潔的表達,保持答案正確的同時,實際加速最高可達約 14×。
圖6 R-Stitch與提早退出方法結合的效果
在此之外,團隊還驗證了R-Stitch能否與免訓練的提早退出方法DEER協同工作,以進一步提升解碼效率。DEER會在模型信心超過閾值時提前結束推理,而 R-Stitch 通過熵路由在生成過程中動態(tài)切換大小模型。兩者結合后,在縮短推理路徑的同時,也顯著降低了每個token的計算成本。
從結果來看,R-Stitch與DEER的組合在多個數據集上都實現了顯著加速:在AIME上,生成token數量減少一半以上,延遲從210秒降至92秒;
在GPQA-D上,推理時間從117秒降至18秒,同時準確率還略有提升,對比原始LLM-7B推理相當于約9.5×加速。
這說明兩種機制天然互補:DEER 縮短了生成序列,而R-Stitch降低了單步成本且進一步縮短生成序列。
總結
R-Stitch提出了一種基于熵的不確定性路由機制,讓大小模型在推理過程中動態(tài)協作:小模型負責簡單部分,大模型處理關鍵步驟,從而在不損失精度的前提下顯著提速。
在此基礎上,R-Stitch?通過強化學習路由器進一步提升了切換的智能性與穩(wěn)定性,實現了更平衡的速度–精度表現。
整體來看,R-Stitch提供了一種讓大小模型協同加速、兼顧靈活性與效率的高效推理方案。
參考資料:
https://arxiv.org/abs/2507.17307
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.