夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊發(fā)布SpecExit算法,無(wú)損壓縮端到端加速2.5倍!

0
分享至



以 DeepSeek-R1 等為代表的推理模型(Large Reasoning Models, LRMs),通過(guò)生成更長(zhǎng)的思維鏈,在各類復(fù)雜任務(wù)中取得了更優(yōu)的表現(xiàn)。但長(zhǎng)思維鏈?zhǔn)峭评砟P偷?“雙刃劍”,雖能提升性能,但 “過(guò)度思考” 帶來(lái)的語(yǔ)義冗余會(huì)大幅推高推理成本。

為破解大模型長(zhǎng)思維鏈的效率難題,并且為了更好的端到端加速落地,我們將思考早停與投機(jī)采樣無(wú)縫融合,提出了SpecExit方法,利用輕量級(jí)草稿模型預(yù)測(cè) “退出信號(hào)”,在避免額外探測(cè)開(kāi)銷的同時(shí)將思維鏈長(zhǎng)度縮短 66%,vLLM 上推理端到端加速 2.5 倍。



  • 論文:https://arxiv.org/abs/2509.24248
  • 開(kāi)源代碼:https://github.com/Tencent/AngelSlim

1.“思考早停” 的挑戰(zhàn)

目前對(duì) LRMs 思維鏈壓縮的相關(guān)研究大致可以分為兩類,一類是基于訓(xùn)練的方法,另一類是 Training-Free 的方法,它們都有各自的局限性:

(1)基于訓(xùn)練的方法,通過(guò)標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督微調(diào),或通過(guò)強(qiáng)化學(xué)習(xí)減少思維鏈長(zhǎng)度。盡管壓縮效果顯著,但往往伴隨高昂的訓(xùn)練成本,并導(dǎo)致模型輸出分布被改變,引發(fā)模型可靠性及性能上的擔(dān)憂。

(2)Training-Free 的方法,無(wú)需高昂的訓(xùn)練開(kāi)銷,通過(guò)介入模型的長(zhǎng)思考過(guò)程,監(jiān)控模型的 Logits 或其他輸出信號(hào),來(lái)判斷當(dāng)前思考長(zhǎng)度下,能否提前終止推理。這類方法表明,通過(guò)提前停止可以在不降低準(zhǔn)確率的前提下縮短推理長(zhǎng)度,但其依賴探測(cè)機(jī)制會(huì)帶來(lái)額外計(jì)算開(kāi)銷,并且往往更關(guān)注詞元數(shù)量的減少,而非真正的端到端推理時(shí)延優(yōu)化。



圖 1 SpecExit 實(shí)現(xiàn)端到端加速



圖 2 從模型隱藏狀態(tài)中學(xué)習(xí)到的推理進(jìn)度信號(hào)

針對(duì)以上的問(wèn)題,我們發(fā)現(xiàn)了投機(jī)采樣的天然優(yōu)勢(shì),既能保證模型輸出的一致性,又能從草稿模型隱藏狀態(tài)中提取推理進(jìn)程信號(hào),基于此思路我們提出了 SpecExit 框架。如圖 2 所示,模型的隱藏狀態(tài)中天然蘊(yùn)含了例如置信度、推理進(jìn)度和剩余推理長(zhǎng)度等信號(hào),SpecExit 通過(guò)將這些信號(hào)與投機(jī)采樣結(jié)合,在不引入額外探測(cè)開(kāi)銷的前提下,實(shí)現(xiàn)動(dòng)態(tài)、可靠的思考早停。并且如圖 1 所示,相比于基線和 DEER 等方法,SpecExit 在 vLLM 上端到端加速 2 倍以上,準(zhǔn)確性和推理效率得到雙重保障。

2.SpecExit 方法創(chuàng)新

大模型中多詞元預(yù)測(cè)(Multi-Token Prediction, MTP)的隱藏狀態(tài)可以預(yù)測(cè)未來(lái) N 個(gè)位置的詞元,這表明隱藏狀態(tài)中蘊(yùn)含了豐富的信息。受 MTP 的啟發(fā),SpecExit 的目標(biāo)是:同時(shí)從隱藏狀態(tài)中學(xué)習(xí)表征推理狀態(tài)的「信號(hào)」及未來(lái) N 個(gè)詞元,在保留 MTP 原有加速能力的基礎(chǔ)上,引導(dǎo)思考過(guò)程提前終止,進(jìn)一步提升推理效率。SpecExit 整體框架如圖 3 所示,僅需對(duì) MTP 的隱藏層進(jìn)行低成本的擴(kuò)展,即可高效加速并壓縮推理模型的思維鏈。



圖 3 SpecExit 方法架構(gòu)總覽

2.1 SpecExit 訓(xùn)練流程

(1)數(shù)據(jù)構(gòu)建:我們首先獲取基礎(chǔ)模型生成的完整輸出,并提取位于 詞元之間的推理內(nèi)容。為了識(shí)別有效的推理軌跡,我們迭代嘗試在段落結(jié)束位置插入推理結(jié)束詞元 ,并驗(yàn)證生成的最終答案是否與原始輸出匹配。如果答案保持一致,則后續(xù)的推理內(nèi)容被視為冗余。因此,僅保留產(chǎn)生正確答案所需的最小推理片段作為訓(xùn)練數(shù)據(jù)。

(2)信號(hào)標(biāo)注:置信度 Confidence 定義為預(yù)測(cè)步驟中概率的幾何平均數(shù),反映生成的可靠性;剩余推理長(zhǎng)度 Remain 定義為從當(dāng)前詞元位置到最早有效 插入點(diǎn)的剩余詞元數(shù)量,量化推理的剩余工作量;推理進(jìn)度 Progress 表示為從 0 到 1 的歸一化值,捕捉思維鏈的相對(duì)進(jìn)度。

(3)信號(hào)回歸:我們提出了一種簡(jiǎn)便高效的擴(kuò)展方法,通過(guò)在 MTP 模塊的線性投影層中引入少量額外維度來(lái)回歸推理信號(hào)。這些維度與詞元分類權(quán)重正交,確保信號(hào)回歸不會(huì)干擾推測(cè)解碼訓(xùn)練的收斂。多任務(wù)學(xué)習(xí)(Multi-Task Learning, MTL)將詞元分類損失和信號(hào)回歸損失聯(lián)合優(yōu)化,整體訓(xùn)練目標(biāo)如下:



其中,詞元分類預(yù)測(cè)使用標(biāo)準(zhǔn)交叉熵?fù)p失,置信度和推理進(jìn)度使用均方誤差(Mean Squared Error, MSE),剩余推理長(zhǎng)度使用均方對(duì)數(shù)誤差(Mean Squared Logarithmic Error, MSLE),λc、λp、λr 表示動(dòng)態(tài)權(quán)重系數(shù)。置信度、推理進(jìn)度、剩余推理長(zhǎng)度三個(gè)信號(hào)量的損失函數(shù)公式如下:



由于信號(hào)回歸損失的收斂速度比詞元分類損失更快,我們采用基于梯度的動(dòng)態(tài)權(quán)重策略來(lái)平衡不同任務(wù)的貢獻(xiàn)。該機(jī)制為梯度幅度較小的任務(wù)分配更高權(quán)重,防止梯度較大的任務(wù)主導(dǎo)學(xué)習(xí)過(guò)程,從而確保所有任務(wù)都能得到有效優(yōu)化,訓(xùn)練損失收斂曲線如圖 4 所示。



圖 4 訓(xùn)練 Loss 收斂曲線



圖 5 信號(hào)引導(dǎo)的投機(jī)采樣思考早停 Inference 過(guò)程

2.2 SpecExit 在 vLLM 推理流程

我們基于投機(jī)采樣框架構(gòu)建了思考早停機(jī)制,其中草稿模型首先產(chǎn)出一系列候選詞元,隨后由目標(biāo)模型并行驗(yàn)證。特別的,在目標(biāo)模型驗(yàn)證流程中,除了計(jì)算下一個(gè)詞元的 Logits 外,還計(jì)算最后一個(gè)被接受詞元對(duì)應(yīng)的最終隱藏狀態(tài)。如圖 6 所示,該表征通過(guò)草稿模型的輕量級(jí)線性層處理后,額外生成置信度分?jǐn)?shù)、推理進(jìn)度以及剩余推理長(zhǎng)度三個(gè)信號(hào)的預(yù)測(cè)值。

原始信號(hào)存在一定的波動(dòng)性,可能導(dǎo)致過(guò)早或不穩(wěn)定的思考早停。因此 SpecExit 采用指數(shù)加權(quán)移動(dòng)平均(Exponentially Weighted Moving Average, EWMA)方法對(duì)信號(hào)進(jìn)行平滑處理。在每次 Decoding 中,平滑值更新為當(dāng)前信號(hào)與先前平滑值的加權(quán)平均,確保了思考早停在持續(xù)解碼階段的高魯棒性。



圖 6 SpecExit 思維鏈壓縮示例

同時(shí),為確保思考早停的決策發(fā)生在語(yǔ)義連貫的邊界處,我們引入了一類稱為步驟分割詞元的特殊標(biāo)識(shí)符,用于指示生成文本中的自然分段點(diǎn)。具體而言,步驟分割詞元可分為兩類:

(1)段落分隔符(如.\n\n),標(biāo)記段落或推理單元的結(jié)束;

(2)語(yǔ)義上的句子間邏輯連接詞(如 "But"、"So" 或 "Therefore"),常在推理過(guò)程中標(biāo)示語(yǔ)義轉(zhuǎn)換或邏輯轉(zhuǎn)折。

由于基于段落分隔符的分割策略更具普適性,我們的實(shí)驗(yàn)?zāi)J(rèn)采用該策略。當(dāng)采樣到的詞元屬于上述集合時(shí),且預(yù)測(cè)的信號(hào)超過(guò)預(yù)設(shè)閾值,則判定推理過(guò)程已充分。此時(shí),SpecExit 會(huì)在當(dāng)前分割詞元位置截?cái)嘁呀邮艿牟莞逶~元,并將目標(biāo)模型的最新詞元替換為 ,從而確保終止點(diǎn)位于自然邊界的同時(shí)保持生成文本的連貫性。并且 SpecExit 在 vLLM 框架上已端到端支持,在實(shí)踐應(yīng)用上可以很便捷的集成。

3. 實(shí)驗(yàn)結(jié)果

我們?cè)跀?shù)學(xué)、科學(xué)、編程和邏輯基準(zhǔn)測(cè)試上對(duì) SpecExit 方法進(jìn)行了評(píng)估,如表 1 實(shí)驗(yàn)結(jié)果顯示,SpecExit 顯著縮短了推理過(guò)程。在 Qwen3-4B-Thinking-2507 模型上,GSM8K 和 ARC-Challenge 的數(shù)據(jù)集推理長(zhǎng)度分別減少了 54% 和 53%;在 DeepSeek-R1-Distill-Llama-8B 模型上,推理長(zhǎng)度分別減少了 66% 和 64%。推理長(zhǎng)度大幅縮短的同時(shí),SpecExit 基本無(wú)額外探測(cè)開(kāi)銷,所以 vLLM 上端到端加速提升顯著,例如在 GSM8K 數(shù)據(jù)集上,與投機(jī)采用基線 EAGLE3 相比,SpecExit 在兩個(gè)模型上分別實(shí)現(xiàn)了 1.9 倍和 2.5 倍的加速比。與此同時(shí),SpecExit 在各基準(zhǔn)測(cè)試上 Acc 基本無(wú)損。



表 1 SpecExit 評(píng)估與性能測(cè)試,Acc 表示精度,Tok 表示輸出詞元數(shù)量,Lat 表示端到端時(shí)延

與此相比,其他思考早停方法雖然也可以減少輸出長(zhǎng)度,但延遲增益很有限,甚至在某些數(shù)據(jù)集上,額外的計(jì)算開(kāi)銷反而導(dǎo)致推理速度變慢。而 SpecExit 不僅縮短思考長(zhǎng)度,而且推理時(shí)延加速非常明顯,在實(shí)際應(yīng)用中更加實(shí)用。

對(duì)于思考停止信號(hào)的選擇,我們進(jìn)行了融合信號(hào)與分別單獨(dú)使用置信度 Confidence、推理進(jìn)度 Progress、剩余推理長(zhǎng)度 Remain 的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖 7 所示,融合多種信號(hào)的策略能夠在減少輸出長(zhǎng)度和維持精度表現(xiàn)之間做到更好的平衡。



圖 7 信號(hào)類型消融實(shí)驗(yàn)

4. 總結(jié)

SpecExit 結(jié)合投機(jī)采樣,在不影響準(zhǔn)確性的前提下在 vLLM 上實(shí)現(xiàn)最高達(dá) 2.5 倍的端到端推理速度提升,是 LRMs 實(shí)踐落地的非常有效的加速算法。正是利用了投機(jī)采樣的草稿模型,SpecExit 能在解碼過(guò)程中同時(shí)預(yù)測(cè)未來(lái)詞元和思考早停信號(hào),不會(huì)增加額外的探測(cè)開(kāi)銷,與其他方法相比有更多的性能優(yōu)勢(shì),在實(shí)踐落地非常實(shí)用。

在多樣化任務(wù)和模型上的實(shí)驗(yàn)表明,SpecExit 泛化能力非常好,并且該方法揭示了隱藏狀態(tài)作為高效推理信息信號(hào)的潛力,也將為繼續(xù)深入發(fā)掘隱藏狀態(tài)作用的后續(xù)研究工作提供很大的借鑒意義。歡迎關(guān)注我們的 SpecExit 方法。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
扔掉你的九分褲吧,過(guò)時(shí)了!今年推薦這3種“過(guò)踝褲”,洋氣顯高

扔掉你的九分褲吧,過(guò)時(shí)了!今年推薦這3種“過(guò)踝褲”,洋氣顯高

時(shí)尚穿搭生活館
2025-10-25 09:13:01
大眾高爾夫停產(chǎn),荷蘭用行動(dòng)證明:中國(guó)的東西不是好“拿”的!

大眾高爾夫停產(chǎn),荷蘭用行動(dòng)證明:中國(guó)的東西不是好“拿”的!

阿鳧愛(ài)吐槽
2025-10-23 14:58:57
蔡孝乾叛變后,他又在臺(tái)灣潛伏了38年,并安全返回了大陸!

蔡孝乾叛變后,他又在臺(tái)灣潛伏了38年,并安全返回了大陸!

普覽
2025-10-24 08:47:54
美股三大指數(shù)集體收漲 均再創(chuàng)歷史新高

美股三大指數(shù)集體收漲 均再創(chuàng)歷史新高

財(cái)聯(lián)社
2025-10-25 04:02:16
He獨(dú)立反擊戰(zhàn),中國(guó)打贏了?。厍蛑R(shí)局

He獨(dú)立反擊戰(zhàn),中國(guó)打贏了?。厍蛑R(shí)局

地球知識(shí)局
2025-10-24 20:42:59
楊振寧一生最大的遺憾:年薪萬(wàn)刀未救小舅子,杜致仁用安眠藥結(jié)束生命

楊振寧一生最大的遺憾:年薪萬(wàn)刀未救小舅子,杜致仁用安眠藥結(jié)束生命

星辰夜語(yǔ)
2025-10-22 14:14:12
“地王”項(xiàng)目開(kāi)分銷,車位壟斷引公憤,綠城上海連環(huán)翻車

“地王”項(xiàng)目開(kāi)分銷,車位壟斷引公憤,綠城上海連環(huán)翻車

地產(chǎn)深度報(bào)道
2025-10-24 21:57:50
楊振寧追悼會(huì)現(xiàn)場(chǎng):翁帆站首位神情悲傷,她是最大的功臣

楊振寧追悼會(huì)現(xiàn)場(chǎng):翁帆站首位神情悲傷,她是最大的功臣

小魚愛(ài)魚樂(lè)
2025-10-25 09:24:19
寧波一男子頭朝下跳進(jìn)泳池淺水區(qū),撞到池底致頸椎重傷去世,館方:女兒喊他沒(méi)有答應(yīng),其他人未及時(shí)發(fā)現(xiàn)

寧波一男子頭朝下跳進(jìn)泳池淺水區(qū),撞到池底致頸椎重傷去世,館方:女兒喊他沒(méi)有答應(yīng),其他人未及時(shí)發(fā)現(xiàn)

極目新聞
2025-10-24 19:46:20
一人單挑36名壯漢,17歲就染上艾滋,美國(guó)“國(guó)民閨女”的豪放情史

一人單挑36名壯漢,17歲就染上艾滋,美國(guó)“國(guó)民閨女”的豪放情史

情感大頭說(shuō)說(shuō)
2025-10-25 04:46:21
扎心,郭富城生女僅2天,韓庚高調(diào)官宣二胎,撕碎天王最后的體面

扎心,郭富城生女僅2天,韓庚高調(diào)官宣二胎,撕碎天王最后的體面

冷紫葉
2025-10-24 18:19:00
“大嫂,快把你的月嫂讓給我們”小叔子剛說(shuō)完,就被老公趕出家門

“大嫂,快把你的月嫂讓給我們”小叔子剛說(shuō)完,就被老公趕出家門

多久情感
2025-10-24 07:17:46
高市早苗剛上任就打破守了78年的紅線,說(shuō)明:東風(fēng)5C才是和平盾牌

高市早苗剛上任就打破守了78年的紅線,說(shuō)明:東風(fēng)5C才是和平盾牌

文史微鑒
2025-10-24 09:44:01
悲催!死了還被當(dāng)籌碼,臺(tái)州一孩子喝奶茶喪命,父母追責(zé)商家索賠

悲催!死了還被當(dāng)籌碼,臺(tái)州一孩子喝奶茶喪命,父母追責(zé)商家索賠

火山詩(shī)話
2025-10-25 07:14:08
早知道|AC米蘭意甲多賽一場(chǎng)領(lǐng)先2分

早知道|AC米蘭意甲多賽一場(chǎng)領(lǐng)先2分

北青網(wǎng)-北京青年報(bào)
2025-10-25 08:52:02
安世產(chǎn)品正被替代!荷蘭大學(xué)教授:撤回命令,向中國(guó)人道歉!

安世產(chǎn)品正被替代!荷蘭大學(xué)教授:撤回命令,向中國(guó)人道歉!

芯智訊
2025-10-25 09:32:30
澤連斯基簽署法律:允許戰(zhàn)時(shí)向土耳其和英國(guó)派遣武裝力量!拉夫羅夫:?;鹨馕吨鵀醮蟛糠秩杂杉{粹政權(quán)控制

澤連斯基簽署法律:允許戰(zhàn)時(shí)向土耳其和英國(guó)派遣武裝力量!拉夫羅夫:?;鹨馕吨鵀醮蟛糠秩杂杉{粹政權(quán)控制

每日經(jīng)濟(jì)新聞
2025-10-22 18:26:17
飯店的大廚,為何都湯勺炒菜?

飯店的大廚,為何都湯勺炒菜?

歷史大學(xué)堂
2025-10-22 23:27:28
這4個(gè)日本羽絨服:幾乎不打廣告,實(shí)力卻不輸波司登、始祖鳥(niǎo)

這4個(gè)日本羽絨服:幾乎不打廣告,實(shí)力卻不輸波司登、始祖鳥(niǎo)

時(shí)尚搭配師Nicole
2025-10-16 16:49:54
廣東體育局回應(yīng)“換馬甲”風(fēng)波:西班牙來(lái)的人不夠臨時(shí)向美國(guó)借人

廣東體育局回應(yīng)“換馬甲”風(fēng)波:西班牙來(lái)的人不夠臨時(shí)向美國(guó)借人

狼叔評(píng)論
2025-10-25 00:14:14
2025-10-25 10:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11554文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

傳特斯拉人形機(jī)器人再延期,雙手只能用6周

頭條要聞

"感動(dòng)中國(guó)"的女孩當(dāng)媽媽了 耳聾一路逆襲成清華博士

頭條要聞

"感動(dòng)中國(guó)"的女孩當(dāng)媽媽了 耳聾一路逆襲成清華博士

體育要聞

被唾罵,被歌頌,一個(gè)隊(duì)長(zhǎng)的自我救贖

娛樂(lè)要聞

VOGUE大合照太勢(shì)利:影后只能站角落?

財(cái)經(jīng)要聞

宗馥莉已回娃哈哈上班 娃小宗暫時(shí)退場(chǎng)

汽車要聞

精致實(shí)用還智能 試駕體驗(yàn)全新歐拉5

態(tài)度原創(chuàng)

健康
教育
親子
旅游
公開(kāi)課

骨頭"咔咔響"?肌骨超聲到底有何用

教育要聞

教育部:不得以考試成績(jī)對(duì)學(xué)生排名

親子要聞

臭小子居然給我裝上了人類幼崽成長(zhǎng)計(jì)劃

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 正在播放刚结婚的少妇| 国产成人无码激情视频| 日韩高清无码影视| XXXX日本少妇| 三上悠亚在线精品二区| 芒果乱码国色天香| 亚洲一二三四五六七区精品| 亚洲人人视频| 久久麻豆精亚洲AV品国产吗合肥 | 国产精品久久久久无码AV铜川| 免费国产午夜理论片不卡| 国产成人无码免费一区二区三区| 亚洲精品另类| 久热这里只有精品99国产6| 日本高清中文字幕一区二区三区 | 看免费的无码区特aa毛片| 成人精h无码男男免费| 交换配乱吟粗大交换大叫视频 | 日韩一区二区不卡黄色伦理电影 | 一边捏奶头一边高潮视频| av网页国产| 亚洲国产成人精品无码区二本| 狠狠热久久伊人av| 亚洲综合国产精品第一页| 亚洲最大无码中文字幕网站| 欧美性性性性性色大片免费的| 亚洲第一二区aV蜜桃.蜜芽| 一区二区三区日韩无码| 人妻少妇精品久久久久久蜜臀av| 国产亚洲高清不卡在线观看| 午夜精品久久久久9999高清| 日韩丰满视频| 好吊视频一区二区三区人妖| 亚洲欧美日韩精品专区| XXXX互换人妻中国69| 亚洲AV无码专区国产乱码电影| 97无码精品人妻一区二区1| 亚洲AV最新| 操女人的逼国产| 自拍偷自拍亚洲精品10p| 亚洲成人AV免费|