不犧牲任何生成質(zhì)量,將多模態(tài)大模型推理最高加速3.2倍!
華為諾亞方舟實(shí)驗(yàn)室最新研究已入選NeurIPS 2025。
截至目前,投機(jī)推理(Speculative Decoding)技術(shù)已成為大語言模型(LLM)推理加速的“標(biāo)準(zhǔn)動(dòng)作”,但在多模態(tài)大模型(VLM)上的應(yīng)用卻舉步維艱,現(xiàn)有方法加速比不到1.5倍,性能提升有限。
為此,華為諾亞方舟實(shí)驗(yàn)室提出了一種專為視覺語言模型設(shè)計(jì)的全新推理加速框架——
視覺感知投機(jī)推理(Vision-Aware Speculative Decoding, ViSpec),首次在該領(lǐng)域取得顯著突破。
ViSpec通過引入輕量級的視覺適配器,解決了草稿模型在處理高冗余圖像信息時(shí)的效率難題,在不犧牲任何生成質(zhì)量的前提下,實(shí)現(xiàn)了對主流VLM最高達(dá)3.22倍的推理加速。
下面詳細(xì)來看——
VLM用投機(jī)推理技術(shù)加速有限
大模型的多模態(tài)能力,正以前所未有的速度發(fā)展,但一個(gè)“老大難”問題也日益凸顯:推理速度。
當(dāng)模型需要一邊“看圖”一邊“說話”,尤其是在生成長篇圖文并茂的回復(fù)時(shí),計(jì)算成本和時(shí)間延遲會(huì)急劇增加,這極大地限制了VLM在實(shí)時(shí)交互、邊緣部署等場景下的應(yīng)用。
為了讓大模型“說”得更快,學(xué)術(shù)界和工業(yè)界普遍采用投機(jī)推理技術(shù)。它就像一個(gè)聰明的“軍師”(小型的草稿模型)和一個(gè)決斷的“主公”(大型的目標(biāo)模型)。
“軍師”快速思考,提出多種可能的“計(jì)策”(預(yù)測未來詞元),然后“主公”一次性并行驗(yàn)證這些計(jì)策的優(yōu)劣,從而避免了“主公”一步一步思考的緩慢過程,大大提升了生成速度。
然而,這套在純文本領(lǐng)域玩得風(fēng)生水起的“君臣輔佐”模式,一旦遇到圖文并茂的多模態(tài)任務(wù),似乎就“水土不服”了。現(xiàn)有方法在VLM上的加速效果普遍低于1.5倍,幾乎到了可以忽略不計(jì)的程度。
問題出在哪?
華為諾亞方舟實(shí)驗(yàn)室的研究人員發(fā)現(xiàn),關(guān)鍵在于視覺信息的處理。
對于人類來說,看一張圖可能只需要一瞥就能抓住重點(diǎn)。但對于模型而言,一張圖片會(huì)被轉(zhuǎn)換成成百上千個(gè)“視覺詞元”(Image Token),其中包含了大量的冗余信息。
大型的VLM“主公”身經(jīng)百戰(zhàn),能夠逐層過濾掉這些冗余信息,直擊要害。但小型的“軍師”草稿模型卻功力尚淺,面對海量的視覺信息往往會(huì)“眼花繚亂”,難以提煉出關(guān)鍵內(nèi)容,從而做出錯(cuò)誤的預(yù)測,導(dǎo)致“主公”不得不一次次地否決它的提案,加速效果自然大打折扣。
為了解決這一難題,華為諾亞方舟實(shí)驗(yàn)室的研究人員們另辟蹊徑,提出了一種全新的視覺感知投機(jī)推理框架——ViSpec。
ViSpec的核心思想,就是給“軍師”草稿模型配上一副“火眼金睛”,讓它也能像“主公”一樣,快速看透圖像的本質(zhì)。
通過一系列創(chuàng)新設(shè)計(jì),ViSpec成功地將主流VLM的推理速度提升了最高3.22倍,而且是在完全不犧牲生成質(zhì)量的前提下實(shí)現(xiàn)的。據(jù)團(tuán)隊(duì)所知,這是業(yè)界首次在VLM投機(jī)推理領(lǐng)域取得如此顯著的加速成果。
三大“獨(dú)門秘籍”,讓草稿模型“看”得更準(zhǔn)
ViSpec之所以能取得如此突破,主要?dú)w功于三大核心創(chuàng)新:
1. 輕量級視覺適配器:一眼看穿圖像重點(diǎn),草稿模型不再“迷?!?/strong>
如何讓小模型高效處理大圖像?ViSpec巧妙地借鑒了Q-Former的思想,設(shè)計(jì)了一個(gè)輕量級的視覺適配器(Vision Adaptor)。
這個(gè)適配器就像一個(gè)高度智能的圖像壓縮器。它通過一組可學(xué)習(xí)的查詢向量(learnable query vectors),將成百上千個(gè)原始的圖像嵌入(image embeddings)高效地壓縮為極少數(shù)(實(shí)驗(yàn)證明僅需1個(gè)即可)信息高度濃縮的緊湊視覺表征(compact visual representation)。
這些壓縮后的“精華”表征,隨后被無縫地集成到草稿模型的注意力機(jī)制中。這樣做的好處是雙重的:
- 保留關(guān)鍵信息:雖然表征數(shù)量大大減少,但每一個(gè)都蘊(yùn)含了圖像的核心內(nèi)容。
- 降低處理負(fù)擔(dān):草稿模型不再需要處理海量的原始圖像詞元,計(jì)算負(fù)擔(dān)顯著降低,從而能夠更專注于文本的生成。
這就像讓“軍師”看一份精煉的戰(zhàn)報(bào),而不是去翻閱成堆的原始情報(bào),決策效率自然大大提高。
2. 全局視覺特征注入:克服“中間遺忘”,長文本生成不再“忘圖”
在生成長篇回復(fù)時(shí),草稿模型很容易犯一個(gè)錯(cuò)誤——“中間遺忘”(Lost-in-the-Middle)。
也就是說,隨著文本越生成越長,位于輸入序列最前端的圖像信息,其影響力會(huì)逐漸減弱,導(dǎo)致模型“說著說著就忘了圖里是啥了”。
為了確保視覺上下文的持續(xù)影響,ViSpec額外設(shè)計(jì)了一個(gè)全局視覺特征注入(Global Visual Feature Injection)機(jī)制。
在文本生成的每一步,ViSpec都會(huì)從圖像中提取一個(gè)全局特征向量(global feature vector),并通過一個(gè)可學(xué)習(xí)的投影,將其“注入”到草稿模型的隱藏狀態(tài)中。
這個(gè)全局特征就像一個(gè)時(shí)刻在線的“導(dǎo)航員”,不斷地為草稿模型提供持久的全局視覺指引,確保其生成的每一個(gè)詞元都與圖像內(nèi)容保持高度一致,有效克服了“中間遺忘”效應(yīng)。
3. 合成長回復(fù)數(shù)據(jù)集與專門訓(xùn)練策略
高質(zhì)量的投機(jī)推理訓(xùn)練,離不開包含長回復(fù)的優(yōu)質(zhì)數(shù)據(jù)集。然而,在多模態(tài)領(lǐng)域,這樣的數(shù)據(jù)集非常稀缺。
為此,ViSpec團(tuán)隊(duì)提出了一種創(chuàng)新的數(shù)據(jù)生成方法:通過修改現(xiàn)有數(shù)據(jù)集(如視覺問答數(shù)據(jù)集)的指令(Prompt),引導(dǎo)目標(biāo)VLM自動(dòng)生成更長、更詳細(xì)、更豐富的回復(fù)。
例如,將“請描述這張圖片”修改為“請?jiān)敿?xì)描述這張圖片,至少1000字”。
這種方法極大地降低了構(gòu)建大規(guī)模、高質(zhì)量、長回復(fù)多模態(tài)訓(xùn)練集的成本。
此外,團(tuán)隊(duì)還設(shè)計(jì)了專門的訓(xùn)練策略,利用目標(biāo)模型的采樣隨機(jī)性,并結(jié)合多詞元預(yù)測機(jī)制,有效避免了草稿模型通過“抄近道”的方式直接學(xué)習(xí)目標(biāo)模型的隱藏狀態(tài),從而防止了“作弊式”的過擬合,保證了其在真實(shí)推理場景中的泛化能力。
下圖展示了ViSpec的整體框架:ViSpec利用視覺適配器壓縮圖像詞元,并提取全局視覺特征g。壓縮后的詞元與文本一同輸入草稿模型,同時(shí)全局特征被持續(xù)注入到文本生成過程中。
實(shí)驗(yàn)結(jié)果:性能與效率雙豐收,最高3.22倍加速
ViSpec在多個(gè)主流的VLM上進(jìn)行了廣泛的實(shí)驗(yàn)驗(yàn)證,包括LLaVA-1.6 7B、LLaVA-1.6 13B、Qwen2.5-VL 3B、Qwen2.5-VL 7B等。
實(shí)驗(yàn)結(jié)果令人振奮。在溫度系數(shù)為0(即確定性采樣)的設(shè)置下,ViSpec在GQA測試集上取得了1.85倍到3.22倍不等的加速比,平均加速比達(dá)到了2.5倍以上。
可以看到,不同規(guī)模和架構(gòu)的模型上,ViSpec都展現(xiàn)出了穩(wěn)定且出色的加速效果。
與之相比,傳統(tǒng)的一些針對LLM優(yōu)化的方法(如Medusa、EAGLE-2),在VLM上的加速效果都差強(qiáng)人意。
更重要的是,這種加速是無損的。ViSpec在大幅提升推理速度的同時(shí),并沒有犧牲模型的生成質(zhì)量。無論是圖像描述的準(zhǔn)確性,還是視覺問答的邏輯性,亦或是多模態(tài)對話的連貫性,ViSpec的表現(xiàn)都與原始的目標(biāo)模型完全一致。
團(tuán)隊(duì)通過消融實(shí)驗(yàn)驗(yàn)證了ViSpec各核心組件的有效性。
結(jié)果顯示,僅圖像嵌入壓縮一項(xiàng)即可帶來高達(dá)30%的性能提升。在此基礎(chǔ)上,全局視覺特征注入可進(jìn)一步帶來7%的提升,而數(shù)據(jù)集合成策略則能再貢獻(xiàn)30%的加速。
這證明了ViSpec的每個(gè)組成部分都至關(guān)重要,且它們共同協(xié)作,最終實(shí)現(xiàn)了卓越的整體性能。
未來展望:開啟VLM高效推理新時(shí)代
ViSpec的提出,不僅為VLM的推理加速提供了一個(gè)行之有效的解決方案,也為多模態(tài)大模型的實(shí)際應(yīng)用掃清了一大障礙。
隨著技術(shù)的進(jìn)一步成熟和推廣,可以期待未來在手機(jī)、汽車、智能家居等邊緣設(shè)備上,也能流暢地運(yùn)行強(qiáng)大的VLM,實(shí)現(xiàn)更自然、更智能的人機(jī)交互。
從“能看懂”到“看得快、看得好”,ViSpec正引領(lǐng)著VLM邁向一個(gè)更高效、更實(shí)用的新時(shí)代。
論文鏈接:https://arxiv.org/abs/2509.15235
項(xiàng)目地址:https://github.com/KangJialiang/ViSpec
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.