文章來源:我愛計算機視覺(ID:aicvml)
多模態(tài)大語言模型(MLLMs)雖然功能強大,但處理高分辨率圖片時,海量的視覺Token(可以理解為圖像的“像素塊”信息)帶來了巨大的計算開銷,讓推理速度變得很慢。為了給這些“臃腫”的模型“瘦身”,學術界一直在研究視覺Token剪枝(Token Pruning)技術,也就是丟掉那些不重要的視覺信息。
最近,一篇被 NeurIPS 2025 接收的論文《Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention》對現(xiàn)有的剪枝方法提出了挑戰(zhàn),并帶來了一個簡單又高效的解決方案—— HoloV。這項研究由香港科技大學、INSAIT、索非亞大學和上海交通大學等機構的研究者們共同完成。HoloV這個名字源于“Holistic Vision”,強調(diào)了它在剪枝時所采用的“全局視覺”策略。
論文標題 : Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention
作者 : Xin Zou, Di Lu, Yizhou Wang, Yibo Yan, Yuanhuiyi Lyu, Xu Zheng, Linfeng Zhang, Xuming Hu
機構 : 香港科技大學(廣州)、香港科技大學、INSAIT 索非亞大學、上海交通大學
錄用會議 : NeurIPS 2025
論文地址 : https://arxiv.org/abs/2510.02912
項目地址 : https://github.com/obananas/HoloV
現(xiàn)有方法的困境:只追“高光”,丟失全局
以往的Token剪枝方法,如FastV,大多采用一種“注意力優(yōu)先”(Attention-First)的策略。它們通過計算文本和視覺之間的交叉注意力,或者利用特殊的[CLS] Token的注意力得分,來判斷哪些視覺Token最“重要”,然后保留這些“高光”Token。
這種方法看似合理,但論文作者發(fā)現(xiàn)了一個致命缺陷:注意力機制傾向于關注那些語義相似的Token。比如,一張圖里有一只貓,那么很多高注意力的Token可能都集中在描述這只貓的不同部位。在高比例剪枝(比如剪掉90%)的情況下,模型保留下來的可能是一堆關于“貓”的冗余信息,而圖片中的背景、其他物體等全局上下文信息則被完全丟棄了。這導致模型性能急劇下降。
上圖清晰地展示了這個問題,隨著剪枝率的提高,基于注意力的方法(虛線)性能急劇惡化,而HoloV(實線)則能在高剪枝率下依然保持強大的性能。
上圖右側的可視化案例更直觀,F(xiàn)astV保留的Token(綠色點)高度集中,存在大量冗余,而HoloV保留的Token則分布更均勻,覆蓋了更豐富的上下文信息。
HoloV:從全局視角保留視覺上下文
為了解決上述問題,HoloV放棄了只追逐“高光”Token的思路,而是從一個更宏觀、更整體的視角(Holistic Perspective)來重新思考Token的保留策略。
HoloV的核心機制可以概括為:
劃分區(qū)域 :將輸入的圖片看作由多個空間區(qū)塊(Spatial Crops)組成。
預算分配 :不再將所有“保留名額”都給注意力最高的Token,而是 自適應地將剪枝預算分配到不同的空間區(qū)塊中 。
全局保留 :通過對高亮Token進行重新排序,確保最終保留下來的Token能夠覆蓋全局的視覺上下文,而不是僅僅聚集在少數(shù)幾個顯著特征上。

通過這種方式,HoloV避免了“表征崩潰”(Representational Collapse)的現(xiàn)象,即使在極高的剪枝率下,也能有效地保留與任務相關的重要信息,實現(xiàn)了局部顯著性和全局上下文的平衡。
實驗結果:極致的效率-精度權衡
HoloV作為一個即插即用的框架,在多種任務、多種MLLM架構和不同剪枝率下都展現(xiàn)了卓越的性能。
最驚人的結果是,在LLaVA-1.5模型上,HoloV 在剪掉了88.9%的視覺Token后,依然保留了原始模型95.8%的性能,實現(xiàn)了頂尖的效率-精度權衡。
從上面兩個性能對比表中可以看到,無論是在哪個基準測試上,HoloV(藍色字體)的平均性能都遠超其他SOTA方法,尤其是在高剪枝率(如87.5%)下,優(yōu)勢更為明顯。
在推理速度上,HoloV也帶來了實打實的提升。
該方法不僅適用于圖像任務,在視頻問答(Video QA)任務上同樣有效。
下面的可視化案例生動地對比了FastV和HoloV在不同剪枝率下的表現(xiàn)??梢钥吹?,HoloV更好地保留了圖片中的關鍵對象和場景信息(如路標、遠處的建筑等),而FastV則丟失了大量重要上下文。
此外,作者還對不同的模型(如Qwen2.5-VL)、不同的剪枝率、不同的超參數(shù)(如區(qū)塊數(shù)量)進行了廣泛的實驗和消融研究,均驗證了HoloV的有效性和魯棒性。
總結
CV君認為,HoloV的思路為多模態(tài)大模型的效率優(yōu)化提供了一個全新的、有價值的方向。在追求效率、進行信息壓縮時,不能僅僅關注局部的顯著性,更要保留信息的完整性和多樣性?!叭钟^”在AI的世界里同樣至關重要。HoloV的提出,無疑為實現(xiàn)更高效、更實用的MLLM應用鋪平了道路。
大家對這個“全局觀”的剪枝方法怎么看?歡迎在評論區(qū)留下你的看法!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.