NeurIPS 2025 | 港科大&上交大提出HoloV：剪掉近90%視覺Token，性能不掉點，多模態(tài)大模型推理“大瘦身”

2025-10-07 15:43:20　來源: 算法與數(shù)學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

多模態(tài)大語言模型（MLLMs）雖然功能強大，但處理高分辨率圖片時，海量的視覺Token（可以理解為圖像的“像素塊”信息）帶來了巨大的計算開銷，讓推理速度變得很慢。為了給這些“臃腫”的模型“瘦身”，學術界一直在研究視覺Token剪枝（Token Pruning）技術，也就是丟掉那些不重要的視覺信息。

最近，一篇被 NeurIPS 2025 接收的論文《Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention》對現(xiàn)有的剪枝方法提出了挑戰(zhàn)，并帶來了一個簡單又高效的解決方案—— HoloV。這項研究由香港科技大學、INSAIT、索非亞大學和上海交通大學等機構的研究者們共同完成。HoloV這個名字源于“Holistic Vision”，強調(diào)了它在剪枝時所采用的“全局視覺”策略。

論文標題 : Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention
作者 : Xin Zou, Di Lu, Yizhou Wang, Yibo Yan, Yuanhuiyi Lyu, Xu Zheng, Linfeng Zhang, Xuming Hu
機構 : 香港科技大學（廣州）、香港科技大學、INSAIT 索非亞大學、上海交通大學
錄用會議 : NeurIPS 2025
論文地址 : https://arxiv.org/abs/2510.02912
項目地址 : https://github.com/obananas/HoloV

現(xiàn)有方法的困境：只追“高光”，丟失全局

以往的Token剪枝方法，如FastV，大多采用一種“注意力優(yōu)先”（Attention-First）的策略。它們通過計算文本和視覺之間的交叉注意力，或者利用特殊的[CLS] Token的注意力得分，來判斷哪些視覺Token最“重要”，然后保留這些“高光”Token。

這種方法看似合理，但論文作者發(fā)現(xiàn)了一個致命缺陷：注意力機制傾向于關注那些語義相似的Token。比如，一張圖里有一只貓，那么很多高注意力的Token可能都集中在描述這只貓的不同部位。在高比例剪枝（比如剪掉90%）的情況下，模型保留下來的可能是一堆關于“貓”的冗余信息，而圖片中的背景、其他物體等全局上下文信息則被完全丟棄了。這導致模型性能急劇下降。

上圖清晰地展示了這個問題，隨著剪枝率的提高，基于注意力的方法（虛線）性能急劇惡化，而HoloV（實線）則能在高剪枝率下依然保持強大的性能。

上圖右側的可視化案例更直觀，F(xiàn)astV保留的Token（綠色點）高度集中，存在大量冗余，而HoloV保留的Token則分布更均勻，覆蓋了更豐富的上下文信息。

HoloV：從全局視角保留視覺上下文

為了解決上述問題，HoloV放棄了只追逐“高光”Token的思路，而是從一個更宏觀、更整體的視角（Holistic Perspective）來重新思考Token的保留策略。

HoloV的核心機制可以概括為：

劃分區(qū)域 ：將輸入的圖片看作由多個空間區(qū)塊（Spatial Crops）組成。
預算分配 ：不再將所有“保留名額”都給注意力最高的Token，而是 自適應地將剪枝預算分配到不同的空間區(qū)塊中 。
全局保留 ：通過對高亮Token進行重新排序，確保最終保留下來的Token能夠覆蓋全局的視覺上下文，而不是僅僅聚集在少數(shù)幾個顯著特征上。

通過這種方式，HoloV避免了“表征崩潰”（Representational Collapse）的現(xiàn)象，即使在極高的剪枝率下，也能有效地保留與任務相關的重要信息，實現(xiàn)了局部顯著性和全局上下文的平衡。

實驗結果：極致的效率-精度權衡

HoloV作為一個即插即用的框架，在多種任務、多種MLLM架構和不同剪枝率下都展現(xiàn)了卓越的性能。

最驚人的結果是，在LLaVA-1.5模型上，HoloV 在剪掉了88.9%的視覺Token后，依然保留了原始模型95.8%的性能，實現(xiàn)了頂尖的效率-精度權衡。

從上面兩個性能對比表中可以看到，無論是在哪個基準測試上，HoloV（藍色字體）的平均性能都遠超其他SOTA方法，尤其是在高剪枝率（如87.5%）下，優(yōu)勢更為明顯。

在推理速度上，HoloV也帶來了實打實的提升。

該方法不僅適用于圖像任務，在視頻問答（Video QA）任務上同樣有效。

下面的可視化案例生動地對比了FastV和HoloV在不同剪枝率下的表現(xiàn)?？梢钥吹?，HoloV更好地保留了圖片中的關鍵對象和場景信息（如路標、遠處的建筑等），而FastV則丟失了大量重要上下文。

此外，作者還對不同的模型（如Qwen2.5-VL）、不同的剪枝率、不同的超參數(shù)（如區(qū)塊數(shù)量）進行了廣泛的實驗和消融研究，均驗證了HoloV的有效性和魯棒性。

總結

CV君認為，HoloV的思路為多模態(tài)大模型的效率優(yōu)化提供了一個全新的、有價值的方向。在追求效率、進行信息壓縮時，不能僅僅關注局部的顯著性，更要保留信息的完整性和多樣性?！叭钟^”在AI的世界里同樣至關重要。HoloV的提出，無疑為實現(xiàn)更高效、更實用的MLLM應用鋪平了道路。

大家對這個“全局觀”的剪枝方法怎么看？歡迎在評論區(qū)留下你的看法！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.