夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

內(nèi)存直降50%,token需求少56%!用視覺方式處理長文本

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】在NeurIPS 2025論文中,來自「南京理工大學(xué)、中南大學(xué)、南京林業(yè)大學(xué)」的研究團隊提出了一個極具突破性的框架——VIST(Vision-centric Token Compression in LLM),為大語言模型的長文本高效推理提供了全新的「視覺解決方案」。值得注意的是,這一思路與近期引起廣泛關(guān)注的DeepSeek-OCR的核心理念不謀而合。

在處理短文本時,大語言模型(LLM)已經(jīng)表現(xiàn)出驚人的理解和生成能力。但現(xiàn)實世界中的許多任務(wù)——如長文檔理解、復(fù)雜問答、檢索增強生成(RAG)等——都需要模型處理成千上萬甚至幾十萬長度的上下文。

與此同時,模型參數(shù)規(guī)模也從數(shù)十億一路飆升至萬億級別。

在「上下文長度激增」與「模型參數(shù)量膨脹」的雙重挑戰(zhàn)下,Token壓縮不再是優(yōu)化項,而是必需品。

若不能有效縮減輸入規(guī)模,即便最強大的大語言模型,也難以高效處理我們需要它分析的海量信息。

南京理工大學(xué)、中南大學(xué)、南京林業(yè)大學(xué)的研究人員提出VIST(Vision-centric Token Compression in LLM)框架,正是為了解決這一痛點。


論文鏈接:https://arxiv.org/abs/2502.00791

研究團隊早在一年多以前NeurIPS 2024就開始探索——如何讓模型像人類一樣,以視覺的方式更高效地理解長文本。


論文鏈接:https://arxiv.org/pdf/2406.02547

人類閱讀文章時,不會逐字讀完每一個詞。

「的」「了」「和」這些功能性高頻詞,幾乎是被大腦自動略過的。真正讓我們停下來的,是那些承載意義的低頻詞——名詞、動詞、數(shù)字等。

VIST 的核心思想,就是讓大模型也具備這種「選擇性閱讀」能力。

它設(shè)計了一種模仿人類「快–慢閱讀通路(Slow–Fast Reading Circuit)」的視覺化壓縮機制,讓大模型在理解長文本時,既能快速掃讀,又能深入思考:

快路徑(Fast Path)將遠處、相對次要的上下文渲染為圖像,由一個凍結(jié)的輕量級視覺編碼器快速提取顯著性語義;

慢路徑(Slow Path)將關(guān)鍵的近處文本直接輸入 LLM,用于深層推理與語言生成。

這種「視覺+語言」的雙通道協(xié)作,就像人類的眼睛與大腦——一邊掃視全局,一邊聚焦要點,深度思考。

VIST讓模型真正具備了「像人一樣速讀」的能力。


憑借這一設(shè)計,在處理相同文本內(nèi)容時,VIST所需的視覺Token數(shù)量僅為傳統(tǒng)文本分詞所需Token數(shù)量的56%,內(nèi)存減少了50%。

用「視覺壓縮」解鎖長文本理解

早期的LLM主要通過tokenizer把文本拆分的離散token輸入給LLM去處理,這種范式帶來了很多好處如高度語義化。

但是已有研究發(fā)現(xiàn),經(jīng)過大規(guī)模圖文配對數(shù)據(jù)預(yù)訓(xùn)練,CLIP等視覺編碼器能夠自發(fā)掌握 OCR 能力,這使它們可以直接理解文本圖像內(nèi)容,為長文本的視覺化處理提供了強大工具。

VIST則借鑒了人類高效閱讀的技巧,提出了一種全新的快–慢視覺壓縮框架,用視覺方式處理長文本,讓模型既能快速掃讀,又能深度理解。

快路徑(Fast Path)

將次要的長距離上下文渲染成圖像,由輕量級視覺編碼器處理;

通過 Resampler 將視覺特征進一步壓縮為4倍;

壓縮后的視覺特征再通過cross-attention與LLM的主輸入整合。

慢路徑(Slow Path)

對近處或核心文本直接交給LLM處理,進行深度推理和語言生成。

這種「掃視遠處,專注近處」的方式,模擬了人類閱讀的自然策略,讓模型在長文本場景下既高效又精準(zhǔn)。


概率感知視覺增強

教模型學(xué)會略讀

雖然視覺編碼器(如 CLIP)非常強大,但它們主要在自然圖像上訓(xùn)練,對于渲染文本的理解能力有限。而且,長文本中往往充斥大量冗余信息,如果不加選擇地處理,浪費算力,還會被干擾得抓不住重點。

為此,VIST引入了一個巧妙的機制——概率感知視覺增強(PVE, Probability-informed Visual Enhancement),教模型「略讀」,抓住關(guān)鍵信息,忽略冗余詞


在訓(xùn)練中,PVE采用基于頻率的屏蔽策略(Frequency-based Masking Strategy)把高頻但信息量低的詞(如英文中的 「the」、「with」)掩碼而重點保留低頻、高信息量詞如名詞、動詞、數(shù)字等核心內(nèi)容。

這些經(jīng)過語義優(yōu)化的文本嵌入(embeddings)有效指導(dǎo)Resampler從文本圖像中提取最重要的語義信息,讓視覺壓縮模塊更高效、更精準(zhǔn)。

視覺壓縮的極大潛力

開放域問答(Open-domainQA任務(wù)以及11 個 In-Context Learning(ICL)基準(zhǔn)任務(wù)上,VIST 顯著優(yōu)于基于文本編碼器的壓縮方法 CEPE。

即便在極端條件下——所有篇章僅通過視覺編碼器處理——VIST仍能在開放域問答任務(wù)中達到與TinyLlama相當(dāng)?shù)男阅?,充分顯示了視覺壓縮在長文本處理中的可靠性。

此外,VIST在處理相同文本內(nèi)容時,所需視覺 Token 數(shù)量比傳統(tǒng)文本 Token 少56%(壓縮比約為2.3,從 1024 個文本Token壓縮到448個視覺 Token),同時顯存使用減少50%,極大提高了計算效率。




讓大模型「用眼睛讀文字」

VIST利用輕量級視覺編碼器,將冗長的上下文信息壓縮處理,為大語言模型提供了一條高效、低成本的新路徑。

更妙的是,視覺編碼器還能充當(dāng)視覺文本分詞器(Visual Text Tokenization),帶來四大優(yōu)勢:

1. 簡化分詞流程傳統(tǒng)文本分詞器依賴復(fù)雜規(guī)則和固定詞表,通常涉及近十步人工預(yù)處理(如小寫化、標(biāo)點符號處理、停用詞過濾等)。

視覺編碼器直接將渲染后的文本視作圖像輸入,無需繁瑣預(yù)處理,處理流程更直接高效。

2. 突破詞表瓶頸傳統(tǒng)分詞器在多語言環(huán)境下容易受詞表限制影響性能,而視覺編碼器無需詞表,統(tǒng)一處理多種語言文本,大幅降低嵌入矩陣和輸出層的計算與顯存開銷。

3. 對字符級噪聲更魯棒視覺編碼器關(guān)注整體視覺模式,而非單個 Token 匹配,因此對拼寫錯誤或低級文本攻擊具備天然抵抗力。

4. 多語言高效性盡管本文主要針對英文,視覺文本分詞器在其他語言中同樣高效:與傳統(tǒng)文本分詞相比,可減少62%的日文Token、78%的韓文Token、27%的中文Token,在處理長文本時優(yōu)勢尤為顯著。

結(jié)語與未來展望

VIST 展示了「視覺 + 語言」協(xié)作在大模型長文本理解中的巨大潛力:

  • 它讓大模型能夠「像人一樣讀」,快速掃視冗余信息,同時專注于關(guān)鍵內(nèi)容;

  • 它為多語言、長文本、甚至多模態(tài)場景提供了高效處理方案。

未來,視覺驅(qū)動的 Token 壓縮可能會成為長上下文 LLM 的標(biāo)準(zhǔn)組件。 隨著模型規(guī)模不斷增長,這種「先看再讀」的策略,將幫助大模型在保證理解能力的同時,大幅降低計算成本,為多模態(tài)智能理解鋪平道路。

參考資料:

https://arxiv.org/abs/2502.00791

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
全運男籃:廣東96-73逆轉(zhuǎn)江蘇,徐杰29分,王睿澤27+11

全運男籃:廣東96-73逆轉(zhuǎn)江蘇,徐杰29分,王睿澤27+11

懂球帝
2025-11-06 21:44:23
恒大怎么做到虧損八千億的?終于搞懂了,許家印不跑是有原因的

恒大怎么做到虧損八千億的?終于搞懂了,許家印不跑是有原因的

歷史偉人錄
2025-11-06 14:42:35
汪東興提反對意見,鄧公起身質(zhì)問:為什么你每次開會都唱反調(diào)?

汪東興提反對意見,鄧公起身質(zhì)問:為什么你每次開會都唱反調(diào)?

瀚霖學(xué)史
2025-10-24 09:04:10
1991年日本房價開始暴跌,上萬人自盡,他們悟出一套道理沿用至今

1991年日本房價開始暴跌,上萬人自盡,他們悟出一套道理沿用至今

北緯的咖啡豆
2025-11-06 10:20:34
湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

樂悠悠娛樂
2025-11-05 10:38:51
鄭麗文最新人事安排出爐,邱毅直呼“棋高一著”!洪秀柱發(fā)出提醒

鄭麗文最新人事安排出爐,邱毅直呼“棋高一著”!洪秀柱發(fā)出提醒

小影的娛樂
2025-11-06 00:22:36
全新一代豐田Hilux將于11月10日正式發(fā)布

全新一代豐田Hilux將于11月10日正式發(fā)布

車質(zhì)網(wǎng)
2025-11-06 09:19:09
神舟二十號飛船疑受碎片撞擊,如果修不好,神舟二十二或緊急升空

神舟二十號飛船疑受碎片撞擊,如果修不好,神舟二十二或緊急升空

Thurman在昆明
2025-11-06 00:16:34
鄭麗文再拋重磅,盧秀燕不裝了,吳敦義強硬出手,王鴻薇喊話翻篇

鄭麗文再拋重磅,盧秀燕不裝了,吳敦義強硬出手,王鴻薇喊話翻篇

蘭妮搞笑分享
2025-11-05 12:07:45
創(chuàng)始人5天套現(xiàn)16億!這家小廠抱上英偉達大腿,市值飆到2000億

創(chuàng)始人5天套現(xiàn)16億!這家小廠抱上英偉達大腿,市值飆到2000億

漁樵文史
2025-09-01 18:37:02
泰王看走眼了!歐拉弄、巴帕頌小主最新活動照,越看越“別扭”

泰王看走眼了!歐拉弄、巴帕頌小主最新活動照,越看越“別扭”

夜深愛雜談
2025-11-06 20:55:36
何穗官宣生子后新造型曝光,身材發(fā)福,穿著寬松依然覺得肚子好大

何穗官宣生子后新造型曝光,身材發(fā)福,穿著寬松依然覺得肚子好大

小娛樂悠悠
2025-11-05 09:47:39
政府關(guān)門35天終于釀成大禍?一架波音飛機撞向大樓,現(xiàn)場十分慘烈

政府關(guān)門35天終于釀成大禍?一架波音飛機撞向大樓,現(xiàn)場十分慘烈

井普椿的獨白
2025-11-05 17:44:05
恭喜山東泰山!中超準(zhǔn)金靴有望次頂薪留隊,攜手克雷桑,沖擊冠軍

恭喜山東泰山!中超準(zhǔn)金靴有望次頂薪留隊,攜手克雷桑,沖擊冠軍

球場新視角1號
2025-11-06 20:01:48
全篇《云霧繚繞》王凱

全篇《云霧繚繞》王凱

時光里的印記
2025-11-06 15:38:36
耳光大賽曾有選手被擊倒后腦出血去世,最高獎金8萬美元 趙鴻剛被KO后戴墨鏡接受采訪:現(xiàn)在看人還是“重影”

耳光大賽曾有選手被擊倒后腦出血去世,最高獎金8萬美元 趙鴻剛被KO后戴墨鏡接受采訪:現(xiàn)在看人還是“重影”

魯中晨報
2025-11-06 06:55:29
北極航道剛冰封,波蘭故技重施中歐班列又停,再不開邊境悔之晚矣

北極航道剛冰封,波蘭故技重施中歐班列又停,再不開邊境悔之晚矣

霽寒飄雪
2025-11-06 13:22:57
細節(jié)被扒?和王楚欽戀情曝光?25歲生日,誰注意孫穎莎褲子

細節(jié)被扒?和王楚欽戀情曝光?25歲生日,誰注意孫穎莎褲子

樂聊球
2025-11-06 14:27:53
油價大跌超0.58元/升,今年大跌的油價,11月10日或漲超0.11元/升

油價大跌超0.58元/升,今年大跌的油價,11月10日或漲超0.11元/升

油價早知道
2025-11-06 09:44:10
馬英九:若大陸統(tǒng)一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統(tǒng)一臺灣的手段不和平,過程不民主,臺灣人不接受

近史談
2025-08-23 14:31:59
2025-11-06 23:48:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13804文章數(shù) 66237關(guān)注度
往期回顧 全部

科技要聞

小鵬機器人里藏真人?何小鵬發(fā)一鏡到底視頻

頭條要聞

有報道稱特朗普要求中方釋放黎智英 外交部回應(yīng)

頭條要聞

有報道稱特朗普要求中方釋放黎智英 外交部回應(yīng)

體育要聞

送走兩位全明星,公牛成了東部第一

娛樂要聞

“黑料纏身”的白百何 誰給她的勇氣?

財經(jīng)要聞

南銀法巴加速發(fā)展背后:資金饑渴癥待解

汽車要聞

是我眼花了么?怎么大猩猩都來參加新車發(fā)布了?

態(tài)度原創(chuàng)

旅游
數(shù)碼
家居
教育
公開課

旅游要聞

行游WEEKLY|新疆伊犁攜冬日體驗抵蓉,第二屆“大熊貓粉絲四川游”全球發(fā)布

數(shù)碼要聞

機械革命極光X游戲本上新酷睿i5 - 14450HX版本,售價6499元

家居要聞

別樣府院 暢享詩意生活

教育要聞

期中考試期間應(yīng)該吃什么

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 亚洲色无码专线精品观看| 久久一亚色院精品全部免费| 好看的av网址导航| 永久免费看mv网站入口亚洲| 国产丨熟女丨| 无码国内精品久久人妻毛片| 男人天堂最新手机版在线| av不卡亚洲精品| 老版奇米影视| 国产伦一伦二伦三伦区| 尤物免费视频网站| 亚洲精品三区四区成人少| 亚洲AV无码国产精品色苹果AV| 99久久国内精品成人免费| 欧美老妇在线BBBAV| 国产一区国产二区在线视频| 欧美娇小BBBB水多| 久久久橹橹橹久久久久高清| 西西人体大胆扒开下部自慰| 97人妻碰碰人人澡人人爽| 欧美97色伦欧美一区二区日韩 | 亚洲综合管自拍| 四虎成人精品在永久免费| 一本色道久久—综合亚州| 无码午夜福利免费区久久| 国产精久久久| 内射人妻无码色AV| 久久99精品久久久久久齐齐| 欧美成年视频在线观看| 国产成人午夜视频免费一区二区| 久久国产免费观看精品3| 4K人妻一区| 日韩人妻无码一区二区三区99 | 亚洲AV永久无码精品放毛片一| 收集最新中文国产中文字幕| 无码久久人妻一区二区浴池 | 亚洲AV一二三区| 国产传媒麻豆剧精品av| 天天躁日日躁狠狠躁婷婷| 亚洲国产精品一区二区久久hs| 肏屄麻豆一区|