夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全圖與切片并非等價(jià)?LLaVA-UHD-v3揭示差異推出高效全圖建模方案

0
分享至



隨著多模態(tài)大模型(MLLMs)在各類(lèi)視覺(jué)語(yǔ)言任務(wù)中展現(xiàn)出強(qiáng)大的理解與交互能力,如何高效地處理原生高分辨率圖像以捕捉精細(xì)的視覺(jué)信息,已成為提升模型性能的關(guān)鍵方向。

然而,主流的視覺(jué)編碼范式往往難以兼顧性能與效率:基于切片的編碼方法雖能降低計(jì)算開(kāi)銷(xiāo),卻犧牲了全局上下文感知能力;而全局原生分辨率編碼在提升整體性能的同時(shí),又帶來(lái)了巨大的計(jì)算負(fù)擔(dān)。同時(shí),現(xiàn)有的視覺(jué)壓縮策略與特征提取過(guò)程相對(duì)獨(dú)立,難以在編碼早期有效控制信息冗余,缺乏一個(gè)兼顧細(xì)粒度建模與計(jì)算效率的統(tǒng)一架構(gòu)。

針對(duì)如何在高清原生分辨率下,保持圖像全局理解能力的同時(shí),還能快速推理這一核心問(wèn)題,來(lái)自清華大學(xué)、中科院的研究團(tuán)隊(duì)正式發(fā)布LLaVA-UHD v3!



  • 論文標(biāo)題:LLAVA-UHD V3: PROGRESSIVE VISUAL COMPRESSION FOR EFFICIENT NATIVE-RESOLUTION ENCODING IN MLLMS
  • 論文鏈接:https://arxiv.org/abs/2511.21150
  • 代碼鏈接:https://github.com/thunlp/LLaVA-UHD
  • huggingface 鏈接:https://huggingface.co/Sishxo/LLaVA-UHD-v3

LLaVA-UHD-v3 提出了全新的漸進(jìn)式視覺(jué)壓縮框架 ——Progressive Visual Compression(PVC),由Refined Patch Embedding(RPE)與Windowed Token Compression(WTC)兩個(gè)核心組件構(gòu)成。該框架在保持全局語(yǔ)義一致性的前提下,顯著減少視覺(jué) Token 數(shù)量,從根本上提升原生高分辨率視覺(jué)編碼的效率。依托 PVC,LLaVA-UHD-v3 在性能上可與 Qwen2-VL 相媲美,同時(shí)實(shí)現(xiàn)1.9× 的 TTFT 加速,完整訓(xùn)練僅需32 張 A100、約 300 小時(shí)即可完成。



切片編碼 vs 全圖編碼深入分析

為了公平對(duì)比兩種主流視覺(jué)編碼方式 —— 基于切片的編碼 (Slice-based Encoding, SBE) 與 全局原生分辨率編碼 (Global Native-Resolution Encoding, GNE) —— 團(tuán)隊(duì)使用相同模型架構(gòu) + 相同訓(xùn)練數(shù)據(jù) + 相同評(píng)估 protocol。在此基礎(chǔ)上,既在通用多模態(tài) benchmark 上測(cè)試,也專(zhuān)門(mén)構(gòu)建了一個(gè)合成數(shù)據(jù)集 ShapeGrid 用于空間感知 / 定位能力分析。

在 ShapeGrid (及其 “Sudoku-style” 子集) 上,GNE 相比 SBE 在空間感知 / 定位任務(wù)上的表現(xiàn)有明顯優(yōu)勢(shì):空間感知能力平均提升約11.0%。

同時(shí),在通用視覺(jué) - 語(yǔ)言理解任務(wù)中,GNE 在語(yǔ)義理解表現(xiàn)上也略?xún)?yōu)于 SBE(平均提升約2.1%)。

更重要的是,通過(guò)對(duì)比注意力熱圖、激活分布 (attention maps),研究發(fā)現(xiàn) SBE 在空間定位任務(wù)中表現(xiàn)出系統(tǒng)性的方向、結(jié)構(gòu)偏差 (例如水平、垂直方向不均衡) —— 也就是說(shuō) SBE 的切片機(jī)制破壞了圖像的空間連續(xù)性 (spatial continuity 、geometry),從而削弱了空間理解、定位的可靠性。

因此,該對(duì)比實(shí)驗(yàn)清晰地表明:盡管 SBE 在效率上有優(yōu)勢(shì),但從語(yǔ)義 + 空間 + 幾何一致性 (global context + spatial reasoning) 的角度,GNE 明顯更適合需要空間感知、高分辨率理解與推理的任務(wù)。



全圖編碼的高效解決方案

全局原生分辨率編碼帶來(lái)了較高的計(jì)算成本,這凸顯了迫切需要一種原生且高效的視覺(jué)編碼范式。因此,團(tuán)隊(duì)提出了 LLaVA-UHD v3,一種配備了漸進(jìn)式視覺(jué)壓縮(PVC)方法的多模態(tài)大模型(MLLM),用于高效的原生分辨率編碼。

PVC 架構(gòu)由兩個(gè)核心模塊組成:

  • 精細(xì)化 Patch 嵌入 (Refined Patch Embedding, RPE):通過(guò)將圖像劃分為更小尺寸的 patch,并用偽逆 (pseudo-inverse) 方法將預(yù)訓(xùn)練模型原有 embedding 權(quán)重轉(zhuǎn)換為新的、更細(xì)粒度的 embedding。這樣,原本粗粒度 patch 的語(yǔ)義信息被近似保留,但實(shí)現(xiàn)了更豐富的視覺(jué)語(yǔ)義提取建模。
  • 窗口化 Token 壓縮 (Windowed Token Compression, WTC):在 ViT 的中間層,將空間上相鄰的多個(gè) token(例如 2×2 區(qū)域)聚合為一個(gè)新 token,初期以均勻平均池化 (average pooling) 起步,并通過(guò)一個(gè)輕量級(jí)、零初始化的 MLP 模型學(xué)習(xí)內(nèi)容自適應(yīng)的池化權(quán)重,從而逐漸學(xué)會(huì)對(duì)更重要區(qū)域賦予更高權(quán)重。這樣,隨著網(wǎng)絡(luò)深度的推進(jìn),token 數(shù)量被大幅壓縮,而關(guān)鍵語(yǔ)義信息得以保留。

這種 “先細(xì)粒度建模 + 再漸進(jìn)壓縮” 的設(shè)計(jì),使得 PVC 在兼顧全局語(yǔ)義 + 局部細(xì)節(jié)的同時(shí),大幅降低計(jì)算量。



實(shí)驗(yàn)驗(yàn)證:PVC 在推理效率提升的同時(shí)保留模型能力

效率方面,在統(tǒng)一的 LLM(Qwen2-7B)框架下,本文提出的 ViT-UHD 編碼器相比 MoonViT 實(shí)現(xiàn)了2.4× 加速,相比 Qwen2.5-ViT 也快 1.9×。將其整合到完整的 MLLM 中后,LLaVA-UHD v3 的 TTFT 相較強(qiáng)大的 Qwen2-VL降低 49%(約快 1.9×),甚至比以高效著稱(chēng)的切片編碼模型 MiniCPM-V2.6 仍然快約 10%。

在性能方面,LLaVA-UHD v3 僅使用約 2000 萬(wàn)對(duì)圖文數(shù)據(jù)完成訓(xùn)練,遠(yuǎn)低于 Qwen2-VL(約 7 億)和 MiniCPM-V-2.6(約 4.6 億)等商業(yè)模型的訓(xùn)練規(guī)模。然而,其在多項(xiàng)視覺(jué)語(yǔ)言基準(zhǔn)中依舊展現(xiàn)出高度競(jìng)爭(zhēng)力。同時(shí),它實(shí)現(xiàn)了64× 的視覺(jué) Token 壓縮率,遠(yuǎn)超對(duì)手(Qwen2-VL 約為 4×,MiniCPM-V2.6 為 16×),但在需要細(xì)粒度視覺(jué)信息的任務(wù)上 —— 包括 HallusionBench(幻覺(jué)檢測(cè))、CV-Bench(空間推理)以及 OCR&Chart(文字與圖表識(shí)別)—— 依然取得了與 SOTA 模型相當(dāng)甚至更優(yōu)的表現(xiàn)。

這些結(jié)果充分驗(yàn)證了 PVC 框架的核心價(jià)值:在大幅減少視覺(jué) Token 和推理開(kāi)銷(xiāo)的同時(shí),仍能穩(wěn)健保留關(guān)鍵的細(xì)節(jié)感知與全局理解能力,實(shí)現(xiàn)真正意義上的 “高效而不降級(jí)”。





展望

基于對(duì)全圖編碼與切片編碼優(yōu)劣的深入分析,LLaVA-UHD v3 提出了結(jié)合兩者優(yōu)勢(shì)的漸進(jìn)式視覺(jué)壓縮全圖編碼方案,在保證模型能力的前提下實(shí)現(xiàn)了顯著的推理效率提升,并展現(xiàn)出良好的遷移與泛化能力,為 MLLM 的高精度原生分辨率建模提供了可行路徑。

不過(guò),實(shí)驗(yàn)分析表明,缺失了預(yù)對(duì)齊階段的 ViT-UHD 性能不佳,這表明引入 PVC 后的視覺(jué)編碼器能力仍未達(dá)到上限:僅靠當(dāng)前 MLLM 的標(biāo)準(zhǔn)訓(xùn)練流程,很難完全挖掘 ViT 的視覺(jué)表征潛力,其學(xué)習(xí)尚未飽和。此外,隨著 Token 數(shù)量增大,Transformer 的二次復(fù)雜度仍然會(huì)帶來(lái)成本瓶頸。

未來(lái),仍需要探索更適合多模態(tài)任務(wù)的視覺(jué)編碼預(yù)訓(xùn)練策略,并逐步引入線性復(fù)雜度算子替代傳統(tǒng)的二次復(fù)雜度注意力機(jī)制,從而實(shí)現(xiàn)真正可擴(kuò)展的高效多模態(tài)建模。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
關(guān)注|國(guó)安賽季收官戰(zhàn)也是張?jiān)吹惹騿T告別戰(zhàn)

關(guān)注|國(guó)安賽季收官戰(zhàn)也是張?jiān)吹惹騿T告別戰(zhàn)

北青網(wǎng)-北京青年報(bào)
2025-12-10 17:28:02
麻生太郎不裝了,徹底撕下偽裝,正式亮明底線:日本要對(duì)抗到底

麻生太郎不裝了,徹底撕下偽裝,正式亮明底線:日本要對(duì)抗到底

通文知史
2025-12-09 16:00:07
97歲田華現(xiàn)狀曝光,和小孫子相依為命,住破舊老房子,日子清貧

97歲田華現(xiàn)狀曝光,和小孫子相依為命,住破舊老房子,日子清貧

以茶帶書(shū)
2025-12-02 18:11:43
馬爾克斯丨人生沒(méi)有意義,人活一輩子其實(shí)就三句話

馬爾克斯丨人生沒(méi)有意義,人活一輩子其實(shí)就三句話

尚曦讀史
2025-12-08 17:10:11
同樣是丈夫落難,浦安修棄彭總而去,任桂蘭對(duì)梁為何不離不棄?

同樣是丈夫落難,浦安修棄彭總而去,任桂蘭對(duì)梁為何不離不棄?

安欲喜歡
2025-12-05 11:15:12
從云南一路貪腐到西藏,今年落馬的首個(gè)正部級(jí)“老虎”被公訴

從云南一路貪腐到西藏,今年落馬的首個(gè)正部級(jí)“老虎”被公訴

界面新聞
2025-12-10 10:22:47
英法德烏4國(guó)召開(kāi)緊急峰會(huì),歐洲3強(qiáng)聯(lián)手烏克蘭向美俄亮出底線

英法德烏4國(guó)召開(kāi)緊急峰會(huì),歐洲3強(qiáng)聯(lián)手烏克蘭向美俄亮出底線

史政先鋒
2025-12-09 10:22:14
特赦無(wú)效!國(guó)際刑事法院表態(tài):普京逮捕令不撤,和平協(xié)議也沒(méi)用

特赦無(wú)效!國(guó)際刑事法院表態(tài):普京逮捕令不撤,和平協(xié)議也沒(méi)用

奧字侃劇
2025-12-10 15:46:00
局部暴雪,積雪深度8厘米,有凍雨!河南多地雪災(zāi)風(fēng)險(xiǎn)高

局部暴雪,積雪深度8厘米,有凍雨!河南多地雪災(zāi)風(fēng)險(xiǎn)高

環(huán)球網(wǎng)資訊
2025-12-09 19:15:59
中央定調(diào)!退休新政落地實(shí)施,靈活就業(yè)人員該不該繼續(xù)繳納社保?

中央定調(diào)!退休新政落地實(shí)施,靈活就業(yè)人員該不該繼續(xù)繳納社保?

好賢觀史記
2025-12-10 11:14:35
《阿凡達(dá)3》首映媒體口碑出爐??!

《阿凡達(dá)3》首映媒體口碑出爐?。?/a>

悅君兮君不知
2025-12-09 12:41:07
神21乘組立大功!空間站傳來(lái)好消息,大家最擔(dān)心的事已塵埃落地了

神21乘組立大功!空間站傳來(lái)好消息,大家最擔(dān)心的事已塵埃落地了

云上烏托邦
2025-12-10 17:14:49
卡拉格向薩拉赫道歉:抱歉讓你不開(kāi)心了,但場(chǎng)下還得注意言行

卡拉格向薩拉赫道歉:抱歉讓你不開(kāi)心了,但場(chǎng)下還得注意言行

懂球帝
2025-12-10 15:25:25
申花發(fā)布球隊(duì)32歲生日海報(bào),卻把“32nd”寫(xiě)成“32th”

申花發(fā)布球隊(duì)32歲生日海報(bào),卻把“32nd”寫(xiě)成“32th”

懂球帝
2025-12-10 11:53:07
貴州茅臺(tái)原董事長(zhǎng)張德芹,新職明確

貴州茅臺(tái)原董事長(zhǎng)張德芹,新職明確

極目新聞
2025-12-10 09:04:37
6天暴漲40%,又一AI大牛股橫空出世

6天暴漲40%,又一AI大牛股橫空出世

財(cái)經(jīng)銳眼
2025-12-09 17:42:26
東方衛(wèi)視首播!44集諜戰(zhàn)大作來(lái)襲,孫紅雷領(lǐng)銜、女神陳數(shù)加盟

東方衛(wèi)視首播!44集諜戰(zhàn)大作來(lái)襲,孫紅雷領(lǐng)銜、女神陳數(shù)加盟

樂(lè)楓電影
2025-12-10 14:49:53
特朗普:澤連斯基拿了美國(guó)3500億美元,卻丟了25%的國(guó)土,他得“現(xiàn)實(shí)點(diǎn)”,輸了就是輸了,體量決定勝負(fù)

特朗普:澤連斯基拿了美國(guó)3500億美元,卻丟了25%的國(guó)土,他得“現(xiàn)實(shí)點(diǎn)”,輸了就是輸了,體量決定勝負(fù)

揚(yáng)子晚報(bào)
2025-12-10 12:15:16
WTT總決賽!女單4強(qiáng)對(duì)陣出爐,朱雨玲3-4淘汰,陳熠大戰(zhàn)陳幸同

WTT總決賽!女單4強(qiáng)對(duì)陣出爐,朱雨玲3-4淘汰,陳熠大戰(zhàn)陳幸同

探長(zhǎng)小毒舌
2025-12-10 16:15:43
樓市重磅利好:貼息了?

樓市重磅利好:貼息了?

資本時(shí)差
2025-12-10 15:48:25
2025-12-10 18:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11891文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

8周生死時(shí)速,全員保日活!

頭條要聞

中方被指同意"本季"至少買(mǎi)1200萬(wàn)噸美國(guó)大豆 美方回應(yīng)

頭條要聞

中方被指同意"本季"至少買(mǎi)1200萬(wàn)噸美國(guó)大豆 美方回應(yīng)

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂(lè)要聞

為何網(wǎng)友不再相信張柏芝的“故事”?

財(cái)經(jīng)要聞

對(duì)話陳志武:特朗普嚴(yán)重誤判中國(guó)!

汽車(chē)要聞

有動(dòng)力操控 有智能座艙 6萬(wàn)多的第五代帝豪掀桌子了

態(tài)度原創(chuàng)

手機(jī)
教育
親子
公開(kāi)課
軍事航空

手機(jī)要聞

蘋(píng)果安卓壁壘將徹底打破? iOS 26 將開(kāi)放重磅功能

教育要聞

新浪微博招人啦!100-150/天!接受大一大二!周末雙休!

親子要聞

市面熱門(mén)的兒童洗發(fā)水哪個(gè)好?2025年多維度橫向?qū)Ρ仍u(píng)測(cè),揭示綜合性能王者

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中俄聯(lián)合空中戰(zhàn)略巡航引日本擔(dān)憂 國(guó)防部回應(yīng)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 99福利资源久久福利资源| 国产色秀视频在线播放 | 一区二区三区激情| 寡妇裸交全过程| 久久免费视频精品在线| 亚洲国产电影色| 一区二区三区成人av| 亚洲乱码中文字幕在线| 欧美日韩精品suv| 婷婷六月天丁香| 欧美一区二区三区在线可观看| 午夜dj高清免费观看视频| av无码国产| 亚洲午夜成人av电影| 国产成人精品aa毛片| 一本久道AV无码专区加勒比| 免费在线成人网| 手机AV在线| 欧美gv在线观看| 久久久久高潮喷水无码| 丁香五月花婷婷| 天堂一码二码三码四码区乱码| 亚洲国产精品VA在线看黑人| xxxx日韩| 亚洲一区二区三区小说| 亚洲国产一区二区三区久| 成人色区导航| 18禁在线看网站| 国产综合久久久久| 日韩人妻网站| 亚洲AV无码性色AV无码网站| 亚洲美女国产精品久久久久久久久| 牛牛AV人人夜夜爽人人澡| 91丨九色丨PORNY丨极品| 伊人久久大香线蕉av色婷婷色| 青青操国产视频| sm调教视频在线观看| 欧美激情肏屄| 国产成人久久综合一区| 欧美美女网站| 3atv一区二区三区|