LIRA團(tuán)隊(duì) 投稿量子位 | 公眾號 QbitAI
多模態(tài)大模型需要干的活,已經(jīng)從最初的文生圖,擴(kuò)展到了像素級任務(wù)(圖像分割)。
不過,無論是OMG-LLaVA,還是提出了embedding-as-mask范式的LISA(CVPR 2024),都還存在分割結(jié)果不夠精確,以及理解過程中出現(xiàn)幻覺兩大痛點(diǎn)。
這主要源于現(xiàn)有模型在物體屬性理解上的不足,以及細(xì)粒度感知能力的局限。
為緩解上述問題,華中科技大學(xué)團(tuán)隊(duì)和金山辦公團(tuán)隊(duì)聯(lián)合提出了兩個核心模塊:
語義增強(qiáng)特征提取器(SEFE)和交錯局部視覺耦合(ILVC)。
前者融合語義特征與像素級特征,提升物體屬性推理能力,從而獲得更精確的分割結(jié)果。
后者基于分割掩碼提取局部特征后,自回歸生成局部描述,為模型提供細(xì)粒度監(jiān)督,從而有效減少理解幻覺。
最終,研究團(tuán)隊(duì)構(gòu)建了在分割和理解兩項(xiàng)任務(wù)上均取得SOTA的多模態(tài)大模型LIRA
與InternVL2相比,LIRA在保持理解性能的同時,額外支持圖像分割任務(wù);與OMG-LLaVA相比,LIRA在圖像分割任務(wù)上平均提升8.5%,在MMBench上提升33.2%。
目前,LIRA項(xiàng)目已被ICCV 2025錄用。
現(xiàn)有方法仍常常無法準(zhǔn)確分割目標(biāo)
通過將分割模塊和多模態(tài)大模型結(jié)合,多模態(tài)大模型的能力已從視覺理解拓展至像素級分割
LISA(CVPR 2024)首次提出“embedding-as-mask”范式,通過引入 token解鎖了分割能力。
OMG-LLaVA 則采用通用分割模型作為視覺編碼器,并將圖像特征與感知先驗(yàn)融合,從而在分割與理解任務(wù)上實(shí)現(xiàn)更優(yōu)的協(xié)同表現(xiàn)。
盡管現(xiàn)有方法已取得顯著進(jìn)展,但在復(fù)雜場景下仍常常無法準(zhǔn)確分割目標(biāo)
下圖Figure 2中,OMG-LLaVA就未能正確分割出“最靠近白色汽車的紅色公交車”。
為探究分割錯誤的原因,研究團(tuán)隊(duì)提取了多模態(tài)大模型在第一列圖像上生成的token embedding,并直接用于第二列和第三列圖像的分割。
有趣的是,在 (1) 行的所有圖像中,左側(cè)公交車始終被分割出來,這表明 token可能包含了與原圖像無關(guān)的語義信息。
進(jìn)一步分析token的logits發(fā)現(xiàn),與“l(fā)eft”相關(guān)的值顯著偏高,從而導(dǎo)致左側(cè)公交車被分割出來。
研究團(tuán)隊(duì)推測,產(chǎn)生分割錯誤的原因是多模態(tài)大模型在token中未能有效編碼準(zhǔn)確的位置信息,反映其視覺理解能力存在局限。
此外,現(xiàn)有方法通常依賴位置查詢來指示目標(biāo)位置,但并不能在局部描述與對應(yīng)圖像區(qū)域特征之間建立明確聯(lián)系,從而可能引發(fā)幻覺。
這引出了一個重要問題:
- 是否應(yīng)直接將局部圖像特征輸入文本大模型,讓模型基于該區(qū)域生成描述,從而在視覺特征與語義之間建立更明確的映射?
同時支持理解和分割任務(wù)的多模態(tài)大模型LIRA
依循這個思路,研究團(tuán)隊(duì)提出了同時支持理解和分割任務(wù)的多模態(tài)大模型LIRA。
如下面Figure 2所示,研究團(tuán)隊(duì)進(jìn)一步分析了token的logits。
結(jié)果表明,當(dāng)“right”對應(yīng)的logits更高時右邊的bus被分割出,“l(fā)eft”對應(yīng)的logits更高時,左邊的bus被分割出,這可能表明 token實(shí)際上包含了被分割物體豐富的語義信息。
LIRA能夠準(zhǔn)確地將諸如“離白色汽車最近的紅色巴士”等查詢解釋為指向“右邊的巴士”,從而實(shí)現(xiàn)精確分割。
這個過程涉及根據(jù)用戶query和圖像信息來理解物體屬性,以實(shí)現(xiàn)準(zhǔn)確的分割,研究團(tuán)隊(duì)稱之為“Inferring Segmentation”。
這一定義可能與LISA Reasoning Segmentation中所使用的定義有所不同,后者依賴于外部世界知識或常識來對隱式查詢(例如,“請分割圖中富含維生素C的食物”)進(jìn)行推理。
此外,研究者還提出了語義增強(qiáng)特征提取器(SEFE)和交錯局部視覺耦合機(jī)制(ILVC),旨在提升多模態(tài)大模型分割精度和緩解理解幻覺。
SEFE通過融合高層語義信息與細(xì)粒度像素特征,增強(qiáng)模型的屬性理解能力從而提高分割性能。
ILVC通過顯式綁定局部圖像區(qū)域與對應(yīng)文本描述,為多模態(tài)大模型提供更細(xì)粒度的監(jiān)督,從而緩解幻覺現(xiàn)象。
語義增強(qiáng)特征提取器(SEFE)
該模塊融合了來自預(yù)訓(xùn)練多模態(tài)大模型的語義編碼器和分割模型的像素編碼器。
給定全局圖像,語義編碼器和像素編碼器分別提取特征,經(jīng)過多層感知機(jī)(MLP)轉(zhuǎn)換為相同維度的特征:
隨后,利用多頭交叉注意力融合語義特征和像素特征:
最終將融合后的特征拼接為全局特征后送入LLM中:
交錯局部視覺耦合模塊(ILVC)
在多模態(tài)大模型中,將局部特征與對應(yīng)的局部描述對齊對于精確理解目標(biāo)至關(guān)重要。
然而現(xiàn)有的方法(Figure 4(a))通常僅提取 token處的embedding,將其輸入解碼器生成分割掩碼。
這種方法并未明確地將局部圖像區(qū)域與其對應(yīng)的文本描述直接關(guān)聯(lián)。
受到人類的感知通常是先關(guān)注感興趣的區(qū)域,再進(jìn)行描述的啟發(fā),本文提出了交錯局部視覺耦合模塊幫助將局部圖像區(qū)域與對應(yīng)的文本描述進(jìn)行耦合(Figure 4(b))。
具體而言,LIRA使用token生成分割掩碼,基于該掩碼從原始圖像中裁剪出對應(yīng)區(qū)域,并將裁剪區(qū)域調(diào)整為448 x 448大小后輸入SEFE提取局部特征。
隨后,將編碼后的局部特征重新輸入文本大模型,以生成該圖像區(qū)域的描述并預(yù)測后續(xù)內(nèi)容。
通過這種交錯的訓(xùn)練范式,ILVC模塊成功建立了局部圖像區(qū)域與文本描述的顯式聯(lián)系,為局部圖像特征引入了細(xì)粒度監(jiān)督,從而緩解了幻覺。
實(shí)驗(yàn)結(jié)果:優(yōu)于先前最佳方法
實(shí)驗(yàn)結(jié)果表明,LIRA能夠同時支持理解和分割任務(wù),并且在多個理解和分割數(shù)據(jù)集上取得了不錯的性能。
為驗(yàn)證SEFE的有效性本文基于InternLM2-1.8B和InternLM2.5-7B骨干網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn)。
結(jié)果顯示,采用InternLM2-1.8B時,整合SEFE在理解任務(wù)上平均提升5.7%,分割任務(wù)提升3.8%。
采用InternLM2.5-7B時,理解任務(wù)和分割任務(wù)的平均提升分別為5.1%和3.4%。
在SEFE的基礎(chǔ)上,本文進(jìn)一步驗(yàn)證整合ILVC的效果。
結(jié)果表明,采用ILVC后,在數(shù)據(jù)集ChairS上,1.8B和7B規(guī)模的模型幻覺率分別降低了3.0%和4.8%。
將LIRA同時用理解數(shù)據(jù)和分割數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,性能僅較單獨(dú)用理解數(shù)據(jù)訓(xùn)練略微下降0.2%,優(yōu)于先前最佳方法OMG-LLaVA在五個理解數(shù)據(jù)集上近15%的性能下降。
綜上,豐富的實(shí)驗(yàn)結(jié)果驗(yàn)證了LIRA在多個理解與分割基準(zhǔn)上的優(yōu)異表現(xiàn)。
此外,研究團(tuán)隊(duì)還在論文中探討了token在分割任務(wù)中的作用,發(fā)現(xiàn)其logits能夠準(zhǔn)確反映被分割物體的屬性,推測其可能蘊(yùn)含更豐富的物體語義信息。
未來研究中,深入探索文本與視覺token之間的關(guān)聯(lián),可能為提升多模態(tài)大模型的理解和分割能力帶來新的啟發(fā)。
總體而言,LIRA實(shí)現(xiàn)了理解與分割任務(wù)性能的協(xié)同提升,提出了在細(xì)粒度多模態(tài)大模型中緩解幻覺的新視角,并將分割多模態(tài)大模型中token的語義內(nèi)涵納入研究視野,可能為后續(xù)相關(guān)探索提供了啟示。
arXiv:
https://arxiv.org/abs/2507.06272
GitHub:
https://github.com/echo840/LIRA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.