夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

用兩個簡單模塊實(shí)現(xiàn)雙重SOTA!華科大白翔團(tuán)隊(duì)等推出多模態(tài)新框架

0
分享至

LIRA團(tuán)隊(duì) 投稿量子位 | 公眾號 QbitAI

多模態(tài)大模型需要干的活,已經(jīng)從最初的文生圖,擴(kuò)展到了像素級任務(wù)(圖像分割)。

不過,無論是OMG-LLaVA,還是提出了embedding-as-mask范式的LISA(CVPR 2024),都還存在分割結(jié)果不夠精確,以及理解過程中出現(xiàn)幻覺兩大痛點(diǎn)。

這主要源于現(xiàn)有模型在物體屬性理解上的不足,以及細(xì)粒度感知能力的局限。

為緩解上述問題,華中科技大學(xué)團(tuán)隊(duì)和金山辦公團(tuán)隊(duì)聯(lián)合提出了兩個核心模塊:

語義增強(qiáng)特征提取器(SEFE)和交錯局部視覺耦合(ILVC)。

前者融合語義特征與像素級特征,提升物體屬性推理能力,從而獲得更精確的分割結(jié)果。

后者基于分割掩碼提取局部特征后,自回歸生成局部描述,為模型提供細(xì)粒度監(jiān)督,從而有效減少理解幻覺。

最終,研究團(tuán)隊(duì)構(gòu)建了在分割和理解兩項(xiàng)任務(wù)上均取得SOTA的多模態(tài)大模型LIRA



與InternVL2相比,LIRA在保持理解性能的同時,額外支持圖像分割任務(wù);與OMG-LLaVA相比,LIRA在圖像分割任務(wù)上平均提升8.5%,在MMBench上提升33.2%。

目前,LIRA項(xiàng)目已被ICCV 2025錄用。

現(xiàn)有方法仍常常無法準(zhǔn)確分割目標(biāo)

通過將分割模塊和多模態(tài)大模型結(jié)合,多模態(tài)大模型的能力已從視覺理解拓展至像素級分割

LISA(CVPR 2024)首次提出“embedding-as-mask”范式,通過引入 token解鎖了分割能力。

OMG-LLaVA 則采用通用分割模型作為視覺編碼器,并將圖像特征與感知先驗(yàn)融合,從而在分割與理解任務(wù)上實(shí)現(xiàn)更優(yōu)的協(xié)同表現(xiàn)。

盡管現(xiàn)有方法已取得顯著進(jìn)展,但在復(fù)雜場景下仍常常無法準(zhǔn)確分割目標(biāo)

下圖Figure 2中,OMG-LLaVA就未能正確分割出“最靠近白色汽車的紅色公交車”。



為探究分割錯誤的原因,研究團(tuán)隊(duì)提取了多模態(tài)大模型在第一列圖像上生成的token embedding,并直接用于第二列和第三列圖像的分割。

有趣的是,在 (1) 行的所有圖像中,左側(cè)公交車始終被分割出來,這表明 token可能包含了與原圖像無關(guān)的語義信息。

進(jìn)一步分析token的logits發(fā)現(xiàn),與“l(fā)eft”相關(guān)的值顯著偏高,從而導(dǎo)致左側(cè)公交車被分割出來。

研究團(tuán)隊(duì)推測,產(chǎn)生分割錯誤的原因是多模態(tài)大模型在token中未能有效編碼準(zhǔn)確的位置信息,反映其視覺理解能力存在局限。

此外,現(xiàn)有方法通常依賴位置查詢來指示目標(biāo)位置,但并不能在局部描述與對應(yīng)圖像區(qū)域特征之間建立明確聯(lián)系,從而可能引發(fā)幻覺。

這引出了一個重要問題:

  • 是否應(yīng)直接將局部圖像特征輸入文本大模型,讓模型基于該區(qū)域生成描述,從而在視覺特征與語義之間建立更明確的映射?

同時支持理解和分割任務(wù)的多模態(tài)大模型LIRA

依循這個思路,研究團(tuán)隊(duì)提出了同時支持理解和分割任務(wù)的多模態(tài)大模型LIRA。

如下面Figure 2所示,研究團(tuán)隊(duì)進(jìn)一步分析了token的logits。

結(jié)果表明,當(dāng)“right”對應(yīng)的logits更高時右邊的bus被分割出,“l(fā)eft”對應(yīng)的logits更高時,左邊的bus被分割出,這可能表明 token實(shí)際上包含了被分割物體豐富的語義信息。

LIRA能夠準(zhǔn)確地將諸如“離白色汽車最近的紅色巴士”等查詢解釋為指向“右邊的巴士”,從而實(shí)現(xiàn)精確分割。

這個過程涉及根據(jù)用戶query和圖像信息來理解物體屬性,以實(shí)現(xiàn)準(zhǔn)確的分割,研究團(tuán)隊(duì)稱之為“Inferring Segmentation”。

這一定義可能與LISA Reasoning Segmentation中所使用的定義有所不同,后者依賴于外部世界知識或常識來對隱式查詢(例如,“請分割圖中富含維生素C的食物”)進(jìn)行推理。



此外,研究者還提出了語義增強(qiáng)特征提取器(SEFE)和交錯局部視覺耦合機(jī)制(ILVC),旨在提升多模態(tài)大模型分割精度和緩解理解幻覺。

SEFE通過融合高層語義信息與細(xì)粒度像素特征,增強(qiáng)模型的屬性理解能力從而提高分割性能。

ILVC通過顯式綁定局部圖像區(qū)域與對應(yīng)文本描述,為多模態(tài)大模型提供更細(xì)粒度的監(jiān)督,從而緩解幻覺現(xiàn)象。



語義增強(qiáng)特征提取器(SEFE)

該模塊融合了來自預(yù)訓(xùn)練多模態(tài)大模型的語義編碼器和分割模型的像素編碼器。

給定全局圖像,語義編碼器和像素編碼器分別提取特征,經(jīng)過多層感知機(jī)(MLP)轉(zhuǎn)換為相同維度的特征:



隨后,利用多頭交叉注意力融合語義特征和像素特征:



最終將融合后的特征拼接為全局特征后送入LLM中:



交錯局部視覺耦合模塊(ILVC)

在多模態(tài)大模型中,將局部特征與對應(yīng)的局部描述對齊對于精確理解目標(biāo)至關(guān)重要。

然而現(xiàn)有的方法(Figure 4(a))通常僅提取 token處的embedding,將其輸入解碼器生成分割掩碼。

這種方法并未明確地將局部圖像區(qū)域與其對應(yīng)的文本描述直接關(guān)聯(lián)。

受到人類的感知通常是先關(guān)注感興趣的區(qū)域,再進(jìn)行描述的啟發(fā),本文提出了交錯局部視覺耦合模塊幫助將局部圖像區(qū)域與對應(yīng)的文本描述進(jìn)行耦合(Figure 4(b))。



具體而言,LIRA使用token生成分割掩碼,基于該掩碼從原始圖像中裁剪出對應(yīng)區(qū)域,并將裁剪區(qū)域調(diào)整為448 x 448大小后輸入SEFE提取局部特征。

隨后,將編碼后的局部特征重新輸入文本大模型,以生成該圖像區(qū)域的描述并預(yù)測后續(xù)內(nèi)容。

通過這種交錯的訓(xùn)練范式,ILVC模塊成功建立了局部圖像區(qū)域與文本描述的顯式聯(lián)系,為局部圖像特征引入了細(xì)粒度監(jiān)督,從而緩解了幻覺。

實(shí)驗(yàn)結(jié)果:優(yōu)于先前最佳方法

實(shí)驗(yàn)結(jié)果表明,LIRA能夠同時支持理解和分割任務(wù),并且在多個理解和分割數(shù)據(jù)集上取得了不錯的性能。



為驗(yàn)證SEFE的有效性本文基于InternLM2-1.8B和InternLM2.5-7B骨干網(wǎng)絡(luò)進(jìn)行了消融實(shí)驗(yàn)。

結(jié)果顯示,采用InternLM2-1.8B時,整合SEFE在理解任務(wù)上平均提升5.7%,分割任務(wù)提升3.8%。

采用InternLM2.5-7B時,理解任務(wù)和分割任務(wù)的平均提升分別為5.1%和3.4%。



在SEFE的基礎(chǔ)上,本文進(jìn)一步驗(yàn)證整合ILVC的效果。

結(jié)果表明,采用ILVC后,在數(shù)據(jù)集ChairS上,1.8B和7B規(guī)模的模型幻覺率分別降低了3.0%和4.8%。



將LIRA同時用理解數(shù)據(jù)和分割數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,性能僅較單獨(dú)用理解數(shù)據(jù)訓(xùn)練略微下降0.2%,優(yōu)于先前最佳方法OMG-LLaVA在五個理解數(shù)據(jù)集上近15%的性能下降。



綜上,豐富的實(shí)驗(yàn)結(jié)果驗(yàn)證了LIRA在多個理解與分割基準(zhǔn)上的優(yōu)異表現(xiàn)。

此外,研究團(tuán)隊(duì)還在論文中探討了token在分割任務(wù)中的作用,發(fā)現(xiàn)其logits能夠準(zhǔn)確反映被分割物體的屬性,推測其可能蘊(yùn)含更豐富的物體語義信息。

未來研究中,深入探索文本與視覺token之間的關(guān)聯(lián),可能為提升多模態(tài)大模型的理解和分割能力帶來新的啟發(fā)。

總體而言,LIRA實(shí)現(xiàn)了理解與分割任務(wù)性能的協(xié)同提升,提出了在細(xì)粒度多模態(tài)大模型中緩解幻覺的新視角,并將分割多模態(tài)大模型中token的語義內(nèi)涵納入研究視野,可能為后續(xù)相關(guān)探索提供了啟示。

arXiv:
https://arxiv.org/abs/2507.06272

GitHub:
https://github.com/echo840/LIRA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全是科技與狠活!疑似三無食品添加劑竟在網(wǎng)上公開售賣,平臺視而不見?

全是科技與狠活!疑似三無食品添加劑竟在網(wǎng)上公開售賣,平臺視而不見?

爆角追蹤
2025-10-03 22:33:47
債市盛宴:熊貓債券,就是買一份戰(zhàn)斗民族的信用體驗(yàn)!

債市盛宴:熊貓債券,就是買一份戰(zhàn)斗民族的信用體驗(yàn)!

火星人的想法
2025-10-03 23:29:52
湖人最強(qiáng)新援1分3失誤!徹底被坑了,詹皇臉色鐵青,里夫斯不理他

湖人最強(qiáng)新援1分3失誤!徹底被坑了,詹皇臉色鐵青,里夫斯不理他

嘴炮體壇
2025-10-04 11:41:08
粵西今晚起將有大到暴雨局部大暴雨!廣東已提升防風(fēng)應(yīng)急響應(yīng)

粵西今晚起將有大到暴雨局部大暴雨!廣東已提升防風(fēng)應(yīng)急響應(yīng)

南方都市報(bào)
2025-10-04 10:09:05
上海護(hù)照姐后續(xù):正臉曝光身份被扒,二婚嫁外國人,下場大快人心

上海護(hù)照姐后續(xù):正臉曝光身份被扒,二婚嫁外國人,下場大快人心

清風(fēng)品歷史
2025-10-03 15:59:24
熊孩子潑水節(jié)往行人身上潑開水,父母囂張至極,打開鍋蓋卻崩潰了

熊孩子潑水節(jié)往行人身上潑開水,父母囂張至極,打開鍋蓋卻崩潰了

懸案解密檔案
2025-06-21 09:01:01
直接忽視中國?聯(lián)合國要遷移,最新決策已敲定,古特雷斯震驚全球!

直接忽視中國?聯(lián)合國要遷移,最新決策已敲定,古特雷斯震驚全球!

平祥生活日志
2025-10-04 00:49:35
大批游客國慶爬泰山遭遇下雨刮風(fēng),被迫擠在廁所避雨,收費(fèi)60一晚

大批游客國慶爬泰山遭遇下雨刮風(fēng),被迫擠在廁所避雨,收費(fèi)60一晚

極目新聞
2025-10-02 18:40:56
吳秀波破防!被人做局8年,如今10億被騙負(fù)債75億,已被逼上絕路

吳秀波破防!被人做局8年,如今10億被騙負(fù)債75億,已被逼上絕路

不知火說電影
2025-09-30 20:09:59
臺風(fēng)“麥德姆”將帶來暴雨大暴雨,最新路徑公布

臺風(fēng)“麥德姆”將帶來暴雨大暴雨,最新路徑公布

界面新聞
2025-10-04 07:14:37
由宗慶后董明珠賈國龍等人,網(wǎng)友們看出他們的十大共同點(diǎn)

由宗慶后董明珠賈國龍等人,網(wǎng)友們看出他們的十大共同點(diǎn)

清暉有墨
2025-10-03 11:57:39
在金正恩治理下,朝鮮人最大愿望就是:每天吃大米飯配香噴噴的肉

在金正恩治理下,朝鮮人最大愿望就是:每天吃大米飯配香噴噴的肉

明史專家
2025-10-03 23:13:02
涉嫌嚴(yán)重違紀(jì)違法,熊建良(已退休)主動投案

涉嫌嚴(yán)重違紀(jì)違法,熊建良(已退休)主動投案

FM93浙江交通之聲
2025-10-04 08:15:52
缺口近百萬噸!銅價暴漲只是開始  8大核心龍頭機(jī)構(gòu)已加倉12億股

缺口近百萬噸!銅價暴漲只是開始 8大核心龍頭機(jī)構(gòu)已加倉12億股

元芳說投資
2025-10-03 13:37:51
7場造9球!英超又1天才橫空出世,比肩哈蘭德,成為金靴大熱門

7場造9球!英超又1天才橫空出世,比肩哈蘭德,成為金靴大熱門

足球狗說
2025-10-04 07:59:01
又一個!美軍四星上將辭職

又一個!美軍四星上將辭職

環(huán)球時報(bào)新聞
2025-10-03 19:12:09
一家三口開兩架飛機(jī)回老家,油費(fèi)200多

一家三口開兩架飛機(jī)回老家,油費(fèi)200多

極目新聞
2025-10-04 07:56:07
為什么廣東各地長途大巴又開始興旺了?因?yàn)樵僖膊挥米~號了

為什么廣東各地長途大巴又開始興旺了?因?yàn)樵僖膊挥米~號了

陳博世財(cái)經(jīng)
2025-10-04 10:06:39
一家三口開兩架飛機(jī)回老家,300公里用時1小時20分鐘,油費(fèi)200多

一家三口開兩架飛機(jī)回老家,300公里用時1小時20分鐘,油費(fèi)200多

極目新聞
2025-10-04 10:54:06
上海又一波升溫,明起連續(xù)3天34℃

上海又一波升溫,明起連續(xù)3天34℃

魯中晨報(bào)
2025-10-04 07:48:01
2025-10-04 12:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11442文章數(shù) 176287關(guān)注度
往期回顧 全部

科技要聞

OpenAI Sora上線第4天拿下蘋果美國App頭名

頭條要聞

去年火出圈的曉華理發(fā)店國慶恢復(fù)正常 店外已沒有攤位

頭條要聞

去年火出圈的曉華理發(fā)店國慶恢復(fù)正常 店外已沒有攤位

體育要聞

19歲亞裔少年打進(jìn)中網(wǎng)決賽 年初他還排在122位

娛樂要聞

給演技最好的10位金雞影后排名

財(cái)經(jīng)要聞

不接親不主持不喝酒 年輕人“改造”婚禮

汽車要聞

一汽奧迪贈予四川嚴(yán)重交通事故車主終身保養(yǎng)服務(wù)

態(tài)度原創(chuàng)

手機(jī)
旅游
健康
房產(chǎn)
家居

手機(jī)要聞

vivo又一臺「重磅旗艦新機(jī)」發(fā)布時間曝光,配置太強(qiáng)了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

內(nèi)分泌科專家破解身高八大謠言

房產(chǎn)要聞

十一直擊,三亞這個熱盤,又火了!

家居要聞

潮流地標(biāo) 引領(lǐng)Z世代風(fēng)尚

無障礙瀏覽 進(jìn)入關(guān)懷版 国产por国产原创| 日韩vr在线视频| 国产不卡一区二区精品| 神马影院亚洲高清无码伦理久久区 | 亚洲欧洲日产国码无码久久99| 男人和女人爽爽爽免费视频| 国产+成+人+亚洲欧洲自线| 妺妺窝人体色777777仙踪林| 亚洲精品国产高清久久伦理二区| 人人操人人舔人人妻| 精品中文字幕人妻一二| 每日更新在线观看av| 激情文学亚洲| 国产精品无码片在线观看| 成人高清无码在线观看| 巷台无码精品少妇一二区| 国产理论网站| 国产a∨精品一区二区三区不卡 | 国产肉体xxxx裸体137大胆| 护士av无码在线观看| 久色九中文无码人妻| 国产熟女一区二区强奸| 俺也去www色官方网站| 欧美在线极品成人免费操B拳头 | 久久av无码精品人妻糸列| 日本精品一区二区三区色欲| 西西人体大胆掰开下部| 亚洲欧美国产高清va在线播放| 免费天堂中文字幕| 午夜福利在线观看| 免费人成再在线观看网站| 亚洲精品久久久久久婷婷| 国产成人夜色在线影院| 怡红院免费的全部视频| 人妻丝袜无码专区视频网站| 被黑人老板灌满受孕| 成人做爰69片免费看网站野花| 欧美牲交a欧美牲交| 无套內谢丰满少妇中文字幕| 欧洲精品99毛片免费高清观看| 国内精品一区二区三区在线观看|