夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

超越CLIP等,多模態(tài)圖片檢索的增強(qiáng)視覺(jué)語(yǔ)言大模型預(yù)訓(xùn)練

0
分享至



多模態(tài)圖片檢索是計(jì)算機(jī)視覺(jué)和多模態(tài)機(jī)器學(xué)習(xí)領(lǐng)域很重要的一個(gè)任務(wù)。現(xiàn)在大家做多模態(tài)圖片檢索一般會(huì)用 CLIP/SigLIP 這種視覺(jué)語(yǔ)言大模型,因?yàn)樗麄兘?jīng)過(guò)了大規(guī)模的預(yù)訓(xùn)練,所以 zero-shot 的能力比較強(qiáng)。

牛津 VGG ,港大,上交大團(tuán)隊(duì)這篇論文旨在提供一種方法,能夠用學(xué)術(shù)界的資源來(lái)增強(qiáng)視覺(jué)語(yǔ)言大模型的預(yù)訓(xùn)練 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 圖片檢索。這篇論文被 IEEE 國(guó)際基于內(nèi)容的多媒體索引大會(huì)(IEEE International Conference on Content-Based Multimedia Indexing)接受,并被評(píng)選為最佳論文提名,大會(huì)近期在愛(ài)爾蘭都柏林召開(kāi)。



  • 關(guān)鍵詞:大模型;視覺(jué)語(yǔ)言模型;圖片檢索
  • 項(xiàng)目主頁(yè):https://www.robots.ox.ac.uk/~vgg/research/elip/
  • 論文鏈接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf
  • 代碼倉(cāng)庫(kù):https://github.com/ypliubit/ELIP

方法概覽

下圖是這篇文章方法的預(yù)覽圖。ELIP 方法的核心思想是,先用傳統(tǒng)的 CLIP/SigLIP 對(duì)全體圖片做一次 ranking,然后選出 top-k candidate 再做一次 re-ranking。做 re-ranking 的時(shí)候,作者設(shè)計(jì)了一個(gè)簡(jiǎn)單的 MLP mapping network,可以用文字的特征來(lái)定義一些視覺(jué)域中的 token,并把這些 token 插入到 image encoder 當(dāng)中,使得 image encoder 在編碼圖片信息的時(shí)候可以感知到語(yǔ)言信息。這樣重新編碼之后的圖片信息和語(yǔ)言信息再做比對(duì)的時(shí)候,同一個(gè)語(yǔ)言 query 能得到更好的 ranking 結(jié)果。ELIP 可以應(yīng)用到一系列大模型上,比如 CLIP/SigLIP/SigLIP-2/BLIP-2,作者稱(chēng)之為 ELIP-C/ELIP-S/ELIP-S-2/ELIP-B。



學(xué)術(shù)界研究的挑戰(zhàn)

視覺(jué)語(yǔ)言大模型的預(yù)訓(xùn)練,一般都是工業(yè)界做的事情,但作者提出的方法使得用學(xué)術(shù)界兩張 GPU 做訓(xùn)練也變得可能。想法的創(chuàng)新點(diǎn)主要在模型架構(gòu)和訓(xùn)練數(shù)據(jù)上。

創(chuàng)新點(diǎn):模型架構(gòu)

模型架構(gòu)上,龐大的圖片編碼器和文本編碼器的權(quán)重是固定的,只有作者涉及的由三層 linear + GeLU 構(gòu)成的 MLP maping network 需要打開(kāi)訓(xùn)練。

下圖是 ELIP-C 和 ELIP-S 的訓(xùn)練圖示。訓(xùn)練的時(shí)候,一個(gè) batch 的文本圖片對(duì)輸入模型,文本特征映射到視覺(jué)特征空間來(lái)引導(dǎo)圖片信息的編碼。對(duì)于 CLIP 沿用 InfoNCE 損失函數(shù),對(duì)于 SigLIP 沿用 Sigmoid 損失函數(shù),來(lái)對(duì)齊文本特征和重新計(jì)算的圖片特征。



下圖是 ELIP-B 的訓(xùn)練圖示。和 CLIP/SigLIP 類(lèi)似,MLP mapping network 把文本特征映射到視覺(jué)特征空間。唯一不同的是,在這里由文本引導(dǎo)的圖片特征放進(jìn)了 Q-Former 來(lái)和輸入的文本做 cross-attention,并最終由 ITM Head 來(lái)預(yù)測(cè)圖片和文本是否匹配。訓(xùn)練的時(shí)候,ELIP-B 沿用 BLIP-2 的 BCE 損失函數(shù)。



創(chuàng)新點(diǎn):訓(xùn)練數(shù)據(jù)

訓(xùn)練數(shù)據(jù)上,在學(xué)術(shù)界做大模型訓(xùn)練要面臨的挑戰(zhàn)就是 GPU 數(shù)量不夠,沒(méi)法開(kāi)很大的 batch size 訓(xùn)練,這樣可能訓(xùn)練出來(lái)的模型分辨能力就會(huì)下降。而 ELIP 卻是要去分辨 CLIP/SigLIP 排序出來(lái)的 hard sample,對(duì)模型分辨能力的要求就更高了。為了解決這樣的挑戰(zhàn),作者在訓(xùn)練的時(shí)候先算了一下每個(gè)訓(xùn)練圖片和對(duì)應(yīng)文字標(biāo)題的 CLIP 特征,然后把相似特征的圖文對(duì)聚集在一起形成 hard sample training batch。下圖是作者聚合的訓(xùn)練 batch 的例子。對(duì)于每一行,第一個(gè) sample 被用來(lái)聚合其他 sample。第一行的 caption 從左往右分別是:'a wooden table with no base'; 'a wooden table with a couple of folding legs on it'; 'a table that has a metal base with an olive wood top'; 'small table outdoors sitting on top of the asphalt'。第二行的 caption 從左往右分別是:'a huge body of blue ice floats in a mountain stream'; 'the big chunk of glacier is falling off of the cliff'; 'there is a broken piece of glass that has been broken from the ground'; 'a body of water surrounded by a forest near a mountain'。



新的評(píng)測(cè)數(shù)據(jù)集

除了在標(biāo)準(zhǔn)測(cè)試集比如 COCO, Flickr 上做測(cè)試之外,作者還提出了兩個(gè)新的 OOD 測(cè)試集:Occluded COCO 和 ImageNet-R。對(duì)于 Occluded COCO,正樣本包含了文字中描述的物體(物體通常被遮擋);對(duì)于 ImageNet-R,正樣本中包含了文字中描述的物體,但是是來(lái)自一些不常見(jiàn)的領(lǐng)域的。負(fù)樣本中不含文字中描述的物體。下圖是一些例子,第一行是正樣本,第二行是負(fù)樣本。對(duì)于 Occluded COCO,正樣本中含有被遮擋的自行車(chē),負(fù)樣本中不含自行車(chē);對(duì)于 ImageNet-R,正樣本中含有金魚(yú),負(fù)樣本中不含金魚(yú)。



實(shí)驗(yàn)結(jié)果

文章的結(jié)果如下表??梢钥吹?,應(yīng)用了 ELIP 之后,CLIP/SigLIP/SigLIP-2 的圖片檢索表現(xiàn)都顯著增長(zhǎng),甚至于 SigLIP 系列模型達(dá)到了和 BLIP-2 接近的表現(xiàn)。ELIP-B 應(yīng)用到 BLIP-2 上之后,也提升了 BLIP-2 的表現(xiàn),超過(guò)了最新的 Q-Pert 方法。



在 OOD 的測(cè)試數(shù)據(jù)集上,ELIP-C/ELIP-S/ELIP-S-2/ELIP-B 都取得了 zero-shot 的泛化提升。如果我們?cè)趯?duì)應(yīng)的 domain 上做一些 fine-tune,比如對(duì)于 Occluded COCO 我們?cè)?COCO 數(shù)據(jù)集上 fine-tune,對(duì)于 ImageNet-R 數(shù)據(jù)集我們?cè)?ImageNet 數(shù)據(jù)集上 fine-tune,可以得到更顯著的提升。這進(jìn)一步說(shuō)明了 ELIP 除了增強(qiáng)預(yù)訓(xùn)練之外,還提供了一種高效的 adaptation 的方式。



作者進(jìn)一步觀察了注意力圖,發(fā)現(xiàn)當(dāng) text query 和圖片相關(guān)時(shí),ELIP 可以提高圖片信息提取 CLS token 對(duì)于文字描述的相關(guān)區(qū)域的注意力和信息提取。



更多細(xì)節(jié)詳見(jiàn)論文原文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人在醫(yī)院可以無(wú)知到啥地步?網(wǎng)友:智商低的人反而是生育主力軍

人在醫(yī)院可以無(wú)知到啥地步?網(wǎng)友:智商低的人反而是生育主力軍

帶你感受人間冷暖
2025-11-09 00:20:03
最狠一棒敲向普京:沙特宣布對(duì)印中提供折扣以取代俄羅斯石油

最狠一棒敲向普京:沙特宣布對(duì)印中提供折扣以取代俄羅斯石油

火星宏觀
2025-11-09 15:25:32
王曼昱首秀險(xiǎn)勝晉級(jí),王楚欽對(duì)手出爐,3:0到3:3決勝局驚險(xiǎn)

王曼昱首秀險(xiǎn)勝晉級(jí),王楚欽對(duì)手出爐,3:0到3:3決勝局驚險(xiǎn)

小嶯說(shuō)故事
2025-11-09 05:12:10
中美達(dá)成“大交易”,歐盟不樂(lè)意了,要求中方提供同等待遇

中美達(dá)成“大交易”,歐盟不樂(lè)意了,要求中方提供同等待遇

議紀(jì)史
2025-11-08 16:40:03
副院長(zhǎng)視頻后續(xù):眼科女主任很愛(ài)干凈,沙發(fā)上鋪了兩張無(wú)菌床單

副院長(zhǎng)視頻后續(xù):眼科女主任很愛(ài)干凈,沙發(fā)上鋪了兩張無(wú)菌床單

鋭娛之樂(lè)
2025-11-07 15:50:06
哈馬斯:以色列向地道灌混凝土困我們的戰(zhàn)士,嚴(yán)重違反協(xié)議

哈馬斯:以色列向地道灌混凝土困我們的戰(zhàn)士,嚴(yán)重違反協(xié)議

桂系007
2025-11-04 22:41:12
全紅嬋輝煌不再!全運(yùn)會(huì)得第五后,世界泳聯(lián)對(duì)其評(píng)價(jià)讓粉絲破防

全紅嬋輝煌不再!全運(yùn)會(huì)得第五后,世界泳聯(lián)對(duì)其評(píng)價(jià)讓粉絲破防

阿紵美食
2025-11-09 14:41:43
晚年楚青坦言:粟裕大將病重時(shí),透露過(guò)自己當(dāng)年不救山東的苦衷!

晚年楚青坦言:粟裕大將病重時(shí),透露過(guò)自己當(dāng)年不救山東的苦衷!

健康快樂(lè)丁
2025-07-15 21:02:26
劉翔近況大揭秘:長(zhǎng)期在國(guó)外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

劉翔近況大揭秘:長(zhǎng)期在國(guó)外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

一針見(jiàn)娛
2025-10-31 15:28:45
從見(jiàn)習(xí)民警到擬任正廳級(jí)領(lǐng)導(dǎo)

從見(jiàn)習(xí)民警到擬任正廳級(jí)領(lǐng)導(dǎo)

警界君
2025-11-09 19:09:55
華為將搬遷!

華為將搬遷!

通信頭條
2025-11-08 20:22:19
美的為什么不害怕小米?

美的為什么不害怕小米?

新浪財(cái)經(jīng)
2025-11-07 21:37:58
殺瘋了!16萬(wàn)俄軍重兵圍城,烏總司令立軍令狀:七天解圍紅軍城?

殺瘋了!16萬(wàn)俄軍重兵圍城,烏總司令立軍令狀:七天解圍紅軍城?

混沌錄
2025-11-09 20:08:10
日方親證電子對(duì)抗,美國(guó)網(wǎng)友:看來(lái)中國(guó)技術(shù)不是鬧著玩

日方親證電子對(duì)抗,美國(guó)網(wǎng)友:看來(lái)中國(guó)技術(shù)不是鬧著玩

Ck的蜜糖
2025-11-09 12:37:06
保潔阿姨兼職車(chē)展模特,毫無(wú)違和感啊

保潔阿姨兼職車(chē)展模特,毫無(wú)違和感啊

微微熱評(píng)
2025-11-07 17:29:36
幾乎所有人都背著債,政府負(fù)債,企業(yè)負(fù)債,錢(qián)到底跑哪兒去了呢?

幾乎所有人都背著債,政府負(fù)債,企業(yè)負(fù)債,錢(qián)到底跑哪兒去了呢?

流蘇晚晴
2025-07-21 18:37:59
官方辟謠涉王碩威不實(shí)信息

官方辟謠涉王碩威不實(shí)信息

界面新聞
2025-11-08 18:15:41
全運(yùn)會(huì)女單大冷門(mén)!世乒賽季軍3:4被淘汰,王曼昱首輪對(duì)手出爐

全運(yùn)會(huì)女單大冷門(mén)!世乒賽季軍3:4被淘汰,王曼昱首輪對(duì)手出爐

國(guó)乒二三事
2025-11-09 06:32:12
突發(fā)!終止重大資產(chǎn)重組,山東這家上市公司“蛇吞象”并購(gòu)告吹

突發(fā)!終止重大資產(chǎn)重組,山東這家上市公司“蛇吞象”并購(gòu)告吹

山東財(cái)經(jīng)報(bào)道
2025-11-09 08:55:01
女子去參加同學(xué)聚會(huì),丈夫打28個(gè)電話(huà)她都沒(méi)接,第二天她回家愣住了

女子去參加同學(xué)聚會(huì),丈夫打28個(gè)電話(huà)她都沒(méi)接,第二天她回家愣住了

溫情郵局
2025-11-07 13:35:48
2025-11-09 21:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11672文章數(shù) 142501關(guān)注度
往期回顧 全部

科技要聞

黃仁勛親赴臺(tái)積電“討要更多芯片”

頭條要聞

“青云租”爆雷員工揭內(nèi)幕:每人每月需投資30臺(tái)手機(jī)

頭條要聞

“青云租”爆雷員工揭內(nèi)幕:每人每月需投資30臺(tái)手機(jī)

體育要聞

他只想默默地拿走最后一億美元

娛樂(lè)要聞

《繁花》事件影響:唐嫣工作被取消

財(cái)經(jīng)要聞

10月CPI同比漲0.2% PPI同比下降2.1%

汽車(chē)要聞

鈦7月銷(xiāo)破2萬(wàn) 霜霧灰與青巒翠配色正式開(kāi)啟交付

態(tài)度原創(chuàng)

旅游
房產(chǎn)
教育
數(shù)碼
藝術(shù)

旅游要聞

眉山宜賓瀘州三城聯(lián)手打造“2025長(zhǎng)江之戀”愛(ài)情IP

房產(chǎn)要聞

封關(guān)倒計(jì)時(shí)!三亞主城 2.3 萬(wàn) /㎡+ 即買(mǎi)即住,手慢無(wú)!

教育要聞

綿陽(yáng)科一中3人!2025年“天府中學(xué)生英才計(jì)劃”入選學(xué)生名單公布

數(shù)碼要聞

紅魔游戲本 16 PRO?2026 款 RTX5070Ti 版本首銷(xiāo),16999 元起

藝術(shù)要聞

她眼中的世界豐富多彩 | Erin Hanson 2025作品

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 丝袜 中出 制服 人妻 美腿| 日本性爱小视频| 国内精自视频品线一二区| 任你躁老妇一区二区| 四虎激情永久免费在线观看| 国产精品秘 精品久久久入口| 韩国午夜福利一区二区| 黑人巨大ⅤS亚洲女人| 亚州成人精品suv| 亚洲av成人无遮挡网站在线观看| 丰满少妇被猛烈进入流水高清视频| h工口全彩里番库18禁无遮挡| 久久久国产精华液| FreeXXXX国产HD中文| 国产成人欧美日韩在线电影| 最新无码国产在线视频2021| 日本添下边视频全过程| freesexvideo| 热无码av在线| 天堂成品人短视频| 日韩色欲人妻无码精品av| 成人免费一区| 99热99re6国产在线播放| 日韩精品免费一线在线观看| 久久久亚洲国产美女国产盗摄| 精久国产av一区二区三区孕妇| 国产亚洲精品第一综合另类| 精品国产自在现线看久久| 国产农村妇女高潮大叫| 99久久精品6在线播放| 啪啪啪免费网站| 综合三区后入内射国产馆| 亚洲国产精品久久青草无码| 99精品日本二区留学生| 色吧首页dvd| 搡BBBB搡BBB搡18免费观看| FuCK玩老熟女HD| 欧美黄色网址视频| 亚洲精品一区二区| 破外女出血视频全过程| 国产成人无码va在线播放|