夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別全量掃描!浙大提出COIDO:破解多模態(tài)數(shù)據(jù)選擇「高耗」難題

0
分享至



本文第一作者是二年級(jí)博士生閆熠辰,主要研究方向是多模態(tài)大模型的數(shù)據(jù)質(zhì)量管理;通訊作者是李環(huán)研究員,主要研究方向包括人工智能數(shù)據(jù)準(zhǔn)備、大模型高效推理與部署、時(shí)空大數(shù)據(jù)與模型輕量化等。



01 省流版:一張圖看懂 COIDO

在深入技術(shù)細(xì)節(jié)之前,我們先用一張漫畫來(lái)直觀理解 COIDO (Coupled Importance-Diversity Optimization) 解決的核心問(wèn)題與方案:

正如鐘離在漫畫中所言,面對(duì)海量視覺(jué)指令數(shù)據(jù)的選擇任務(wù),傳統(tǒng)方法需要遍歷全部數(shù)據(jù)才能進(jìn)行篩選造成大量「磨損」(高昂計(jì)算成本)。同時(shí)在面對(duì)數(shù)據(jù)重要性和多樣性問(wèn)題時(shí),傳統(tǒng)方法往往顧此失彼。而 COIDO 通過(guò)「耦合優(yōu)化」的新契約,實(shí)現(xiàn)了以簡(jiǎn)馭繁的效果。

02 論文速覽



  • 論文題目:COIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization
  • 收錄會(huì)議:NeurIPS 2025
  • 作者單位:浙江大學(xué)大數(shù)據(jù)智能團(tuán)隊(duì)、杭州電子科技大學(xué)、北京郵電大學(xué)
  • 項(xiàng)目代碼:https://github.com/SuDIS-ZJU/COIDO
  • 論文鏈接:https://arxiv.org/abs/2510.17847

03 研究背景與動(dòng)機(jī) (Motivation)



多模態(tài)大語(yǔ)言模型(MLLM)的能力在很大程度上依賴于高質(zhì)量的視覺(jué)指令微調(diào)(Visual Instruction Tuning)。然而,隨著數(shù)據(jù)集規(guī)模的爆炸式增長(zhǎng)(如 LLaVA-665K),在全量數(shù)據(jù)上進(jìn)行微調(diào)帶來(lái)了巨大的計(jì)算開(kāi)銷和冗余 。

現(xiàn)有的數(shù)據(jù)篩選方法雖然旨在選取高質(zhì)量子集,但普遍存在兩個(gè)關(guān)鍵痛點(diǎn):

  • 高昂的篩選成本:現(xiàn)有方法通常要求目標(biāo) MLLM 對(duì)全量數(shù)據(jù)進(jìn)行反向傳播以計(jì)算重要性(如梯度、Loss),這導(dǎo)致篩選階段本身的計(jì)算成本就極高,違背了 「降本增效」的初衷 。也就是說(shuō),為了篩選出少量有價(jià)值數(shù)據(jù),我們還是得讓全部的數(shù)據(jù)進(jìn)入到目標(biāo) MLLM 當(dāng)中并訓(xùn)練。
  • 優(yōu)化目標(biāo)的解耦:數(shù)據(jù)篩選通常需要兼顧重要性(Importance)和多樣性(Diversity)?,F(xiàn)有方法往往將二者割裂處理——在訓(xùn)練階段關(guān)注重要性,在篩選階段通過(guò)獨(dú)立算法處理多樣性。這種解耦往往導(dǎo)致次優(yōu)的權(quán)衡 。

針對(duì)上述問(wèn)題,本文提出了 COIDO 框架,旨在通過(guò)極低成本的訓(xùn)練,實(shí)現(xiàn)重要性與多樣性的聯(lián)合(耦合)優(yōu)化 。

04 方法論 (Mothodology)

COIDO 的核心思想是摒棄「遍歷全量數(shù)據(jù)」的舊范式,轉(zhuǎn)而采用輕量級(jí)評(píng)分器(Plug-in Scorer)配合小樣本采樣的策略。



1. 輕量級(jí)評(píng)分器與小樣本學(xué)習(xí):不同于需要全量微調(diào) MLLM 的方法,COIDO 引入了一個(gè)輕量級(jí)的插件評(píng)分器(COIDO Scorer)。我們僅從全量數(shù)據(jù)中隨機(jī)采樣一小部分(例如 20%)作為訓(xùn)練集。評(píng)分器通過(guò)這部分?jǐn)?shù)據(jù)學(xué)習(xí)整個(gè)數(shù)據(jù)集的分布特征,從而能夠?qū)κS鄶?shù)據(jù)進(jìn)行泛化評(píng)分,無(wú)需遍歷全集進(jìn)行訓(xùn)練 。

2. 重要性與多樣性的耦合優(yōu)化 (Coupled Optimization):這是本論文的核心創(chuàng)新點(diǎn)。本文將重要性和多樣性的優(yōu)化統(tǒng)一在了一個(gè)聯(lián)合訓(xùn)練框架中,而非分階段進(jìn)行:

重要性損失 (L_I):基于 Cross-Entropy Loss 的重加權(quán)。我們將評(píng)分器輸出的得分 w 加權(quán)作用于 MLLM 的預(yù)測(cè) Loss。根據(jù)反向傳播原理,模型會(huì)自動(dòng)降低高難度(高 Loss)樣本的權(quán)重以最小化整體 Loss,從而使得評(píng)分器隱式地學(xué)習(xí)到樣本的重要性(即:分?jǐn)?shù)越低,樣本越重要 / 越難)
多樣性損失 (L_D):基于譜聚類(Spectral Clustering)的方差最小化。我們?cè)谔卣骺臻g將數(shù)據(jù)聚類,并計(jì)算各簇(Cluster)平均得分的方差。通過(guò)最小化該方差,迫使模型在挑選高分樣本時(shí),不會(huì)過(guò)度集中于某一類,從而保證了數(shù)據(jù)的多樣性分布。











05 實(shí)驗(yàn) (Experiments)

本文在 LLaVA-1.5-7B 模型及 LLaVA-665K 數(shù)據(jù)集上進(jìn)行了廣泛驗(yàn)證,并在 10 個(gè)主流多模態(tài)基準(zhǔn)(包括 VQAv2, GQA, MMBench 等)上進(jìn)行了測(cè)試。



1. 性能與效率的雙重 SOTA:實(shí)驗(yàn)結(jié)果表明,COIDO 僅利用 20% 的數(shù)據(jù)進(jìn)行訓(xùn)練和篩選,即可達(dá)到全量數(shù)據(jù)微調(diào) 98.2% 的平均性能。與現(xiàn)有的 SOTA 方法(如 ICONS、TIVE、COINCIDE)相比:

  • 計(jì)算效率最高:COIDO 擁有最低的 Total FLOPs (4.2E),顯著優(yōu)于需要全量遍歷的方法。
  • 篩選質(zhì)量最優(yōu):在相同的數(shù)據(jù)留存率下,COIDO 在各個(gè) Benchmark 上均取得了極具競(jìng)爭(zhēng)力的結(jié)果。



2. 強(qiáng)大的泛化性與遷移性:將在 LLaVA-665K 上訓(xùn)練好的 COIDO Scorer 直接應(yīng)用于 Vision-Flan 數(shù)據(jù)集(Zero-shot Transfer),其表現(xiàn)甚至優(yōu)于在該數(shù)據(jù)集上從頭訓(xùn)練的評(píng)分器,證明了 COIDO 能夠?qū)W習(xí)到通用的數(shù)據(jù)價(jià)值評(píng)估標(biāo)準(zhǔn)。

06 總結(jié) (Conclusion)

COIDO 提供了一種全新的多模態(tài)數(shù)據(jù)篩選范式。它打破了「數(shù)據(jù)篩選必須昂貴」的刻板印象,證明了通過(guò)耦合優(yōu)化和小樣本學(xué)習(xí),我們可以「以簡(jiǎn)馭繁」,用極小的計(jì)算代價(jià)精準(zhǔn)定位高價(jià)值的視覺(jué)指令數(shù)據(jù)。這不僅為資源受限的研究者提供了高效微調(diào) MLLM 的可能,也為未來(lái)大規(guī)模多模態(tài)數(shù)據(jù)的自動(dòng)化清洗與治理提供了新的思路。

關(guān)注項(xiàng)目主頁(yè)獲取更多細(xì)節(jié)與代碼實(shí)現(xiàn)!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
史上最強(qiáng)狀元誕生?迪班薩爆砍33+10+10的超級(jí)三雙,雷霆笑了!

史上最強(qiáng)狀元誕生?迪班薩爆砍33+10+10的超級(jí)三雙,雷霆笑了!

田先生籃球
2025-12-23 14:10:13
特朗普,突發(fā)!黃金、白銀大跳水!降息,突變!

特朗普,突發(fā)!黃金、白銀大跳水!降息,突變!

證券時(shí)報(bào)e公司
2025-12-23 23:25:39
夫妻間發(fā)送淫穢信息也違法?胡錫進(jìn)發(fā)聲:沒(méi)有對(duì)性的興趣,生育如何提高?

夫妻間發(fā)送淫穢信息也違法?胡錫進(jìn)發(fā)聲:沒(méi)有對(duì)性的興趣,生育如何提高?

可達(dá)鴨面面觀
2025-12-23 08:42:26
快船時(shí)隔兩個(gè)月再次連勝!火箭12月份客場(chǎng)全敗 圣誕大戰(zhàn)客戰(zhàn)湖人

快船時(shí)隔兩個(gè)月再次連勝!火箭12月份客場(chǎng)全敗 圣誕大戰(zhàn)客戰(zhàn)湖人

Emily說(shuō)個(gè)球
2025-12-24 14:14:11
大清這艘“破船”為啥能撐到1895年?就靠這兩場(chǎng)滅國(guó)之戰(zhàn)嚇住歐洲

大清這艘“破船”為啥能撐到1895年?就靠這兩場(chǎng)滅國(guó)之戰(zhàn)嚇住歐洲

歷史按察使司
2025-12-23 08:43:28
柬埔寨率先感謝中國(guó),泰軍宣布大獲全勝,泰柬沖突終于要結(jié)束了?

柬埔寨率先感謝中國(guó),泰軍宣布大獲全勝,泰柬沖突終于要結(jié)束了?

國(guó)際阿嘗
2025-12-24 12:58:56
面對(duì)錢大鈞故意放走陳賡還送大洋的舉動(dòng),下屬滿心不解,他反問(wèn):我敢動(dòng)他一根毫毛嗎?

面對(duì)錢大鈞故意放走陳賡還送大洋的舉動(dòng),下屬滿心不解,他反問(wèn):我敢動(dòng)他一根毫毛嗎?

源溯歷史
2025-12-22 12:04:24
中國(guó)的社零增速,已經(jīng)連降了6個(gè)月,轉(zhuǎn)負(fù)甚至就在眼前

中國(guó)的社零增速,已經(jīng)連降了6個(gè)月,轉(zhuǎn)負(fù)甚至就在眼前

子業(yè)一說(shuō)財(cái)經(jīng)
2025-12-23 15:21:31
浙江戶籍人口女性數(shù)量首次超過(guò)男性

浙江戶籍人口女性數(shù)量首次超過(guò)男性

何亞福
2025-12-23 13:58:12
人均消費(fèi)過(guò)萬(wàn)!如今誰(shuí)還在為KTV買單?老板們直呼“苦不堪言”

人均消費(fèi)過(guò)萬(wàn)!如今誰(shuí)還在為KTV買單?老板們直呼“苦不堪言”

音樂(lè)時(shí)光的娛樂(lè)
2025-12-14 00:12:34
臺(tái)海還沒(méi)開(kāi)戰(zhàn),另一場(chǎng)惡仗已逼近中國(guó)?美撕下偽裝,基辛格沒(méi)說(shuō)錯(cuò)

臺(tái)海還沒(méi)開(kāi)戰(zhàn),另一場(chǎng)惡仗已逼近中國(guó)?美撕下偽裝,基辛格沒(méi)說(shuō)錯(cuò)

蜉蝣說(shuō)
2025-12-21 23:30:29
杜富國(guó)最新軍銜已確定,服役期滿后晉升,網(wǎng)友熱議不斷

杜富國(guó)最新軍銜已確定,服役期滿后晉升,網(wǎng)友熱議不斷

老特有話說(shuō)
2025-12-23 21:27:38
唏噓!阿根廷、巴西的超新星,同時(shí)離開(kāi)歐洲豪門!恐怕踢不出來(lái)了

唏噓!阿根廷、巴西的超新星,同時(shí)離開(kāi)歐洲豪門!恐怕踢不出來(lái)了

球場(chǎng)沒(méi)跑道
2025-12-24 11:32:34
就在今天!12月24號(hào),CBA廣東隊(duì),傳來(lái),杜鋒,徐杰新消息

就在今天!12月24號(hào),CBA廣東隊(duì),傳來(lái),杜鋒,徐杰新消息

一路荒涼如歌a
2025-12-24 14:07:58
繼子被虐待12年考入985大學(xué),升學(xué)宴上亮出親子鑒定,繼母傻眼了

繼子被虐待12年考入985大學(xué),升學(xué)宴上亮出親子鑒定,繼母傻眼了

蘭姐說(shuō)故事
2025-05-06 20:00:08
早就想打!日媒首次爆料:中國(guó)雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國(guó)雙航母出動(dòng)時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩(shī)意世界
2025-08-21 13:13:50
演技一般,被捧成“老戲骨”,演員現(xiàn)出原形了?

演技一般,被捧成“老戲骨”,演員現(xiàn)出原形了?

說(shuō)歷史的老牢
2025-12-23 12:11:58
越共會(huì)議通過(guò)新一屆中央政治局?jǐn)M推薦人選

越共會(huì)議通過(guò)新一屆中央政治局?jǐn)M推薦人選

界面新聞
2025-12-23 16:26:47
女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來(lái)上班

女子因桃花眼走紅,訂婚兩年熱度依舊,網(wǎng)友喊話:88號(hào)快回來(lái)上班

梅子的小情緒
2025-12-19 14:04:18
別減了,男性162~178cm標(biāo)準(zhǔn)體重表出爐,85%的人都誤解了胖瘦

別減了,男性162~178cm標(biāo)準(zhǔn)體重表出爐,85%的人都誤解了胖瘦

解說(shuō)阿洎
2025-12-24 10:36:28
2025-12-24 15:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11984文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒(méi)想到的"中國(guó)速度"!2026值得期待

頭條要聞

幼兒園8人墜塘園長(zhǎng)丈夫被調(diào)查 園內(nèi)有兩輛19座校車

頭條要聞

幼兒園8人墜塘園長(zhǎng)丈夫被調(diào)查 園內(nèi)有兩輛19座校車

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂(lè)要聞

曝闞清子女兒早產(chǎn)但沒(méi)保住

財(cái)經(jīng)要聞

快手到底惹了誰(shuí)?

汽車要聞

“運(yùn)動(dòng)版庫(kù)里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
手機(jī)
藝術(shù)
軍事航空

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預(yù)期交付!

歲月不敗美人,50歲銀發(fā)的她們也太會(huì)穿了

手機(jī)要聞

榮耀WIN系列手機(jī)詳細(xì)參數(shù)曝光

藝術(shù)要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

軍事要聞

"九三"受閱女民兵:96米需踢出128個(gè)正步 每步75厘米

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 成人欧美一区二区三区黑人动态图| 亚洲 欧美 国产 制服 动漫| 国产成人精品免费视频网页大全| A级毛片免费的| 久久亚洲国产精品五月天婷| 久久综合五月天| 99国产精品久久久蜜芽| 97视频人人澡人人爽| 明星性猛交ⅹxxx乱大交| 精品一区二区三区免费视频| 欧美αV性爱| 亂伦国产一区二区三区| 男女性爽大片在线观看| 日韩精品久久久久久久电影蜜臀| 各种少妇正面着bbw撒尿视频| 三级大香蕉视频一区二区三区 | 亚洲国产精品国语在线| 97久久久久人妻精品区一| 免费观看av网址| 加勒比东京热无码一区| 午夜福利电影三区久久久| 亚洲综合色aaa成人无码| 亚洲av午夜成人影院老师机影院| 色五月日韩亚洲| 中文字幕一二区| 思思99思思久久最新精品| 精品日韩人妻中文字幕| 国产精品14页| 西西人体午夜视频无码| 国产无遮挡无码视频免费软件| 亚洲国产aⅴ综合网| 人妻少妇精品无码专区二区a| 被夫の上司に犯中文字幕| 久久99国产精品片久久99蜜桃| 色色色色色99999| 69久久夜色精品国产网站| 久久免费成人| 欲色天天网综合久久| 国产中文亚洲熟女日韩| 久久99国产精品尤物| 亚洲熟女乱伦|