夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型時代,通用視覺模型將何去何從?

0
分享至



過去幾年,通用視覺模型(Vision Generalist Model,簡稱 VGM)曾是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。它們試圖構(gòu)建統(tǒng)一的架構(gòu),能夠處理圖像、點(diǎn)云、視頻等多種視覺模態(tài)輸入,以及分類、檢測、分割等多樣的下游任務(wù),向著「視覺模型大一統(tǒng)」的目標(biāo)邁進(jìn)。

然而,隨著大語言模型 LLM 的迅猛發(fā)展,研究熱點(diǎn)已經(jīng)悄然發(fā)生轉(zhuǎn)移。如今,多模態(tài)大模型興起,視覺被看作是語言模型眾多輸入模態(tài)中的一種,視覺模態(tài)數(shù)據(jù)被離散化為 Token,與文本一起被統(tǒng)一建模,視覺的「獨(dú)立性」正在被重新定義。

在這種趨勢下,傳統(tǒng)意義上以視覺任務(wù)為核心、以視覺范式為驅(qū)動的通用視覺模型研究,似乎正在逐漸被邊緣化。然而,我們認(rèn)為視覺領(lǐng)域仍應(yīng)保有自己的特色和研究重點(diǎn)。與語言數(shù)據(jù)相比,視覺數(shù)據(jù)具有結(jié)構(gòu)化強(qiáng)、空間信息豐富等天然優(yōu)勢,但也存在視覺模態(tài)間差異大、難替代的挑戰(zhàn)。例如:如何統(tǒng)一處理 2D 圖像、3D 點(diǎn)云和視頻流等異質(zhì)輸入?如何設(shè)計(jì)統(tǒng)一的輸出表示來同時支持像素級分割和目標(biāo)檢測等不同任務(wù)?這些問題在當(dāng)前的多模態(tài)范式中并未被充分解決。

正因如此,在這個多模態(tài)模型席卷科研與工業(yè)的新時代,回顧并總結(jié)純視覺范式下的通用視覺模型研究仍然是一件十分有意義的事情。清華大學(xué)自動化系魯繼文團(tuán)隊(duì)最近發(fā)表于 IJCV 的綜述論文系統(tǒng)梳理了該方向的研究進(jìn)展,涵蓋輸入統(tǒng)一方法、任務(wù)通用策略、模型框架設(shè)計(jì)、模型評測應(yīng)用等內(nèi)容,希望能為未來視覺模型的發(fā)展提供參考與啟發(fā)。



  • 論文標(biāo)題:Vision Generalist Model: A Survey
  • 論文鏈接:
  • https://arxiv.org/abs/2506.09954



VGM 到底解決了什么問題?

通用視覺模型是一種能夠處理多種視覺任務(wù)和模態(tài)輸入的模型框架。類似于大語言模型在自然語言處理中的成功,VGM 旨在通過構(gòu)建一個統(tǒng)一的架構(gòu)來解決各種計(jì)算機(jī)視覺任務(wù)。傳統(tǒng)的視覺模型通常針對特定任務(wù)(如圖像分類、目標(biāo)檢測、語義分割等)設(shè)計(jì),而 VGM 通過廣泛的預(yù)訓(xùn)練和共享表示,能夠在不同的視覺任務(wù)之間實(shí)現(xiàn)零樣本(Zero-shot)遷移,從而無需為每個任務(wù)進(jìn)行專門的調(diào)整。

VGM 的關(guān)鍵能力之一是其多模態(tài)輸入的統(tǒng)一處理能力。不同于傳統(tǒng)模型只處理單一類型的視覺數(shù)據(jù),VGM 能夠同時處理來自多個模態(tài)的數(shù)據(jù),如圖像、點(diǎn)云、視頻等,并通過統(tǒng)一的表示方法將它們映射到共享的特征空間。

此外,VGM 還具備強(qiáng)大的多任務(wù)學(xué)習(xí)能力,能夠在同一個模型中處理多個視覺任務(wù),從圖像識別到視頻分析,所有任務(wù)都可以在一個通用框架下并行處理。

綜述涵蓋了哪些核心內(nèi)容?

數(shù)據(jù) + 任務(wù) + 評測:為通用建模打基礎(chǔ)

VGM 通常使用大規(guī)模、多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練和評估。為了支持多模態(tài)學(xué)習(xí),VGM 使用的訓(xùn)練數(shù)據(jù)集涵蓋了圖像、視頻、點(diǎn)云等多種類型,本綜述列舉并介紹了一些常見的多模態(tài)數(shù)據(jù)集。

任務(wù)方面,本綜述將視覺任務(wù)分為四類:圖像任務(wù)、幾何任務(wù)、時間序列任務(wù)以及其他視覺相關(guān)任務(wù)。評測方面,主要通過多個綜合基準(zhǔn)來衡量其在多種任務(wù)和數(shù)據(jù)集上的表現(xiàn)。與傳統(tǒng)的單一任務(wù)評測不同,現(xiàn)代評測方法更注重模型的跨任務(wù)泛化和多模態(tài)處理能力。本綜述也對現(xiàn)有通用視覺模型的評測基準(zhǔn)做了充分的調(diào)研與總結(jié)。

模型設(shè)計(jì)范式與技術(shù)補(bǔ)充



現(xiàn)有通用視覺模型的設(shè)計(jì)范式主要集中在如何統(tǒng)一處理不同視覺模態(tài)輸入和多樣化任務(wù)輸出,大致可以分為兩種類型:編碼式框架和序列到序列框架。

編碼式框架(Encoding-based Framework)旨在通過構(gòu)建一個共享的特征空間來統(tǒng)一不同的輸入模態(tài),并使用 Transformer 等模型進(jìn)行編碼。這類框架通常包括領(lǐng)域特定的編碼器來處理不同類型的數(shù)據(jù),如圖像、文本和音頻,然后通過共享的 Transformer 結(jié)構(gòu)進(jìn)行進(jìn)一步處理,最終生成統(tǒng)一的輸出。

而序列到序列框架(Sequence-to-Sequence Framework)則借鑒了自然語言處理中的序列建模方法,將輸入數(shù)據(jù)轉(zhuǎn)換為固定長度的表示,然后通過解碼器生成相應(yīng)的輸出。這些框架特別適合處理具有可變長度輸入輸出的任務(wù),如圖像生成和視頻分析。

盡管有一些工作并不能被定義為通用視覺模型,但它們在聯(lián)合多模態(tài)數(shù)據(jù)輸入、模型架構(gòu)設(shè)計(jì)、協(xié)同處理多任務(wù)輸出等方面做出了卓越的技術(shù)貢獻(xiàn)。本綜述也對這些技術(shù)進(jìn)行了詳盡的討論分析。一些相關(guān)領(lǐng)域的內(nèi)容,如多任務(wù)學(xué)習(xí)、視覺-語言學(xué)習(xí)、開放詞匯,也被用來擴(kuò)充通用視覺模型領(lǐng)域的知識邊界。

此外,作為一個 case study,本綜述對比了收錄了多個主流 VGM 模型在 22 個基準(zhǔn)數(shù)據(jù)集上的評測結(jié)果:



VGM 的未來在哪里?

最后,本綜述總結(jié)了 VGM 的當(dāng)前研究進(jìn)展和面臨的挑戰(zhàn),還強(qiáng)調(diào)了其在實(shí)際應(yīng)用中的潛力和未來發(fā)展方向。

現(xiàn)有 VGM 在多個任務(wù)和多模態(tài)輸入的統(tǒng)一處理方面已經(jīng)取得了顯著的進(jìn)展,但仍面臨著如何優(yōu)化統(tǒng)一框架設(shè)計(jì)、提高訓(xùn)練效率和應(yīng)對大規(guī)模數(shù)據(jù)等挑戰(zhàn)。數(shù)據(jù)獲取和標(biāo)注仍然是 VGM 發(fā)展的瓶頸。

為了解決這一問題,自動化標(biāo)注技術(shù)以及大規(guī)模無監(jiān)督學(xué)習(xí)方法的研究將成為未來的研究重點(diǎn)。然而,隨著模型規(guī)模的擴(kuò)大,VGM 也面臨著倫理問題和偏見的挑戰(zhàn)。大量未標(biāo)注的數(shù)據(jù)中可能包含潛在的偏見,如何確保模型的公平性、透明性和安全性,仍是未來研究中的重要課題。

盡管如此,現(xiàn)有的 VGM 在實(shí)際應(yīng)用中展示了廣泛的潛力。它不僅可以用于傳統(tǒng)的視覺任務(wù),如圖像分類、目標(biāo)檢測和語義分割,還能擴(kuò)展到更復(fù)雜的多模態(tài)任務(wù),如視覺問答、圖像-文本檢索、視頻理解等。這些應(yīng)用涵蓋了智能監(jiān)控、自動駕駛、機(jī)器人等多個領(lǐng)域,推動了 VGM 在實(shí)際場景中的廣泛部署。

希望這篇文章能給研究中的你一些啟發(fā)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
戾氣越來越重了!

戾氣越來越重了!

深度報(bào)
2025-11-13 23:06:32
開季前兩場狂砍71分,火箭老熟人要變身發(fā)展聯(lián)盟頂級得分手了?

開季前兩場狂砍71分,火箭老熟人要變身發(fā)展聯(lián)盟頂級得分手了?

稻谷與小麥
2025-11-15 01:57:35
日本為什么不怕中國?俄羅斯專家一席話點(diǎn)醒國人?

日本為什么不怕中國?俄羅斯專家一席話點(diǎn)醒國人?

近史談
2025-11-06 21:16:03
周杰倫被昆凌拿捏住了!臺媒爆插足婚姻的王子,住的豪宅是昆凌的

周杰倫被昆凌拿捏住了!臺媒爆插足婚姻的王子,住的豪宅是昆凌的

小娛樂悠悠
2025-11-14 13:06:44
“斬首警告”立竿見影,朝鮮給高市早苗定性,強(qiáng)調(diào)“血債”遲早還

“斬首警告”立竿見影,朝鮮給高市早苗定性,強(qiáng)調(diào)“血債”遲早還

小鬼頭體育
2025-11-14 09:57:29
50多年后終于明白,當(dāng)年蘇聯(lián)挖穿地球,為何挖到12262米就停了

50多年后終于明白,當(dāng)年蘇聯(lián)挖穿地球,為何挖到12262米就停了

博覽歷史
2025-11-12 16:28:15
就在今天,11月14號凌晨兩點(diǎn)前,剛剛發(fā)生的最新消息

就在今天,11月14號凌晨兩點(diǎn)前,剛剛發(fā)生的最新消息

Thurman在昆明
2025-11-14 05:31:29
G7發(fā)表聯(lián)合聲明,不許中國援俄,不許對臺動武,不許阻止稀土出口

G7發(fā)表聯(lián)合聲明,不許中國援俄,不許對臺動武,不許阻止稀土出口

頭條爆料007
2025-11-13 20:24:04
老鷹力克爵士4連勝:杰倫31+18+14+7創(chuàng)歷史首人紀(jì)錄 馬卡40+7

老鷹力克爵士4連勝:杰倫31+18+14+7創(chuàng)歷史首人紀(jì)錄 馬卡40+7

醉臥浮生
2025-11-14 12:33:38
分手費(fèi)2.55億!沒想到,庫里和安德瑪分道揚(yáng)鑣了!

分手費(fèi)2.55億!沒想到,庫里和安德瑪分道揚(yáng)鑣了!

野球帝
2025-11-14 11:15:37
ATP總決賽:辛納2-0力克謝爾頓,豪取室內(nèi)硬地29連勝

ATP總決賽:辛納2-0力克謝爾頓,豪取室內(nèi)硬地29連勝

懂球帝
2025-11-14 23:26:22
內(nèi)蒙古披露:張銳、張曉兵、高潤喜受處分,被免去自治區(qū)黨委委員

內(nèi)蒙古披露:張銳、張曉兵、高潤喜受處分,被免去自治區(qū)黨委委員

澎湃新聞
2025-11-14 20:06:31
新甲午戰(zhàn)爭?這次中國要摧毀日本的軍國意志,要擊沉日本島,要雪百年之恥!

新甲午戰(zhàn)爭?這次中國要摧毀日本的軍國意志,要擊沉日本島,要雪百年之恥!

李光滿說
2025-11-13 20:24:13
11月14日俄烏:公正的回應(yīng)

11月14日俄烏:公正的回應(yīng)

山河路口
2025-11-14 18:51:04
不瞞了!馬筱梅挺大肚直播,食欲大增超愛吃肉,張?zhí)m:別太辛苦

不瞞了!馬筱梅挺大肚直播,食欲大增超愛吃肉,張?zhí)m:別太辛苦

小海娛計(jì)
2025-11-14 14:08:43
A股:尾盤半小時,大盤突然加速跳水跌破4000點(diǎn),原因是這兩點(diǎn)!

A股:尾盤半小時,大盤突然加速跳水跌破4000點(diǎn),原因是這兩點(diǎn)!

一只番茄魚
2025-11-14 18:29:22
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

不二大叔
2025-11-14 22:12:03
13年河南男子偷情被岳母發(fā)現(xiàn),岳母:想讓我保密就答應(yīng)我一個條件

13年河南男子偷情被岳母發(fā)現(xiàn),岳母:想讓我保密就答應(yīng)我一個條件

五元講堂
2024-09-13 12:47:57
周杰倫暗巷操新歡,林允為滿足周星馳停經(jīng),港媒的嘴是真敢說啊

周杰倫暗巷操新歡,林允為滿足周星馳停經(jīng),港媒的嘴是真敢說啊

娛樂官已上任
2025-11-14 08:28:07
腐敗有人查、問題有人管、利益有人護(hù)!遼寧省委書記:省、市兩級對自收涉基層問題線索全部提級、直查直辦

腐敗有人查、問題有人管、利益有人護(hù)!遼寧省委書記:省、市兩級對自收涉基層問題線索全部提級、直查直辦

政知新媒體
2025-11-14 20:47:36
2025-11-15 02:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11720文章數(shù) 142505關(guān)注度
往期回顧 全部

科技要聞

京東“失去的五年”后,找到新增長了嗎?

頭條要聞

中方連發(fā)六張雙語海報(bào)@高市早苗 媒體:總該看懂了吧

頭條要聞

中方連發(fā)六張雙語海報(bào)@高市早苗 媒體:總該看懂了吧

體育要聞

7-0狂勝!15萬人口小島離世界杯只差1分

娛樂要聞

王家衛(wèi)讓古二替秦雯寫劇情主線?

財(cái)經(jīng)要聞

財(cái)政部:加強(qiáng)逆周期和跨周期調(diào)節(jié)

汽車要聞

小鵬X9超級增程動態(tài)評測全網(wǎng)首發(fā) 高速實(shí)測車內(nèi)65分貝

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
手機(jī)
教育
軍事航空

藝術(shù)要聞

偉人寫給宋慶齡的信:狂草藝術(shù)的巔峰之作

數(shù)碼要聞

小米發(fā)布Xiaomi Miloco,探索大模型驅(qū)動全屋智能生活

手機(jī)要聞

華為Mate80 Pro Max突然曝光:定制20GB大內(nèi)存,雙長焦也來了!

教育要聞

清華附小語文名師團(tuán)隊(duì)解碼教師集體人格塑造之道:教育家精神是“做”出來的

軍事要聞

國防部:日方若膽敢鋌而走險必將碰得頭破血流

無障礙瀏覽 進(jìn)入關(guān)懷版 黄色网视毛片视频网站| 中文字幕无线码一区二区| 色欲久久九色一区二区三区| 乌克兰精品AⅤ无码精品| 777午夜福利理伦电影网| 国产AV一区二区精华液| 日本乱人伦片中文三区| 精品无码国产在线观看| 亚洲日韩寡妇久久久久久| 九色PORNY丨入口在线| 日韩丰满人妻视频| 欧美熟妇少妇多毛| 亚洲AV无码一区二区三区人悠悠| 亚洲国产欧美蜜臀影视| 日本欧美视频一区二区三区| 玩弄丰满少妇视频| 人妻大战黑人白浆狂泄| 高清无码网址| 国产精品va在线观看无码不卡| A级毛片毛片免费观看丝瓜| 亚洲国产日产无码精品| 亚洲欧洲日产韩国无码| 免费观看精品视频999| 亚洲天堂男人| 韩日美无码精品无码| 成人码一区二区三区AV| 日本久久久WWW成人免费毛片丨| 99久久ER热在这里只有精品99| 久久久国产精品VA麻豆| 国产精品白丝AV嫩草影院| 日韩av激情在线观看| 亚洲成人在线xxx| 久久久久久动漫| 91在线激情在线观看 | 国产婬乱一级吃奶| 波多野结衣一区二区三区高清av| 久久国产人妻一区二区| 亚洲国产欧美日韩久久久久| 亚洲人成网站观看在线观看| 射精一区二区| 久久久精品影视|