夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICLR神秘論文曝光!SAM3用「概念」看世界,重構(gòu)視覺AI新范式

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】2023年Meta推出SAM,隨后SAM 2擴(kuò)展到視頻分割,性能再度突破。近日,SAM 3悄悄現(xiàn)身ICLR 2026盲審論文,帶來全新范式——「基于概念的分割」(Segment Anything with Concepts),這預(yù)示著視覺AI正從「看見」邁向真正的「理解」。

2023年4月,Meta AI發(fā)布了首個圖像分割基礎(chǔ)模型Segment Anything Model(SAM)。


SAM的目標(biāo)是讓計算機「能分割任何東西」。

2024年7月,Meta推出SAM 2,將模型擴(kuò)展到視頻分割并顯著提升性能。


如今,SAM模型即將迎來第三次升級。


ICLR 2026會議盲審論文《SAM3:用概念分割一切》

https://openreview.net/pdf?id=r35clVtGzw

論文《SAM 3: Segment Anything with Concepts》,也許可以帶我們解鎖這次SAM新升級的內(nèi)幕。

該論文目前處于ICLR 2026會議盲審階段,作者暫未公布身份,但從題目中不難推測其內(nèi)容為SAM第三代的升級。

SAM3最大的突破在于它強調(diào)「基于概念的分割」,即不只是按像素或?qū)嵗?,而是可能按「語義概念」來理解和分割圖像:

只要給出一個提示,比如「黃色校車」或一張參考圖片,SAM 3就能在不同場景里找到并分割出對應(yīng)的物體。

該功能被定義為可提示的概念分割(Promptable Concept Segmentation,PCS)。

為了支撐PCS,研究團(tuán)隊還構(gòu)建了一個可擴(kuò)展的數(shù)據(jù)引擎,生成了涵蓋圖像與視頻的高質(zhì)量數(shù)據(jù)集,包含約400萬個不同的概念標(biāo)簽。

將「概念分割」引入SAM架構(gòu)

SAM架構(gòu)引入了「可提示分割」任務(wù),可通過交互式提示分割圖像與視頻中的目標(biāo)。

然而,早期的SAM 1和SAM 2更側(cè)重視覺提示,并且每個提示僅分割單個對象實例。

這無法解決更普遍的問題:在任意圖像或視頻中,自動找到所有屬于同一概念的對象。

比如,你輸入「貓」,不僅是要找出一只貓,而是找出所有的貓。SAM 3正是為解決這一問題而推出的。

它相比較前代模型,不僅改進(jìn)了可提示視覺分割(PVS),還開創(chuàng)了新的標(biāo)準(zhǔn)——可提示概念分割(PCS)。

PCS可以完成這樣的任務(wù):

模型可以根據(jù)提示(文字或圖像),找出圖像或視頻中所有符合這個「概念」的對象,并保持每個對象的身份一致。

比如輸入「紅蘋果」,模型會在不同幀中追蹤每一個紅蘋果。

在實際使用中,用戶還能通過交互方式(比如添加更多提示)逐步細(xì)化結(jié)果,解決模糊或歧義情況。


圖1對比展示了SAM 3與SAM 2的核心區(qū)別,說明了從「可提示視覺分割」(PVS)到「可提示概念分割」(PCS)的進(jìn)化。


圖2中展示了SAM 3如何從「理解一個提示」到「交互式細(xì)化分割結(jié)果」的全過程,它體現(xiàn)了PCS任務(wù)的核心特征——可提示、可交互、可概念化。

SAM 3系統(tǒng)實現(xiàn)了三大創(chuàng)新:

1. 更廣的媒體域:不局限于同質(zhì)化網(wǎng)頁來源,涵蓋更豐富的圖像和視頻場景;

2. 智能標(biāo)簽生成:使用多模態(tài)大模型(MLLM)作為「AI標(biāo)注員」,生成更多樣且有挑戰(zhàn)性的概念標(biāo)簽;

3. 標(biāo)簽驗證:通過微調(diào)MLLM使其成為高效的「AI驗證員」,達(dá)到接近人類的表現(xiàn),從而將標(biāo)注吞吐量翻倍。

研究團(tuán)隊構(gòu)建了一個包含400萬唯一短語與5200萬掩碼的高質(zhì)量訓(xùn)練數(shù)據(jù)集,以及一個包含3800萬短語與14億掩碼的合成數(shù)據(jù)集,還推出了一個新的測試標(biāo)準(zhǔn)SA-Co基準(zhǔn)。

實驗結(jié)果顯示,SAM 3在可提示分割上建立新SOTA,例如在LVIS數(shù)據(jù)集上,SAM 3的零樣本分割準(zhǔn)確度達(dá)到47.0(此前最佳為38.5)。

在SA-Co基準(zhǔn)上表現(xiàn)提升至少2倍,并在PVS基準(zhǔn)上優(yōu)于SAM 2。

在一張H200GPU上,SAM 3只需30毫秒就能在單張圖中識別上百個對象,視頻場景中也能保持接近實時的處理速度。

可提示概念分割(PCS)

研究人員將PCS定義為如下任務(wù):

給定一張圖片或一段不超過30秒的視頻,讓模型根據(jù)一個概念提示(可以是文字、示例圖像,或兩者結(jié)合),去檢測、分割并跟蹤所有符合該概念的對象。

這些「概念」一般是由簡單名詞短語(noun phrase,NP)組成的,包含一個名詞和可選修飾語,比如「紅蘋果」或「條紋貓」。

文字提示會對整張圖片或整段視頻都生效,而圖像示例(例如框選某個目標(biāo))則可以用于細(xì)化結(jié)果,幫助模型更精確地理解「我說的就是這個」。

PCS的一個難點在于我們面對的「概念」范圍幾乎無限,這帶來了很多歧義性。

這些歧義即使在封閉類別(如LVIS數(shù)據(jù)集)中也存在。

SAM3采取以下措施應(yīng)對歧義:

  • 多專家標(biāo)注:每個測試樣本由三位獨立專家標(biāo)注,確保結(jié)果更客觀;

  • 評估協(xié)議優(yōu)化:評估時允許多種「合理答案」共存;

  • 標(biāo)注規(guī)范與數(shù)據(jù)清洗:在數(shù)據(jù)收集和指南中盡量減少歧義;

  • 模型層面處理:在SAM 3中設(shè)計了專門的「歧義模塊」,幫助模型理解并容忍這些模糊邊界。

讓分割模型能夠理解「概念」

同時還要看得見、記得住

SAM 3是對前一代SAM 2的拓展與泛化。

它同時支持兩類任務(wù):

  • 可提示視覺分割(PVS):根據(jù)幾何或視覺提示(點、框、掩碼)圈出指定物體;

  • 可提示概念分割(PCS):根據(jù)概念提示(簡短的文字或示例圖像)識別并分割所有符合該概念的目標(biāo)。

換句話說,SAM 3既能理解「我點的這個東西」,也能理解「我說的這個概念」。

下圖3中展示了SAM 3架構(gòu),由一個雙編碼器-解碼器Transformer組成:

  • 檢測器(Detector):負(fù)責(zé)在圖像級別檢測并分割目標(biāo);

  • 跟蹤器(Tracker):跟蹤器繼承了SAM 2的Transformer架構(gòu),負(fù)責(zé)在視頻中跟蹤已檢測的目標(biāo)。


檢測器和跟蹤器分開運作,檢測器只管發(fā)現(xiàn)目標(biāo),跟蹤器才關(guān)注它們的身份,為了避免以上兩種任務(wù)相互干擾,SAM 3引入了一個新的「存在性Token」,將識別與定位解耦。

人機協(xié)同的數(shù)據(jù)引擎

讓模型實現(xiàn)「概念分割」能力

為了讓SAM 3在可提示概念分割(PCS)上實現(xiàn)跨越式提升,它必須在更廣泛的概念范圍和更多樣的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練。

為此,研究團(tuán)隊構(gòu)建了一個高效的數(shù)據(jù)引擎,讓人類標(biāo)注員、AI標(biāo)注員和SAM 3模型本身組成一個閉環(huán)系統(tǒng),推動模型不斷從自己的失敗案例中學(xué)習(xí)。

通過這種方式,AI在一些標(biāo)注環(huán)節(jié)上已經(jīng)能達(dá)到甚至超過人類的準(zhǔn)確度,使得整個數(shù)據(jù)生成效率提升了約一倍。

研究人員將數(shù)據(jù)引擎的建設(shè)分為四個階段:

第1–3階段僅針對圖像,第4階段擴(kuò)展至視頻。


階段1:人類驗證。

初期階段完全依靠人類驗證。

研究者使用隨機圖像和簡單文本描述器生成概念短語,掩碼由SAM2與開放詞匯檢測器提供。

階段2:人類+AI驗證。

利用第一階段積累的人類標(biāo)簽,團(tuán)隊微調(diào)Llama 3.2模型,讓它學(xué)會自動執(zhí)行MV與EV驗證。

AI驗證員可以直接判斷「這個掩碼對不對、全不全」,從而把人力解放出來,專注于最棘手的樣本。

此時,AI已能自動發(fā)現(xiàn)對模型具有挑戰(zhàn)性的「困難負(fù)樣本」。

階段3:擴(kuò)展視覺領(lǐng)域

第三階段把數(shù)據(jù)覆蓋擴(kuò)展到15個不同視覺域(例如自然場景、工業(yè)、藝術(shù)等)。

通過從alt-text(圖像描述文本)和基于Wikidata的本體庫(約2240萬個概念節(jié)點)中提取新短語,系統(tǒng)進(jìn)一步補充了長尾類與細(xì)粒度類別。


階段4:視頻標(biāo)注

將數(shù)據(jù)引擎擴(kuò)展至視頻。

使用成熟的SAM 3模型,研究人員在運動、遮擋、跟蹤失敗等復(fù)雜場景中采集高質(zhì)量標(biāo)注,最終構(gòu)建了SA-Co/VIDEO數(shù)據(jù)集,包含5.25萬視頻、2.48萬唯一短語,總計13.4萬視頻-短語對。

這部分主要聚焦于模型容易出錯的擁擠場景,以最大化學(xué)習(xí)效果。

SA-Co數(shù)據(jù)集

數(shù)據(jù)引擎最終生成了多層級的SA-Co數(shù)據(jù)集家族:

  • SA-Co/HQ:高質(zhì)量人工與AI協(xié)作圖像數(shù)據(jù),包含520萬張圖像、400萬個唯一短語;

  • SA-Co/SYN:全自動生成的合成數(shù)據(jù);

  • SA-Co/EXT:整合15個外部數(shù)據(jù)集并補充困難負(fù)樣本;

  • SA-Co/VIDEO:視頻級標(biāo)注數(shù)據(jù)集。

這些數(shù)據(jù)構(gòu)成了目前世界上最大規(guī)模的開放詞匯分割數(shù)據(jù)集體系。

為衡量模型在真實應(yīng)用中的表現(xiàn),研究人員設(shè)計了SA-Co基準(zhǔn)(Benchmark),涵蓋圖像與視頻共12.6萬個樣本、21.4萬唯一短語,包含超過300萬條標(biāo)注。

經(jīng)過研究人員評估,在圖像和視頻分割、少樣本檢測與多模態(tài)語言配合任務(wù)上,SAM 3全面超越現(xiàn)有系統(tǒng),它在SA-Co的圖像與視頻PCS上將性能提升到以往系統(tǒng)的兩倍。

與前代模型相比,SAM 3不再只是一個只會「按圖索驥」的工具,而是逐步演變成一個能理解概念、識別類別、保持語義一致性的智能視覺系統(tǒng)。

它將圖像分割從「點選式」操作提升到「概念級」理解,為下一代智能視覺和多模態(tài)系統(tǒng)奠定了基礎(chǔ)。

也許,視覺AI的「GPT-3時刻」真的已經(jīng)不遠(yuǎn)了。

參考資料:

https://openreview.net/forum?id=r35clVtGzw%20

https://openreview.net/pdf?id=r35clVtGzw

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
沒有董宇輝的命,卻得了董宇輝的“病”,頓頓終為年少輕狂買單

沒有董宇輝的命,卻得了董宇輝的“病”,頓頓終為年少輕狂買單

凡知
2025-10-13 17:01:49
楊冪大學(xué)時期的顏值,簡直讓人無法直視!

楊冪大學(xué)時期的顏值,簡直讓人無法直視!

手工制作阿殲
2025-10-12 08:10:47
88年中共特工從臺灣帶回一份烈士名單,震驚眾人:他不是叛變了么

88年中共特工從臺灣帶回一份烈士名單,震驚眾人:他不是叛變了么

云端小院
2025-10-12 08:07:46
女優(yōu)小島南飾性感姐姐,背著妹妹與男友家中決戰(zhàn)!

女優(yōu)小島南飾性感姐姐,背著妹妹與男友家中決戰(zhàn)!

葫蘆哥愛吐槽
2025-10-13 09:38:56
24歲小伙愛上51歲大媽,大媽性欲高還虐待他,結(jié)果被小伙砍成5段

24歲小伙愛上51歲大媽,大媽性欲高還虐待他,結(jié)果被小伙砍成5段

胖胖侃咖
2024-04-22 08:00:09
官宣,離隊原因曝光,錢天一做出決定,開啟新挑戰(zhàn),或和男友分手

官宣,離隊原因曝光,錢天一做出決定,開啟新挑戰(zhàn),或和男友分手

樂聊球
2025-10-13 11:15:37
巴西公布對陣日本大名單:維尼修斯、羅德里戈、埃斯特旺在列

巴西公布對陣日本大名單:維尼修斯、羅德里戈、埃斯特旺在列

雷速體育
2025-10-13 19:41:06
巴克利:詹姆斯說白了就是屁股疼,他這個年紀(jì)多休息很正常

巴克利:詹姆斯說白了就是屁股疼,他這個年紀(jì)多休息很正常

雷速體育
2025-10-13 08:54:04
趙露思曝「腦波檢測異常」難復(fù)出拍戲! 認(rèn):露面一次就消耗極大心力

趙露思曝「腦波檢測異常」難復(fù)出拍戲! 認(rèn):露面一次就消耗極大心力

ETtoday星光云
2025-10-13 09:47:04
打臉了,蘋果、小米、三星等測試:蘋果功耗低到離譜,小米最高

打臉了,蘋果、小米、三星等測試:蘋果功耗低到離譜,小米最高

互聯(lián)網(wǎng).亂侃秀
2025-10-11 10:15:08
34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價上億

34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價上億

云舟史策
2025-09-13 07:37:04
威爾希爾:我向阿爾特塔詢問過建議,他說只要跳進(jìn)水奮力游

威爾希爾:我向阿爾特塔詢問過建議,他說只要跳進(jìn)水奮力游

懂球帝
2025-10-13 22:08:56
涉嫌嚴(yán)重違紀(jì)違法!廣東一學(xué)校校長被查!

涉嫌嚴(yán)重違紀(jì)違法!廣東一學(xué)校校長被查!

花young的生活
2025-10-13 00:02:02
年入4.5億,莆田大佬造出“國產(chǎn)勞力士”,上市首日大漲258%

年入4.5億,莆田大佬造出“國產(chǎn)勞力士”,上市首日大漲258%

天下網(wǎng)商
2025-10-13 10:04:44
8名間諜一窩端!勾結(jié)境外勢力,偷運軍工核心材料,作案手段炸裂

8名間諜一窩端!勾結(jié)境外勢力,偷運軍工核心材料,作案手段炸裂

杰絲聊古今
2025-10-13 15:45:32
終于明白為啥大型鸚鵡在國內(nèi)不開放售賣!看網(wǎng)友分享,眼珠都瞪圓了

終于明白為啥大型鸚鵡在國內(nèi)不開放售賣!看網(wǎng)友分享,眼珠都瞪圓了

超人強動物俱樂部
2025-10-08 06:51:28
男子稱爺爺墳里埋了200萬,女友給小12歲男友272萬后,發(fā)現(xiàn)其是老賴

男子稱爺爺墳里埋了200萬,女友給小12歲男友272萬后,發(fā)現(xiàn)其是老賴

瀟湘晨報
2025-10-13 08:30:18
兩名中國游客馬來西亞美人魚島失聯(lián) 搜救7天仍無線索,當(dāng)局宣布停止搜救

兩名中國游客馬來西亞美人魚島失聯(lián) 搜救7天仍無線索,當(dāng)局宣布停止搜救

紅星新聞
2025-10-13 11:54:07
梁歡27年婚姻終結(jié),昔日錯誤終成代價,才女命運令人唏噓

梁歡27年婚姻終結(jié),昔日錯誤終成代價,才女命運令人唏噓

仙味少女心
2025-10-10 21:17:51
楊冪,166CM的小體格,卻有這么豐滿的身材!

楊冪,166CM的小體格,卻有這么豐滿的身材!

小椰的奶奶
2025-10-12 00:58:02
2025-10-13 23:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13609文章數(shù) 66212關(guān)注度
往期回顧 全部

科技要聞

楊強院士:AGI真正到來時 人與AI將和諧共生

頭條要聞

被荷蘭政府限制中企稱已請求中國政府幫助 外交部回應(yīng)

頭條要聞

被荷蘭政府限制中企稱已請求中國政府幫助 外交部回應(yīng)

體育要聞

29+12后24+10:韋爾生涯第二年沖MIP

娛樂要聞

王詩齡16歲生日:李湘王岳倫同框

財經(jīng)要聞

2025諾貝爾經(jīng)濟(jì)學(xué)獎:創(chuàng)新、毀滅與增長

汽車要聞

小米SU7高速碰撞后起火 事發(fā)前速度或超200km/h

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
本地
手機
時尚

數(shù)碼要聞

vivo 120W 多口閃充套裝開售:2C1A 設(shè)計、多協(xié)議兼容,199 元

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

“閩東利劍·惠民安商”首期緝車聯(lián)動執(zhí)行

手機要聞

天璣9500價格出爐:同樣是3nm工藝,比第五代驍龍8至尊版便宜多少

成熟女性秋天衣服怎么穿?看看這些穿搭就有靈感,舒適又簡約

無障礙瀏覽 進(jìn)入關(guān)懷版 超级免费碰碰视频| 乱码一线二线三线新区破解欧| 日本另类αv欧美另类aⅴ| 秋霞AV鲁丝片无码人口| 亚洲 a 一区| 欧美三级乱人伦电影| 日本老熟女俱乐部| 久夂Av强奸| 国产超碰人人| 91精品国产乱码久久久久久久| 亚洲av资源站| 98国产精品永久在线观看| Av天堂亚洲凹凸| 色噜噜狠狠狠综合曰曰曰88Av| 中文字幕亚洲色妞精品天堂| 亚洲卡一卡二新区永久时长| 和邻居熟女做| 成人无码特黄特黄av片在线| 国产蜜乳AV| 四虎无码在线| 中文字幕丰满乱子无码视频| 性裸交a片一区二区三区| 婷婷六月天丁香| 国产91色综合久久免费| 人妻体内射精一区二区| 扒开双腿粉嫩流白浆视频| 天天夜碰日日摸日日澡性色AV| 波多野结衣连续高潮20次| 日本精品偷拍| 国产69精品久久久久乱码韩国| 中文字幕精品一区二区三区电影| 777米奇视频| 国产亚洲国产精品二区| 丰满岳乱妇一区二区三区| 国产精品叫床久久| 蜜桃无码一区二区三区| AV教师一区高清| 福利片+经典片+写真片| 亚洲人妻无码系列| 亚洲欧洲无码av一区二区三区| 成人精品视频影院|