新智元報道
編輯:元宇
【新智元導(dǎo)讀】2023年Meta推出SAM,隨后SAM 2擴(kuò)展到視頻分割,性能再度突破。近日,SAM 3悄悄現(xiàn)身ICLR 2026盲審論文,帶來全新范式——「基于概念的分割」(Segment Anything with Concepts),這預(yù)示著視覺AI正從「看見」邁向真正的「理解」。
2023年4月,Meta AI發(fā)布了首個圖像分割基礎(chǔ)模型Segment Anything Model(SAM)。
SAM的目標(biāo)是讓計算機「能分割任何東西」。
2024年7月,Meta推出SAM 2,將模型擴(kuò)展到視頻分割并顯著提升性能。
如今,SAM模型即將迎來第三次升級。
ICLR 2026會議盲審論文《SAM3:用概念分割一切》
https://openreview.net/pdf?id=r35clVtGzw
論文《SAM 3: Segment Anything with Concepts》,也許可以帶我們解鎖這次SAM新升級的內(nèi)幕。
該論文目前處于ICLR 2026會議盲審階段,作者暫未公布身份,但從題目中不難推測其內(nèi)容為SAM第三代的升級。
SAM3最大的突破在于它強調(diào)「基于概念的分割」,即不只是按像素或?qū)嵗?,而是可能按「語義概念」來理解和分割圖像:
只要給出一個提示,比如「黃色校車」或一張參考圖片,SAM 3就能在不同場景里找到并分割出對應(yīng)的物體。
該功能被定義為可提示的概念分割(Promptable Concept Segmentation,PCS)。
為了支撐PCS,研究團(tuán)隊還構(gòu)建了一個可擴(kuò)展的數(shù)據(jù)引擎,生成了涵蓋圖像與視頻的高質(zhì)量數(shù)據(jù)集,包含約400萬個不同的概念標(biāo)簽。
將「概念分割」引入SAM架構(gòu)
SAM架構(gòu)引入了「可提示分割」任務(wù),可通過交互式提示分割圖像與視頻中的目標(biāo)。
然而,早期的SAM 1和SAM 2更側(cè)重視覺提示,并且每個提示僅分割單個對象實例。
這無法解決更普遍的問題:在任意圖像或視頻中,自動找到所有屬于同一概念的對象。
比如,你輸入「貓」,不僅是要找出一只貓,而是找出所有的貓。SAM 3正是為解決這一問題而推出的。
它相比較前代模型,不僅改進(jìn)了可提示視覺分割(PVS),還開創(chuàng)了新的標(biāo)準(zhǔn)——可提示概念分割(PCS)。
PCS可以完成這樣的任務(wù):
模型可以根據(jù)提示(文字或圖像),找出圖像或視頻中所有符合這個「概念」的對象,并保持每個對象的身份一致。
比如輸入「紅蘋果」,模型會在不同幀中追蹤每一個紅蘋果。
在實際使用中,用戶還能通過交互方式(比如添加更多提示)逐步細(xì)化結(jié)果,解決模糊或歧義情況。
圖1對比展示了SAM 3與SAM 2的核心區(qū)別,說明了從「可提示視覺分割」(PVS)到「可提示概念分割」(PCS)的進(jìn)化。
圖2中展示了SAM 3如何從「理解一個提示」到「交互式細(xì)化分割結(jié)果」的全過程,它體現(xiàn)了PCS任務(wù)的核心特征——可提示、可交互、可概念化。
SAM 3系統(tǒng)實現(xiàn)了三大創(chuàng)新:
1. 更廣的媒體域:不局限于同質(zhì)化網(wǎng)頁來源,涵蓋更豐富的圖像和視頻場景;
2. 智能標(biāo)簽生成:使用多模態(tài)大模型(MLLM)作為「AI標(biāo)注員」,生成更多樣且有挑戰(zhàn)性的概念標(biāo)簽;
3. 標(biāo)簽驗證:通過微調(diào)MLLM使其成為高效的「AI驗證員」,達(dá)到接近人類的表現(xiàn),從而將標(biāo)注吞吐量翻倍。
研究團(tuán)隊構(gòu)建了一個包含400萬唯一短語與5200萬掩碼的高質(zhì)量訓(xùn)練數(shù)據(jù)集,以及一個包含3800萬短語與14億掩碼的合成數(shù)據(jù)集,還推出了一個新的測試標(biāo)準(zhǔn)SA-Co基準(zhǔn)。
實驗結(jié)果顯示,SAM 3在可提示分割上建立新SOTA,例如在LVIS數(shù)據(jù)集上,SAM 3的零樣本分割準(zhǔn)確度達(dá)到47.0(此前最佳為38.5)。
在SA-Co基準(zhǔn)上表現(xiàn)提升至少2倍,并在PVS基準(zhǔn)上優(yōu)于SAM 2。
在一張H200GPU上,SAM 3只需30毫秒就能在單張圖中識別上百個對象,視頻場景中也能保持接近實時的處理速度。
可提示概念分割(PCS)
研究人員將PCS定義為如下任務(wù):
給定一張圖片或一段不超過30秒的視頻,讓模型根據(jù)一個概念提示(可以是文字、示例圖像,或兩者結(jié)合),去檢測、分割并跟蹤所有符合該概念的對象。
這些「概念」一般是由簡單名詞短語(noun phrase,NP)組成的,包含一個名詞和可選修飾語,比如「紅蘋果」或「條紋貓」。
文字提示會對整張圖片或整段視頻都生效,而圖像示例(例如框選某個目標(biāo))則可以用于細(xì)化結(jié)果,幫助模型更精確地理解「我說的就是這個」。
PCS的一個難點在于我們面對的「概念」范圍幾乎無限,這帶來了很多歧義性。
這些歧義即使在封閉類別(如LVIS數(shù)據(jù)集)中也存在。
SAM3采取以下措施應(yīng)對歧義:
多專家標(biāo)注:每個測試樣本由三位獨立專家標(biāo)注,確保結(jié)果更客觀;
評估協(xié)議優(yōu)化:評估時允許多種「合理答案」共存;
標(biāo)注規(guī)范與數(shù)據(jù)清洗:在數(shù)據(jù)收集和指南中盡量減少歧義;
模型層面處理:在SAM 3中設(shè)計了專門的「歧義模塊」,幫助模型理解并容忍這些模糊邊界。
讓分割模型能夠理解「概念」
同時還要看得見、記得住
SAM 3是對前一代SAM 2的拓展與泛化。
它同時支持兩類任務(wù):
可提示視覺分割(PVS):根據(jù)幾何或視覺提示(點、框、掩碼)圈出指定物體;
可提示概念分割(PCS):根據(jù)概念提示(簡短的文字或示例圖像)識別并分割所有符合該概念的目標(biāo)。
換句話說,SAM 3既能理解「我點的這個東西」,也能理解「我說的這個概念」。
下圖3中展示了SAM 3架構(gòu),由一個雙編碼器-解碼器Transformer組成:
檢測器(Detector):負(fù)責(zé)在圖像級別檢測并分割目標(biāo);
跟蹤器(Tracker):跟蹤器繼承了SAM 2的Transformer架構(gòu),負(fù)責(zé)在視頻中跟蹤已檢測的目標(biāo)。
檢測器和跟蹤器分開運作,檢測器只管發(fā)現(xiàn)目標(biāo),跟蹤器才關(guān)注它們的身份,為了避免以上兩種任務(wù)相互干擾,SAM 3引入了一個新的「存在性Token」,將識別與定位解耦。
人機協(xié)同的數(shù)據(jù)引擎
讓模型實現(xiàn)「概念分割」能力
為了讓SAM 3在可提示概念分割(PCS)上實現(xiàn)跨越式提升,它必須在更廣泛的概念范圍和更多樣的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練。
為此,研究團(tuán)隊構(gòu)建了一個高效的數(shù)據(jù)引擎,讓人類標(biāo)注員、AI標(biāo)注員和SAM 3模型本身組成一個閉環(huán)系統(tǒng),推動模型不斷從自己的失敗案例中學(xué)習(xí)。
通過這種方式,AI在一些標(biāo)注環(huán)節(jié)上已經(jīng)能達(dá)到甚至超過人類的準(zhǔn)確度,使得整個數(shù)據(jù)生成效率提升了約一倍。
研究人員將數(shù)據(jù)引擎的建設(shè)分為四個階段:
第1–3階段僅針對圖像,第4階段擴(kuò)展至視頻。
階段1:人類驗證。
初期階段完全依靠人類驗證。
研究者使用隨機圖像和簡單文本描述器生成概念短語,掩碼由SAM2與開放詞匯檢測器提供。
階段2:人類+AI驗證。
利用第一階段積累的人類標(biāo)簽,團(tuán)隊微調(diào)Llama 3.2模型,讓它學(xué)會自動執(zhí)行MV與EV驗證。
AI驗證員可以直接判斷「這個掩碼對不對、全不全」,從而把人力解放出來,專注于最棘手的樣本。
此時,AI已能自動發(fā)現(xiàn)對模型具有挑戰(zhàn)性的「困難負(fù)樣本」。
階段3:擴(kuò)展視覺領(lǐng)域
第三階段把數(shù)據(jù)覆蓋擴(kuò)展到15個不同視覺域(例如自然場景、工業(yè)、藝術(shù)等)。
通過從alt-text(圖像描述文本)和基于Wikidata的本體庫(約2240萬個概念節(jié)點)中提取新短語,系統(tǒng)進(jìn)一步補充了長尾類與細(xì)粒度類別。
階段4:視頻標(biāo)注
將數(shù)據(jù)引擎擴(kuò)展至視頻。
使用成熟的SAM 3模型,研究人員在運動、遮擋、跟蹤失敗等復(fù)雜場景中采集高質(zhì)量標(biāo)注,最終構(gòu)建了SA-Co/VIDEO數(shù)據(jù)集,包含5.25萬視頻、2.48萬唯一短語,總計13.4萬視頻-短語對。
這部分主要聚焦于模型容易出錯的擁擠場景,以最大化學(xué)習(xí)效果。
SA-Co數(shù)據(jù)集
數(shù)據(jù)引擎最終生成了多層級的SA-Co數(shù)據(jù)集家族:
SA-Co/HQ:高質(zhì)量人工與AI協(xié)作圖像數(shù)據(jù),包含520萬張圖像、400萬個唯一短語;
SA-Co/SYN:全自動生成的合成數(shù)據(jù);
SA-Co/EXT:整合15個外部數(shù)據(jù)集并補充困難負(fù)樣本;
SA-Co/VIDEO:視頻級標(biāo)注數(shù)據(jù)集。
這些數(shù)據(jù)構(gòu)成了目前世界上最大規(guī)模的開放詞匯分割數(shù)據(jù)集體系。
為衡量模型在真實應(yīng)用中的表現(xiàn),研究人員設(shè)計了SA-Co基準(zhǔn)(Benchmark),涵蓋圖像與視頻共12.6萬個樣本、21.4萬唯一短語,包含超過300萬條標(biāo)注。
經(jīng)過研究人員評估,在圖像和視頻分割、少樣本檢測與多模態(tài)語言配合任務(wù)上,SAM 3全面超越現(xiàn)有系統(tǒng),它在SA-Co的圖像與視頻PCS上將性能提升到以往系統(tǒng)的兩倍。
與前代模型相比,SAM 3不再只是一個只會「按圖索驥」的工具,而是逐步演變成一個能理解概念、識別類別、保持語義一致性的智能視覺系統(tǒng)。
它將圖像分割從「點選式」操作提升到「概念級」理解,為下一代智能視覺和多模態(tài)系統(tǒng)奠定了基礎(chǔ)。
也許,視覺AI的「GPT-3時刻」真的已經(jīng)不遠(yuǎn)了。
參考資料:
https://openreview.net/forum?id=r35clVtGzw%20
https://openreview.net/pdf?id=r35clVtGzw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.