ICLR神秘論文曝光！SAM3用「概念」看世界，重構(gòu)視覺AI新范式

2025-10-13 20:31:19　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】2023年Meta推出SAM，隨后SAM 2擴(kuò)展到視頻分割，性能再度突破。近日，SAM 3悄悄現(xiàn)身ICLR 2026盲審論文，帶來全新范式——「基于概念的分割」（Segment Anything with Concepts），這預(yù)示著視覺AI正從「看見」邁向真正的「理解」。

2023年4月，Meta AI發(fā)布了首個圖像分割基礎(chǔ)模型Segment Anything Model（SAM）。

SAM的目標(biāo)是讓計算機「能分割任何東西」。

2024年7月，Meta推出SAM 2，將模型擴(kuò)展到視頻分割并顯著提升性能。

如今，SAM模型即將迎來第三次升級。

ICLR 2026會議盲審論文《SAM3：用概念分割一切》

https://openreview.net/pdf?id=r35clVtGzw

論文《SAM 3: Segment Anything with Concepts》，也許可以帶我們解鎖這次SAM新升級的內(nèi)幕。

該論文目前處于ICLR 2026會議盲審階段，作者暫未公布身份，但從題目中不難推測其內(nèi)容為SAM第三代的升級。

SAM3最大的突破在于它強調(diào)「基于概念的分割」，即不只是按像素或?qū)嵗?，而是可能按「語義概念」來理解和分割圖像：

只要給出一個提示，比如「黃色校車」或一張參考圖片，SAM 3就能在不同場景里找到并分割出對應(yīng)的物體。

該功能被定義為可提示的概念分割（Promptable Concept Segmentation，PCS）。

為了支撐PCS，研究團(tuán)隊還構(gòu)建了一個可擴(kuò)展的數(shù)據(jù)引擎，生成了涵蓋圖像與視頻的高質(zhì)量數(shù)據(jù)集，包含約400萬個不同的概念標(biāo)簽。

將「概念分割」引入SAM架構(gòu)

SAM架構(gòu)引入了「可提示分割」任務(wù)，可通過交互式提示分割圖像與視頻中的目標(biāo)。

然而，早期的SAM 1和SAM 2更側(cè)重視覺提示，并且每個提示僅分割單個對象實例。

這無法解決更普遍的問題：在任意圖像或視頻中，自動找到所有屬于同一概念的對象。

比如，你輸入「貓」，不僅是要找出一只貓，而是找出所有的貓。SAM 3正是為解決這一問題而推出的。

它相比較前代模型，不僅改進(jìn)了可提示視覺分割（PVS），還開創(chuàng)了新的標(biāo)準(zhǔn)——可提示概念分割（PCS）。

PCS可以完成這樣的任務(wù)：

模型可以根據(jù)提示（文字或圖像），找出圖像或視頻中所有符合這個「概念」的對象，并保持每個對象的身份一致。

比如輸入「紅蘋果」，模型會在不同幀中追蹤每一個紅蘋果。

在實際使用中，用戶還能通過交互方式（比如添加更多提示）逐步細(xì)化結(jié)果，解決模糊或歧義情況。

圖1對比展示了SAM 3與SAM 2的核心區(qū)別，說明了從「可提示視覺分割」（PVS）到「可提示概念分割」（PCS）的進(jìn)化。

圖2中展示了SAM 3如何從「理解一個提示」到「交互式細(xì)化分割結(jié)果」的全過程，它體現(xiàn)了PCS任務(wù)的核心特征——可提示、可交互、可概念化。

SAM 3系統(tǒng)實現(xiàn)了三大創(chuàng)新：

1. 更廣的媒體域：不局限于同質(zhì)化網(wǎng)頁來源，涵蓋更豐富的圖像和視頻場景；

2. 智能標(biāo)簽生成：使用多模態(tài)大模型（MLLM）作為「AI標(biāo)注員」，生成更多樣且有挑戰(zhàn)性的概念標(biāo)簽；

3. 標(biāo)簽驗證：通過微調(diào)MLLM使其成為高效的「AI驗證員」，達(dá)到接近人類的表現(xiàn)，從而將標(biāo)注吞吐量翻倍。

研究團(tuán)隊構(gòu)建了一個包含400萬唯一短語與5200萬掩碼的高質(zhì)量訓(xùn)練數(shù)據(jù)集，以及一個包含3800萬短語與14億掩碼的合成數(shù)據(jù)集，還推出了一個新的測試標(biāo)準(zhǔn)SA-Co基準(zhǔn)。

實驗結(jié)果顯示，SAM 3在可提示分割上建立新SOTA，例如在LVIS數(shù)據(jù)集上，SAM 3的零樣本分割準(zhǔn)確度達(dá)到47.0（此前最佳為38.5）。

在SA-Co基準(zhǔn)上表現(xiàn)提升至少2倍，并在PVS基準(zhǔn)上優(yōu)于SAM 2。

在一張H200GPU上，SAM 3只需30毫秒就能在單張圖中識別上百個對象，視頻場景中也能保持接近實時的處理速度。

可提示概念分割（PCS）

研究人員將PCS定義為如下任務(wù)：

給定一張圖片或一段不超過30秒的視頻，讓模型根據(jù)一個概念提示（可以是文字、示例圖像，或兩者結(jié)合），去檢測、分割并跟蹤所有符合該概念的對象。

這些「概念」一般是由簡單名詞短語（noun phrase，NP）組成的，包含一個名詞和可選修飾語，比如「紅蘋果」或「條紋貓」。

文字提示會對整張圖片或整段視頻都生效，而圖像示例（例如框選某個目標(biāo)）則可以用于細(xì)化結(jié)果，幫助模型更精確地理解「我說的就是這個」。

PCS的一個難點在于我們面對的「概念」范圍幾乎無限，這帶來了很多歧義性。

這些歧義即使在封閉類別（如LVIS數(shù)據(jù)集）中也存在。

SAM3采取以下措施應(yīng)對歧義：

多專家標(biāo)注：每個測試樣本由三位獨立專家標(biāo)注，確保結(jié)果更客觀；
評估協(xié)議優(yōu)化：評估時允許多種「合理答案」共存；
標(biāo)注規(guī)范與數(shù)據(jù)清洗：在數(shù)據(jù)收集和指南中盡量減少歧義；
模型層面處理：在SAM 3中設(shè)計了專門的「歧義模塊」，幫助模型理解并容忍這些模糊邊界。

讓分割模型能夠理解「概念」

同時還要看得見、記得住

SAM 3是對前一代SAM 2的拓展與泛化。

它同時支持兩類任務(wù)：

可提示視覺分割（PVS）：根據(jù)幾何或視覺提示（點、框、掩碼）圈出指定物體；
可提示概念分割（PCS）：根據(jù)概念提示（簡短的文字或示例圖像）識別并分割所有符合該概念的目標(biāo)。

換句話說，SAM 3既能理解「我點的這個東西」，也能理解「我說的這個概念」。

下圖3中展示了SAM 3架構(gòu)，由一個雙編碼器-解碼器Transformer組成：

檢測器（Detector）：負(fù)責(zé)在圖像級別檢測并分割目標(biāo)；
跟蹤器（Tracker）：跟蹤器繼承了SAM 2的Transformer架構(gòu)，負(fù)責(zé)在視頻中跟蹤已檢測的目標(biāo)。

檢測器和跟蹤器分開運作，檢測器只管發(fā)現(xiàn)目標(biāo)，跟蹤器才關(guān)注它們的身份，為了避免以上兩種任務(wù)相互干擾，SAM 3引入了一個新的「存在性Token」，將識別與定位解耦。

人機協(xié)同的數(shù)據(jù)引擎

讓模型實現(xiàn)「概念分割」能力

為了讓SAM 3在可提示概念分割（PCS）上實現(xiàn)跨越式提升，它必須在更廣泛的概念范圍和更多樣的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練。

為此，研究團(tuán)隊構(gòu)建了一個高效的數(shù)據(jù)引擎，讓人類標(biāo)注員、AI標(biāo)注員和SAM 3模型本身組成一個閉環(huán)系統(tǒng)，推動模型不斷從自己的失敗案例中學(xué)習(xí)。

通過這種方式，AI在一些標(biāo)注環(huán)節(jié)上已經(jīng)能達(dá)到甚至超過人類的準(zhǔn)確度，使得整個數(shù)據(jù)生成效率提升了約一倍。

研究人員將數(shù)據(jù)引擎的建設(shè)分為四個階段：

第1–3階段僅針對圖像，第4階段擴(kuò)展至視頻。

階段1：人類驗證。

初期階段完全依靠人類驗證。

研究者使用隨機圖像和簡單文本描述器生成概念短語，掩碼由SAM2與開放詞匯檢測器提供。

階段2：人類+AI驗證。

利用第一階段積累的人類標(biāo)簽，團(tuán)隊微調(diào)Llama 3.2模型，讓它學(xué)會自動執(zhí)行MV與EV驗證。

AI驗證員可以直接判斷「這個掩碼對不對、全不全」，從而把人力解放出來，專注于最棘手的樣本。

此時，AI已能自動發(fā)現(xiàn)對模型具有挑戰(zhàn)性的「困難負(fù)樣本」。

階段3：擴(kuò)展視覺領(lǐng)域

第三階段把數(shù)據(jù)覆蓋擴(kuò)展到15個不同視覺域（例如自然場景、工業(yè)、藝術(shù)等）。

通過從alt-text（圖像描述文本）和基于Wikidata的本體庫（約2240萬個概念節(jié)點）中提取新短語，系統(tǒng)進(jìn)一步補充了長尾類與細(xì)粒度類別。

階段4：視頻標(biāo)注

將數(shù)據(jù)引擎擴(kuò)展至視頻。

使用成熟的SAM 3模型，研究人員在運動、遮擋、跟蹤失敗等復(fù)雜場景中采集高質(zhì)量標(biāo)注，最終構(gòu)建了SA-Co/VIDEO數(shù)據(jù)集，包含5.25萬視頻、2.48萬唯一短語，總計13.4萬視頻-短語對。

這部分主要聚焦于模型容易出錯的擁擠場景，以最大化學(xué)習(xí)效果。

SA-Co數(shù)據(jù)集

數(shù)據(jù)引擎最終生成了多層級的SA-Co數(shù)據(jù)集家族：

SA-Co/HQ：高質(zhì)量人工與AI協(xié)作圖像數(shù)據(jù)，包含520萬張圖像、400萬個唯一短語；
SA-Co/SYN：全自動生成的合成數(shù)據(jù)；
SA-Co/EXT：整合15個外部數(shù)據(jù)集并補充困難負(fù)樣本；
SA-Co/VIDEO：視頻級標(biāo)注數(shù)據(jù)集。

這些數(shù)據(jù)構(gòu)成了目前世界上最大規(guī)模的開放詞匯分割數(shù)據(jù)集體系。

為衡量模型在真實應(yīng)用中的表現(xiàn)，研究人員設(shè)計了SA-Co基準(zhǔn)（Benchmark），涵蓋圖像與視頻共12.6萬個樣本、21.4萬唯一短語，包含超過300萬條標(biāo)注。

經(jīng)過研究人員評估，在圖像和視頻分割、少樣本檢測與多模態(tài)語言配合任務(wù)上，SAM 3全面超越現(xiàn)有系統(tǒng)，它在SA-Co的圖像與視頻PCS上將性能提升到以往系統(tǒng)的兩倍。

與前代模型相比，SAM 3不再只是一個只會「按圖索驥」的工具，而是逐步演變成一個能理解概念、識別類別、保持語義一致性的智能視覺系統(tǒng)。

它將圖像分割從「點選式」操作提升到「概念級」理解，為下一代智能視覺和多模態(tài)系統(tǒng)奠定了基礎(chǔ)。

也許，視覺AI的「GPT-3時刻」真的已經(jīng)不遠(yuǎn)了。

參考資料：

https://openreview.net/forum?id=r35clVtGzw%20

https://openreview.net/pdf?id=r35clVtGzw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.