始智AI wisemodel.cn開(kāi)源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel社區(qū)上線,H800/H20等資源上線,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
視頻數(shù)據(jù)和算法的進(jìn)步推動(dòng)了多目標(biāo)跟蹤(MOT)領(lǐng)域的發(fā)展?,F(xiàn)有的MOT數(shù)據(jù)集主要關(guān)注遮擋和外觀相似性問(wèn)題,而復(fù)雜的運(yùn)動(dòng)模式雖廣泛存在,卻常被忽視。
為了解決這一問(wèn)題,一個(gè)新的數(shù)據(jù)集BEE24突出展示了復(fù)雜的運(yùn)動(dòng)場(chǎng)景,要求跟蹤多個(gè)外觀相似且運(yùn)動(dòng)復(fù)雜的小蜜蜂,并且這些物體的運(yùn)動(dòng)持續(xù)時(shí)間較長(zhǎng) ,這十分貼近實(shí)際需求(如蜜蜂養(yǎng)殖和無(wú)人機(jī)群體監(jiān)控)。
身份關(guān)聯(lián)算法一直是MOT研究的核心。現(xiàn)有的跟蹤算法大致可以分為兩類(lèi):?jiǎn)翁卣鞣妒剑ɑ谶\(yùn)動(dòng)或外觀特征)和串行范式(通過(guò)將一種特征作為主特征,另一種作為輔特征)。
然而,這些傳統(tǒng)范式無(wú)法充分利用不同特征之間的互補(bǔ)性。本文提出一種全新的并行范式,并介紹了雙輪并行匹配方法TOPIC。TOPIC能結(jié)合運(yùn)動(dòng)和外觀特征,并根據(jù)運(yùn)動(dòng)復(fù)雜度自適應(yīng)選擇最合適的特征作為匹配度量。
此外,研究團(tuán)隊(duì)還設(shè)計(jì)了一個(gè)基于注意力機(jī)制的外觀重建模塊AARM,該模塊能夠重構(gòu)外觀特征嵌入,從而增強(qiáng)外觀特征的表示能力。
綜合實(shí)驗(yàn)結(jié)果表明,該方法在四個(gè)公開(kāi)數(shù)據(jù)集以及BEE24上均取得領(lǐng)先性能表現(xiàn)。值得注意的是,此并行范式大幅超越現(xiàn)有的關(guān)聯(lián)范式。例如,與單特征關(guān)聯(lián)范式相比,該方法能將錯(cuò)誤負(fù)例減少6%至81%。 目前TOPIC、BEE24均 已上線始智AI-wisemodel開(kāi)源社區(qū),歡迎使用。
代碼和數(shù)據(jù)集地址
https://wisemodel.cn/codes/holmescao/TOPICTrack
https://wisemodel.cn/datasets/holmescao/BEE24
01.
效果展示
圖1.1:TOPICTrack在BEE24數(shù)據(jù)集的跟蹤結(jié)果圖1.2:TOPICTrack在流行數(shù)據(jù)集上的跟蹤結(jié)果
02.
背景與動(dòng)機(jī)
多目標(biāo)跟蹤(MOT)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要子領(lǐng)域,廣泛應(yīng)用于機(jī)器人導(dǎo)航、智能監(jiān)控和人機(jī)交互等多個(gè)領(lǐng)域。在MOT任務(wù)中,研究者們需要從視頻幀中檢測(cè)出感興趣物體的位置,并將其身份跨幀關(guān)聯(lián)起來(lái)。隨著技術(shù)的不斷進(jìn)步,數(shù)據(jù)集的構(gòu)建與算法優(yōu)化成為推動(dòng)多目標(biāo)跟蹤系統(tǒng)性能提升的關(guān)鍵。
2.1 數(shù)據(jù)集的局限性與突破
在現(xiàn)有的MOT數(shù)據(jù)集中,研究者通常采用兩種主要的方式來(lái)應(yīng)對(duì)不同場(chǎng)景的挑戰(zhàn):一是通過(guò)擴(kuò)展場(chǎng)景多樣性或物體類(lèi)別,如GMOT-40數(shù)據(jù)集;二是關(guān)注特定挑戰(zhàn),如遮擋(如MOT17、MOT20數(shù)據(jù)集)或高相似度的外觀(如DanceTrack數(shù)據(jù)集)。
然而,這些數(shù)據(jù)集中的運(yùn)動(dòng)模式相對(duì)簡(jiǎn)單,多數(shù)物體的運(yùn)動(dòng)模式類(lèi)似,且缺乏足夠的變化性,這在實(shí)際應(yīng)用中可能無(wú)法有效應(yīng)對(duì)復(fù)雜的運(yùn)動(dòng)場(chǎng)景。例如,蜂群在蜂箱周?chē)\(yùn)動(dòng)時(shí),不僅會(huì)在飛行、爬行等多種模式之間頻繁切換,而且其運(yùn)動(dòng)速度呈現(xiàn)出明顯的非線性變化,如圖2。
為了應(yīng)對(duì)這種復(fù)雜運(yùn)動(dòng)的跟蹤問(wèn)題,我們提出了一個(gè)全新的數(shù)據(jù)集——BEE24,專(zhuān)注于展示復(fù)雜的運(yùn)動(dòng)模式。BEE24在兩個(gè)關(guān)鍵方面豐富了數(shù)據(jù)特性:一是不同物體在同一幀內(nèi)的運(yùn)動(dòng)差異,二是物體在幀間運(yùn)動(dòng)的顯著變化。
圖2:對(duì)比不同MOT數(shù)據(jù)集的特性2.2 算法的局限性與突破圖3:對(duì)比MOT算法的數(shù)據(jù)關(guān)聯(lián)范式
許多現(xiàn)有的跟蹤算法自2016年DeepSORT以來(lái),都遵循了串行關(guān)聯(lián)范式。該范式利用某一特征(如外觀特征或運(yùn)動(dòng)特征)初步篩選候選匹配,再利用另一特征進(jìn)行主匹配,如圖3b。
然而,這種方法未能充分利用不同特征的優(yōu)勢(shì),且篩選過(guò)程可能導(dǎo)致跟蹤的遺漏(即假陰性)。最近的研究如ByteTrack和OC-SORT采用了基于單一特征的關(guān)聯(lián)范式(如圖3a),單純依賴運(yùn)動(dòng)特征。
這種方法在某些數(shù)據(jù)集上的表現(xiàn)優(yōu)于基于兩個(gè)特征的串行范式,但由于檢測(cè)器的差異,這些比較未必公平。
根據(jù)對(duì)不同特征表現(xiàn)的分析,低速場(chǎng)景下,如MOT17和DanceTrack),運(yùn)動(dòng)較簡(jiǎn)單,運(yùn)動(dòng)特征更有效;在高速場(chǎng)景(如BEE24和GMOT-40),復(fù)雜的非線性運(yùn)動(dòng)使得基于運(yùn)動(dòng)特征的模型面臨挑戰(zhàn),這時(shí)外觀特征的表現(xiàn)更佳。
考慮到上述不同特征在不同場(chǎng)景中的優(yōu)勢(shì),直觀的想法是將更多特征結(jié)合使用,從而提升性能。為此,我們提出了一個(gè)新的并行關(guān)聯(lián)范式,并設(shè)計(jì)了TOPIC(Two rOund Parallel matchIng meChanism)方法來(lái)實(shí)現(xiàn)這一范式。
TOPIC能夠同時(shí)使用運(yùn)動(dòng)和外觀特征作為匹配度量,并根據(jù)運(yùn)動(dòng)復(fù)雜度自適應(yīng)選擇最優(yōu)特征,從而減少假陰性(FN)的出現(xiàn)。與傳統(tǒng)的串行匹配范式相比,這種并行范式能夠更有效地利用不同特征之間的互補(bǔ)性。
此外,我們還提出了一個(gè)基于注意力機(jī)制的外觀重建模塊(AARM),用于增強(qiáng)物體的外觀特征表示,提高物體在多幀間的區(qū)分度。
03.
BEE24數(shù)據(jù)集簡(jiǎn)介
表1:對(duì)比MOT數(shù)據(jù)集統(tǒng)計(jì)特性
如表1所示,與現(xiàn)有的MOT數(shù)據(jù)集相比,BEE24在多個(gè)方面具有顯著的優(yōu)勢(shì)和挑戰(zhàn):
復(fù)雜的運(yùn)動(dòng)模式:BEE24數(shù)據(jù)集的運(yùn)動(dòng)模式更加復(fù)雜,物體在同一幀內(nèi)的運(yùn)動(dòng)差異較大(MMSAO),且單個(gè)物體的運(yùn)動(dòng)隨時(shí)間變化大(MMSO)。這與許多現(xiàn)有數(shù)據(jù)集中的線性或低速運(yùn)動(dòng)形成鮮明對(duì)比,如圖2和4。
小物體跟蹤:BEE24中的蜜蜂是最小的目標(biāo)之一,平均物體面積遠(yuǎn)小于GMOT-40等數(shù)據(jù)集中的物體,這增加了跟蹤算法在小物體檢測(cè)和跟蹤方面的挑戰(zhàn)。
大規(guī)模標(biāo)注:數(shù)據(jù)集包含總計(jì)446,908個(gè)標(biāo)注,最大視頻時(shí)長(zhǎng)達(dá)到200秒,單視頻的標(biāo)注數(shù)量和最大時(shí)長(zhǎng)均超過(guò)了大部分現(xiàn)有數(shù)據(jù)集,尤其是在高密度場(chǎng)景下的跟蹤任務(wù)中,BEE24為算法提供了更多挑戰(zhàn)。
圖4:對(duì)比不同MOT數(shù)據(jù)集的運(yùn)動(dòng)復(fù)雜性
04.
算法簡(jiǎn)介
4.1 并行匹配范式:TOPIC方法
TOPIC的核心思想是同時(shí)利用運(yùn)動(dòng)特征和外觀特征進(jìn)行匹配,并通過(guò)兩輪匹配機(jī)制解決可能的匹配沖突。在第一輪匹配中,通過(guò)匈牙利算法分別計(jì)算基于外觀和基于運(yùn)動(dòng)的匹配結(jié)果。
然后,對(duì)于沖突的匹配,TOPIC根據(jù)運(yùn)動(dòng)水平自適應(yīng)地選擇更可靠的特征進(jìn)行最終匹配。這一機(jī)制有效減少了假陰性(FN),提高了整體的跟蹤準(zhǔn)確性。如算法1的偽代碼所示。
算法1:TOPIC方法的偽代碼4.2 基于注意力的外觀重建模塊:AARM
AARM采用基于余弦距離的注意力機(jī)制,通過(guò)計(jì)算歷史軌跡和當(dāng)前檢測(cè)的相似性來(lái)增強(qiáng)外觀特征的表示。通過(guò)這種方式,AARM能夠改善同一物體在不同幀間的相似度,同時(shí)增強(qiáng)不同物體之間的區(qū)分度。
AARM的工作原理是,首先為每個(gè)目標(biāo)計(jì)算出跨幀的注意力圖,然后通過(guò)殘差機(jī)制對(duì)外觀特征進(jìn)行重建,從而提升相同物體的相似性,并減少不同物體之間的混淆,如圖5所示。此外,該模塊無(wú)需訓(xùn)練且即插即用。
圖5:AARM的原理圖
05.
主要實(shí)驗(yàn)結(jié)果
為了驗(yàn)證提出方法有效性和優(yōu)越性,我們?cè)贛OT17、MOT20、DanceTrack、GMOT-40和BEE24共5個(gè)數(shù)據(jù)集和多個(gè)主流跟蹤算法(如FairMOT、ByteTrack等)上進(jìn)行了詳盡的實(shí)驗(yàn),主要的實(shí)驗(yàn)結(jié)果如下。
5.1 TOPIC的有效性
與其他關(guān)聯(lián)范式相比,我們提出的TOPIC在5個(gè)數(shù)據(jù)集中的大多數(shù)關(guān)鍵指標(biāo)上實(shí)現(xiàn)了1%以上的精度提升,如表2。通過(guò)可視化TOPIC的匹配機(jī)制(見(jiàn)圖6),我們展示了其如何在不同的運(yùn)動(dòng)水平下,自適應(yīng)地切換外觀和運(yùn)動(dòng)特征,顯著提升了復(fù)雜場(chǎng)景中的跟蹤效果。
表2:TOPIC和AARM的有效性驗(yàn)證實(shí)驗(yàn)圖6:TOPIC的匹配過(guò)程可視化5.2 AARM的有效性
在對(duì)比實(shí)驗(yàn)中,我們發(fā)現(xiàn)AARM在不同跟蹤器中均能夠一致地顯著提高跟蹤性能,并能即插即用(見(jiàn)表2)。我們進(jìn)一步揭示了AARM的在目標(biāo)外觀表征的能力,它在所有5個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了最小的類(lèi)間相似度(InterCS)和最高的類(lèi)內(nèi)相似度(IntraCS),降低了數(shù)據(jù)關(guān)聯(lián)的難度,如圖7。
圖7:對(duì)比不同跟蹤器的外觀表征能力5.3 速度與精度的平衡
如圖8所示,盡管引入Re-ID模塊會(huì)略微增加計(jì)算時(shí)間,但其對(duì)跟蹤精度的提升是顯著的。特別是在運(yùn)動(dòng)復(fù)雜的場(chǎng)景中,TOPICTrack能夠以更高的精度和較低的計(jì)算開(kāi)銷(xiāo)達(dá)到最佳的跟蹤效果。
圖8:Re-ID模塊對(duì)計(jì)算時(shí)間和精度的影響5.4 基準(zhǔn)測(cè)試
通過(guò)在5個(gè)數(shù)據(jù)集上的對(duì)比,TOPICTrack在多個(gè)關(guān)鍵指標(biāo)上超越了主流算法,達(dá)到了新SOTA(見(jiàn)表3-7)。通過(guò)分析不同數(shù)據(jù)集的目標(biāo)特性,我們發(fā)現(xiàn)TOPICTrack在處理復(fù)雜運(yùn)動(dòng)、遮擋以及外觀相似度高的目標(biāo)時(shí),表現(xiàn)尤為突出。
表3:與主流跟蹤算法在MOT17測(cè)試集的性能對(duì)比表4:與主流跟蹤算法在MOT20測(cè)試集的性能對(duì)比
表5:與主流跟蹤算法在DanceTrack測(cè)試集的性能對(duì)比
表6:與主流跟蹤算法在GMOT-40測(cè)試集的性能對(duì)比
表7:與主流跟蹤算法在BEE24測(cè)試集的性能對(duì)比
06.
總結(jié)與展望
在數(shù)據(jù)集特性擴(kuò)展方面,本文提出一種新的MOT數(shù)據(jù)集BEE24,該數(shù)據(jù)集挑戰(zhàn)模型跟蹤多個(gè)相似外觀的小物體,且物體運(yùn)動(dòng)復(fù)雜、持續(xù)時(shí)間長(zhǎng)。
BEE24有助于推動(dòng)MOT技術(shù)在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用與發(fā)展。在算法優(yōu)化方面,我們提出了一種新的并行關(guān)聯(lián)范式——TOPIC,能夠根據(jù)物體的運(yùn)動(dòng)水平自適應(yīng)選擇外觀或運(yùn)動(dòng)特征進(jìn)行關(guān)聯(lián)。
同時(shí),研究團(tuán)隊(duì)提出AARM,增強(qiáng)了跟蹤器對(duì)物體外觀的表示能力,并且能夠即插即用。大量實(shí)驗(yàn)驗(yàn)證了我們提出的跟蹤器在五個(gè)數(shù)據(jù)集上的有效性和優(yōu)越性。
本文未對(duì)目標(biāo)檢測(cè)模型(采用YOLOX)和運(yùn)動(dòng)模型(采用OC-SORT)進(jìn)行改進(jìn)。因此,未來(lái)可以考慮進(jìn)一步優(yōu)化檢測(cè)模型和運(yùn)動(dòng)模型,以提升跟蹤性能。
作者:北京大學(xué)博士生曹小?為該論文的第一作者,廈門(mén)大學(xué)郭詩(shī)輝教授為通訊作者。泉州信息工程學(xué)院講師鄭義姚、清華大學(xué)姚瑤博士為論文共同一作。
----- END -----
wisemodel相關(guān):
系統(tǒng)升級(jí):
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開(kāi)源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專(zhuān)委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門(mén)、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.