該論文的第一作者和通訊作者均來自北京大學(xué)王選計算機研究所,第一作者為博士生徐鑄,通訊作者為博士生導(dǎo)師劉洋。團隊近年來在 TPAMI、IJCV、CVPR、ICML 等頂會上有多項代表性成果發(fā)表,多次榮獲國內(nèi)外多模態(tài)理解預(yù)生成競賽冠軍,和國內(nèi)外知名高校、科研機構(gòu)廣泛開展合作。
本文主要介紹來自該團隊的最新論文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。該任務(wù)針對弱監(jiān)督動態(tài)場景圖任務(wù)展開研究,發(fā)現(xiàn)目前的性能瓶頸在場景中目標檢測的質(zhì)量,因為外部預(yù)訓(xùn)練的目標檢測器在需要考慮關(guān)系信息和時序上下文的場景圖視頻數(shù)據(jù)上檢測結(jié)果欠佳。
本文針對該問題提出了一種時序增強關(guān)系敏感知識遷移的方法,通過獲取關(guān)系和時序信息感知的注意力圖來優(yōu)化外部目標檢測器的檢測結(jié)果,從而提升在場景圖數(shù)據(jù)上目標檢測質(zhì)量,進而提升最終的生成場景圖效果。
目前該研究已被 ICCV 2025 正式接收,相關(guān)代碼與模型已全部開源。
- 論文標題:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
- 論文鏈接:https://arxiv.org/abs/2508.04943
- 代碼鏈接:https://github.com/XZPKU/TRKT.git
- 項目主頁:https://sites.google.com/view/trkt-official
動態(tài)場景圖生成任務(wù)旨在通過檢測物體并預(yù)測它們之間的關(guān)系,為視頻的每一幀生成對應(yīng)場景圖。 弱監(jiān)督動態(tài)場景圖生成要求模型在訓(xùn)練階段只使用來自視頻單幀的無物體位置信息的場景圖標簽作為監(jiān)督進行訓(xùn)練,從而減少標注工作量?,F(xiàn)有的弱監(jiān)督動態(tài)場景圖生成方法依賴于預(yù)訓(xùn)練的外部目標檢測器生成物體標簽,進而構(gòu)造偽場景圖標簽用于后續(xù)場景圖生成模型的訓(xùn)練。
然而,在動態(tài)、關(guān)系感知的動態(tài)場景圖生成場景中,訓(xùn)練于靜態(tài)、以物體為中心圖像上的目標檢測器可能出現(xiàn)物體定位不準確以及對部分物體置信度過低,從而導(dǎo)致物體漏檢的問題。本文通過分析目標檢測結(jié)果和關(guān)系預(yù)測結(jié)果對最終場景圖質(zhì)量的影響(如下圖 1 所示),可以發(fā)現(xiàn)目標檢測質(zhì)量是目前弱監(jiān)督動態(tài)場景圖生成任務(wù)的主要瓶頸。
圖 1:使用不同目標檢測結(jié)果和關(guān)系預(yù)測結(jié)果的動態(tài)場景圖性能對比
針對上述問題,該論文提出了一種時序增強且關(guān)系敏感的知識遷移方法 TRKT,該方法能夠有效增強在關(guān)系感知的動態(tài)場景中的目標檢測性能。
具體來講,TRKT 首先通過物體和關(guān)系類別解碼器生成類別特定的注意力圖,以突出物體區(qū)域和交互區(qū)域,從而使注意力圖具備關(guān)系感知能力,同時利用鄰近幀和光流信息對注意力圖進行時序增強,使它們具備運動感知能力,并對運動模糊具有較強的魯棒性。進一步,TRKT 還設(shè)計了一個雙流融合模塊,綜合利用類別特定的注意力圖與外部檢測結(jié)果,提升物體定位精度和部分物體的置信度分數(shù)。實驗表明,TRKT 通過提升目標檢測性能為弱監(jiān)督動態(tài)場景圖生成的訓(xùn)練提供了更準確和更高質(zhì)量的偽標簽,進而提升最終動態(tài)場景圖的生成質(zhì)量。
一、方法介紹
圖 2:基于時序增強關(guān)系敏感知識遷移的弱監(jiān)督動態(tài)場景圖生成方法框架圖
本文方法如圖 2 所示,它主要由兩個設(shè)計組成:關(guān)系敏感的知識挖掘(Relation-aware Knowledge Mining)和雙流融合模塊(Dual-stream Fusion Module)。在關(guān)系敏感的知識挖掘中,我們利用圖像編碼器將每幀輸入圖像處理成若干塊,然后分別通過物體和關(guān)系類別解碼器對這些塊進行解碼,生成注意力圖,用于高亮物體及其交互關(guān)系的相關(guān)區(qū)域。編碼器和解碼器僅通過圖像的物體和關(guān)系類別標簽進行監(jiān)督。這些注意力圖包含物體語義和潛在的關(guān)系上下文,從而增強了模型在數(shù)據(jù)中識別和理解復(fù)雜關(guān)系的能力。進一步地,跨幀的光流被用來提供時序信息以進一步增強注意力圖。通過這些方法,我們獲得既具備關(guān)系感知又具備運動感知的注意力圖,包含時序增強和關(guān)系敏感的知識。在雙流融合模塊中,我們設(shè)計了并行的定位優(yōu)化模塊(Localization Refinement Module,LRM)和置信度提升模塊(Confidence Boosting Module,CBM)用于最大化注意力圖在增強外部檢測結(jié)果中的效果。LRM 通過利用注意力圖來定位物體區(qū)域,從而提供外部檢測的邊界框坐標的準確度;CBM 則增強由類別解碼器識別的物體類別的置信度分數(shù)。關(guān)系敏感的知識挖掘和雙流融合模塊有效地減輕了外部檢測結(jié)果中存在的偏差,最終產(chǎn)生了更可靠的物體檢測結(jié)果。最后我們使用和基線模型相同的方法,將檢測結(jié)果組織為場景圖偽標簽,以全監(jiān)督的方式訓(xùn)練動態(tài)場景圖檢測模型。
關(guān)系敏感的知識挖掘
雙流融合模塊
雙流融合模塊(DFM)用于結(jié)合時序感知且關(guān)系敏感的知識,來提升外部檢測器的結(jié)果質(zhì)量。DFM 包含了定位修正模塊和置信度提升模塊。
圖 3:定位修正模塊示意圖
圖 4:置信度提升模塊示意圖
二、實驗結(jié)果
①對比方法
我們對比了兩大類方法,第一類是已有最優(yōu)的弱監(jiān)督動態(tài)場景圖生成方法,包括 PLA [1] 和 NL-VSGG;第二類是擅長關(guān)系理解的視覺語言模型,包括 RLIP 和 RLIPv2 [4]。
②評價指標
評價指標分為兩部分,第一部分是測評方法在 DSGG 數(shù)據(jù)中的目標檢測性能,指標為 Average Precision (AP) 和 Average Recall (AR);第二部分是測評方法在動態(tài)場景圖生成任務(wù)上的性能,我們通過場景圖檢測(SGDET)任務(wù)進行評估。SGDET 旨在檢測物體對并預(yù)測它們之間的關(guān)系,并以 Recall@K 為指標進行評估。
③與現(xiàn)有方法的對比及分析
表 1:與基線模型在 Action Genome [3] 數(shù)據(jù)集上目標檢測性能對比實驗結(jié)果
表 2:與對比方法在 Action Genome [3] 數(shù)據(jù)集上動態(tài)場景圖生成性能對比實驗結(jié)果
我們首先對比了目標檢測的性能,結(jié)果如表 1 所示。我們提出的方法在 Average Precision 和 Average Recall 上分別提高了 13.0%/1.3%,驗證了我們的方法能夠有效提升動態(tài)和需要關(guān)系理解場景下的目標檢測性能。
對于弱監(jiān)督動態(tài)場景圖生成任務(wù),性能對比如表 2 所示。和我們的基線模型 PLA 相比,結(jié)果顯示,我們在所有評估指標上都取得了性能提升(1.72%/2.42%),這表明,通過改進物體檢測結(jié)果,生成的偽場景圖標簽質(zhì)量得到了提高,從而在最終的 DSGG 性能上獲得了性能提升。此外,我們還與 NL-VSGG 進行了比較,NL-VSGG 使用視頻字幕來構(gòu)建偽場景圖進行模型訓(xùn)練,也使用外部物體檢測器進行物體檢測,但由于相同的物體檢測質(zhì)量問題,其 DSGG 性能低于我們的方法。我們還與 RLIP 和 RLIPv2 進行了比較,它們以零樣本方式進行場景圖預(yù)測,將每一幀視為靜態(tài)圖像。然而,它們的性能較差,進一步說明了時序和動態(tài)信息和時序增強且關(guān)系敏感的知識對于動態(tài)場景圖任務(wù)的必要性。
④消融實驗
表 3:不同模塊的消融實驗結(jié)果
為了驗證本文所提出的各個模塊的有效性,本文進行了消融實驗。CBM, LRM 和 IAA 分別代表置信度提升模塊,定位修正模塊以及幀間注意力增強策略,消融結(jié)果如表 3 所示。我們可以得出以下結(jié)論:(1)分別采用 CBM 和 LRM 作為知識遷移策略,分別帶來了 1.2% 和 2.0% 的平均精度提升,進而在 SGDET 任務(wù)上獲得了性能提升,這表明物體檢測質(zhì)量在邊界框置信度分數(shù)和定位精度方面得到了改善。(2)通過結(jié)合 CBM 和 LRM,物體檢測的 AP 平均提升了 2.8%,在有約束 / 無約束場景下,DSGG 任務(wù)的表現(xiàn)分別提升了 1.48%/1.94%。這表明,邊界框精度的提升和置信度分數(shù)的增強可以相互補充,生成質(zhì)量更高的物體檢測結(jié)果,從而帶來更大的性能提升。(3)融入 IAA 策略后,物體檢測性能進一步提升,AP 提升了 8.9%/10.6%,表明 IAA 有效緩解了模糊和遮擋問題,生成了更好的檢測結(jié)果,從而進一步提升了最終場景圖生成的表現(xiàn)。
⑤可視化結(jié)果
圖 5:動態(tài)場景圖生成結(jié)果可視化
如圖 5 所示,我們給出了和基線模型 PLA [1] 生成動態(tài)場景圖效果的對比,得益于我們引入的時序增強關(guān)系敏感的知識和我們設(shè)計的雙流融合模塊,我們的方法能夠得到更完整的場景圖,并且其中人和物體的定位更加準確,從而使得得到的場景圖質(zhì)量更高。
更多研究細節(jié),可參考原論文。
參考文獻
[1] Siqi Chen, Jun Xiao, and Long Chen. Video scene graph generation from single-frame weak supervision. In The Eleventh International Conference on Learning Representations,2023.
[2] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow, 2020.
[3] Jingwei Ji, Ranjay Krishna, Li Fei-Fei, and Juan Carlos Niebles. Action genome: Actions as compositions of spatio temporal scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10236–10247, 2020.
[4] Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, and Deli Zhao. Rlipv2: Fast scaling of relational language-image pre-training, 2023.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.