ICCV 2025 | 基于時序增強關(guān)系敏感知識遷移弱監(jiān)督動態(tài)場景圖生成

2025-09-03 17:20:21　來源: 機器之心Pro

河北舉報

分享至

該論文的第一作者和通訊作者均來自北京大學(xué)王選計算機研究所，第一作者為博士生徐鑄，通訊作者為博士生導(dǎo)師劉洋。團隊近年來在 TPAMI、IJCV、CVPR、ICML 等頂會上有多項代表性成果發(fā)表，多次榮獲國內(nèi)外多模態(tài)理解預(yù)生成競賽冠軍，和國內(nèi)外知名高校、科研機構(gòu)廣泛開展合作。

本文主要介紹來自該團隊的最新論文：TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。該任務(wù)針對弱監(jiān)督動態(tài)場景圖任務(wù)展開研究，發(fā)現(xiàn)目前的性能瓶頸在場景中目標檢測的質(zhì)量，因為外部預(yù)訓(xùn)練的目標檢測器在需要考慮關(guān)系信息和時序上下文的場景圖視頻數(shù)據(jù)上檢測結(jié)果欠佳。

本文針對該問題提出了一種時序增強關(guān)系敏感知識遷移的方法，通過獲取關(guān)系和時序信息感知的注意力圖來優(yōu)化外部目標檢測器的檢測結(jié)果，從而提升在場景圖數(shù)據(jù)上目標檢測質(zhì)量，進而提升最終的生成場景圖效果。

目前該研究已被 ICCV 2025 正式接收，相關(guān)代碼與模型已全部開源。

論文標題：TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
論文鏈接：https://arxiv.org/abs/2508.04943
代碼鏈接：https://github.com/XZPKU/TRKT.git
項目主頁：https://sites.google.com/view/trkt-official

動態(tài)場景圖生成任務(wù)旨在通過檢測物體并預(yù)測它們之間的關(guān)系，為視頻的每一幀生成對應(yīng)場景圖。弱監(jiān)督動態(tài)場景圖生成要求模型在訓(xùn)練階段只使用來自視頻單幀的無物體位置信息的場景圖標簽作為監(jiān)督進行訓(xùn)練，從而減少標注工作量?，F(xiàn)有的弱監(jiān)督動態(tài)場景圖生成方法依賴于預(yù)訓(xùn)練的外部目標檢測器生成物體標簽，進而構(gòu)造偽場景圖標簽用于后續(xù)場景圖生成模型的訓(xùn)練。

然而，在動態(tài)、關(guān)系感知的動態(tài)場景圖生成場景中，訓(xùn)練于靜態(tài)、以物體為中心圖像上的目標檢測器可能出現(xiàn)物體定位不準確以及對部分物體置信度過低，從而導(dǎo)致物體漏檢的問題。本文通過分析目標檢測結(jié)果和關(guān)系預(yù)測結(jié)果對最終場景圖質(zhì)量的影響（如下圖 1 所示），可以發(fā)現(xiàn)目標檢測質(zhì)量是目前弱監(jiān)督動態(tài)場景圖生成任務(wù)的主要瓶頸。

圖 1：使用不同目標檢測結(jié)果和關(guān)系預(yù)測結(jié)果的動態(tài)場景圖性能對比

針對上述問題，該論文提出了一種時序增強且關(guān)系敏感的知識遷移方法 TRKT，該方法能夠有效增強在關(guān)系感知的動態(tài)場景中的目標檢測性能。

具體來講，TRKT 首先通過物體和關(guān)系類別解碼器生成類別特定的注意力圖，以突出物體區(qū)域和交互區(qū)域，從而使注意力圖具備關(guān)系感知能力，同時利用鄰近幀和光流信息對注意力圖進行時序增強，使它們具備運動感知能力，并對運動模糊具有較強的魯棒性。進一步，TRKT 還設(shè)計了一個雙流融合模塊，綜合利用類別特定的注意力圖與外部檢測結(jié)果，提升物體定位精度和部分物體的置信度分數(shù)。實驗表明，TRKT 通過提升目標檢測性能為弱監(jiān)督動態(tài)場景圖生成的訓(xùn)練提供了更準確和更高質(zhì)量的偽標簽，進而提升最終動態(tài)場景圖的生成質(zhì)量。

一、方法介紹

圖 2：基于時序增強關(guān)系敏感知識遷移的弱監(jiān)督動態(tài)場景圖生成方法框架圖

本文方法如圖 2 所示，它主要由兩個設(shè)計組成：關(guān)系敏感的知識挖掘（Relation-aware Knowledge Mining）和雙流融合模塊（Dual-stream Fusion Module）。在關(guān)系敏感的知識挖掘中，我們利用圖像編碼器將每幀輸入圖像處理成若干塊，然后分別通過物體和關(guān)系類別解碼器對這些塊進行解碼，生成注意力圖，用于高亮物體及其交互關(guān)系的相關(guān)區(qū)域。編碼器和解碼器僅通過圖像的物體和關(guān)系類別標簽進行監(jiān)督。這些注意力圖包含物體語義和潛在的關(guān)系上下文，從而增強了模型在數(shù)據(jù)中識別和理解復(fù)雜關(guān)系的能力。進一步地，跨幀的光流被用來提供時序信息以進一步增強注意力圖。通過這些方法，我們獲得既具備關(guān)系感知又具備運動感知的注意力圖，包含時序增強和關(guān)系敏感的知識。在雙流融合模塊中，我們設(shè)計了并行的定位優(yōu)化模塊（Localization Refinement Module，LRM）和置信度提升模塊（Confidence Boosting Module，CBM）用于最大化注意力圖在增強外部檢測結(jié)果中的效果。LRM 通過利用注意力圖來定位物體區(qū)域，從而提供外部檢測的邊界框坐標的準確度；CBM 則增強由類別解碼器識別的物體類別的置信度分數(shù)。關(guān)系敏感的知識挖掘和雙流融合模塊有效地減輕了外部檢測結(jié)果中存在的偏差，最終產(chǎn)生了更可靠的物體檢測結(jié)果。最后我們使用和基線模型相同的方法，將檢測結(jié)果組織為場景圖偽標簽，以全監(jiān)督的方式訓(xùn)練動態(tài)場景圖檢測模型。

關(guān)系敏感的知識挖掘

雙流融合模塊

雙流融合模塊（DFM）用于結(jié)合時序感知且關(guān)系敏感的知識，來提升外部檢測器的結(jié)果質(zhì)量。DFM 包含了定位修正模塊和置信度提升模塊。

圖 3：定位修正模塊示意圖

圖 4：置信度提升模塊示意圖

二、實驗結(jié)果

①對比方法

我們對比了兩大類方法，第一類是已有最優(yōu)的弱監(jiān)督動態(tài)場景圖生成方法，包括 PLA [1] 和 NL-VSGG；第二類是擅長關(guān)系理解的視覺語言模型，包括 RLIP 和 RLIPv2 [4]。

②評價指標

評價指標分為兩部分，第一部分是測評方法在 DSGG 數(shù)據(jù)中的目標檢測性能，指標為 Average Precision (AP) 和 Average Recall (AR)；第二部分是測評方法在動態(tài)場景圖生成任務(wù)上的性能，我們通過場景圖檢測（SGDET）任務(wù)進行評估。SGDET 旨在檢測物體對并預(yù)測它們之間的關(guān)系，并以 Recall@K 為指標進行評估。

③與現(xiàn)有方法的對比及分析

表 1：與基線模型在 Action Genome [3] 數(shù)據(jù)集上目標檢測性能對比實驗結(jié)果

表 2：與對比方法在 Action Genome [3] 數(shù)據(jù)集上動態(tài)場景圖生成性能對比實驗結(jié)果

我們首先對比了目標檢測的性能，結(jié)果如表 1 所示。我們提出的方法在 Average Precision 和 Average Recall 上分別提高了 13.0%/1.3%，驗證了我們的方法能夠有效提升動態(tài)和需要關(guān)系理解場景下的目標檢測性能。

對于弱監(jiān)督動態(tài)場景圖生成任務(wù)，性能對比如表 2 所示。和我們的基線模型 PLA 相比，結(jié)果顯示，我們在所有評估指標上都取得了性能提升（1.72%/2.42%），這表明，通過改進物體檢測結(jié)果，生成的偽場景圖標簽質(zhì)量得到了提高，從而在最終的 DSGG 性能上獲得了性能提升。此外，我們還與 NL-VSGG 進行了比較，NL-VSGG 使用視頻字幕來構(gòu)建偽場景圖進行模型訓(xùn)練，也使用外部物體檢測器進行物體檢測，但由于相同的物體檢測質(zhì)量問題，其 DSGG 性能低于我們的方法。我們還與 RLIP 和 RLIPv2 進行了比較，它們以零樣本方式進行場景圖預(yù)測，將每一幀視為靜態(tài)圖像。然而，它們的性能較差，進一步說明了時序和動態(tài)信息和時序增強且關(guān)系敏感的知識對于動態(tài)場景圖任務(wù)的必要性。

④消融實驗

表 3：不同模塊的消融實驗結(jié)果

為了驗證本文所提出的各個模塊的有效性，本文進行了消融實驗。CBM, LRM 和 IAA 分別代表置信度提升模塊，定位修正模塊以及幀間注意力增強策略，消融結(jié)果如表 3 所示。我們可以得出以下結(jié)論：（1）分別采用 CBM 和 LRM 作為知識遷移策略，分別帶來了 1.2% 和 2.0% 的平均精度提升，進而在 SGDET 任務(wù)上獲得了性能提升，這表明物體檢測質(zhì)量在邊界框置信度分數(shù)和定位精度方面得到了改善。（2）通過結(jié)合 CBM 和 LRM，物體檢測的 AP 平均提升了 2.8%，在有約束 / 無約束場景下，DSGG 任務(wù)的表現(xiàn)分別提升了 1.48%/1.94%。這表明，邊界框精度的提升和置信度分數(shù)的增強可以相互補充，生成質(zhì)量更高的物體檢測結(jié)果，從而帶來更大的性能提升。（3）融入 IAA 策略后，物體檢測性能進一步提升，AP 提升了 8.9%/10.6%，表明 IAA 有效緩解了模糊和遮擋問題，生成了更好的檢測結(jié)果，從而進一步提升了最終場景圖生成的表現(xiàn)。

⑤可視化結(jié)果

圖 5：動態(tài)場景圖生成結(jié)果可視化

如圖 5 所示，我們給出了和基線模型 PLA [1] 生成動態(tài)場景圖效果的對比，得益于我們引入的時序增強關(guān)系敏感的知識和我們設(shè)計的雙流融合模塊，我們的方法能夠得到更完整的場景圖，并且其中人和物體的定位更加準確，從而使得得到的場景圖質(zhì)量更高。

更多研究細節(jié)，可參考原論文。

參考文獻

[1] Siqi Chen, Jun Xiao, and Long Chen. Video scene graph generation from single-frame weak supervision. In The Eleventh International Conference on Learning Representations,2023.

[2] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow, 2020.

[3] Jingwei Ji, Ranjay Krishna, Li Fei-Fei, and Juan Carlos Niebles. Action genome: Actions as compositions of spatio temporal scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10236–10247, 2020.

[4] Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, and Deli Zhao. Rlipv2: Fast scaling of relational language-image pre-training, 2023.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.