arXiv reaDer
三重相関によるガイド付きラベル補完による偏りのないビデオ シーン グラフ生成
Triple Correlations-Guided Label Supplementation for Unbiased Video Scene Graph Generation
ビデオベースのシーン グラフ生成 (VidSGG) は、視覚的なエンティティとその関係を識別することによって、動的なグラフでビデオ コンテンツを表現することを目的としたアプローチです。本質的に偏った分布とトレーニング データ内の注釈の欠落により、現在の VidSGG メソッドは、あまり表現されていない述語ではパフォーマンスが低いことがわかっています。この論文では、グラウンドトゥルースのアノテーションに表示されるべき欠落している述語を補うことによって、この未解明の問題に対処する明示的な解決策を提案します。トリコと呼ばれる私たちの方法は、3 つの相補的な時空間相関を探索することによって、欠落している述語を補おうとします。これらの相関関係に基づいて、欠落しているラベルを効果的に補うことができ、偏りのない述語予測が実現されます。最も広く使用されている VidSGG データセット、つまり VidVRD と VidOR に対する Trico の有効性を検証します。広範な実験により、特に末尾述語において Trico によって達成される最先端のパフォーマンスが実証されました。
Video-based scene graph generation (VidSGG) is an approach that aims to represent video content in a dynamic graph by identifying visual entities and their relationships. Due to the inherently biased distribution and missing annotations in the training data, current VidSGG methods have been found to perform poorly on less-represented predicates. In this paper, we propose an explicit solution to address this under-explored issue by supplementing missing predicates that should be appear in the ground-truth annotations. Dubbed Trico, our method seeks to supplement the missing predicates by exploring three complementary spatio-temporal correlations. Guided by these correlations, the missing labels can be effectively supplemented thus achieving an unbiased predicate predictions. We validate the effectiveness of Trico on the most widely used VidSGG datasets, i.e., VidVRD and VidOR. Extensive experiments demonstrate the state-of-the-art performance achieved by Trico, particularly on those tail predicates.
updated: Sun Jul 30 2023 19:59:17 GMT+0000 (UTC)
published: Sun Jul 30 2023 19:59:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト