arXiv reaDer
構成的時間グラウンディングのための変分クロスグラフ推論と適応構造意味論学習
Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding
時間的グラウンディングは、クエリ文に従って、トリミングされていないビデオから特定のセグメントを見つけるタスクです。このタスクは、自然言語記述のセマンティックの多様性を利用することで、事前定義されたアクティビティ クラスを超えたアクティビティ グラウンディングを可能にするため、コンピューター ビジョン コミュニティで大きな勢いを獲得しています。意味の多様性は、言語学における構成性の原理に根ざしており、既知の単語を新しい方法で組み合わせることにより、新しい意味論を体系的に記述することができます (構成的一般化)。ただし、既存の時間的接地データセットは、構成の一般化可能性を評価するように慎重に設計されていません。時間的グラウンディング モデルの構成的一般化可能性を体系的にベンチマークするために、新しい構成的時間的グラウンディング タスクを導入し、2 つの新しいデータセット分割、つまり Charades-CG と ActivityNet-CG を構築します。新しいデータセットの分割で最先端の方法を評価すると、経験的に、見られた単語の新しい組み合わせを使用したクエリに一般化できないことがわかりました。ビデオと言語内の固有の構造化されたセマンティクスは、構成の一般化を達成するための重要な要素であると主張します。この洞察に基づいて、ビデオと言語をそれぞれ階層的なセマンティック グラフに明示的に分解し、2 つのグラフ間のきめの細かいセマンティック対応を学習する変分クロスグラフ推論フレームワークを提案します。さらに、2 つのグラフ間のきめの細かいセマンティック対応の推論を容易にする、構造情報とドメイン一般化可能なグラフ表現を導出するための新しい適応構造セマンティクス学習アプローチを紹介します。広範な実験により、私たちのアプローチの優れた構成的一般化可能性が検証されます。
Temporal grounding is the task of locating a specific segment from an untrimmed video according to a query sentence. This task has achieved significant momentum in the computer vision community as it enables activity grounding beyond pre-defined activity classes by utilizing the semantic diversity of natural language descriptions. The semantic diversity is rooted in the principle of compositionality in linguistics, where novel semantics can be systematically described by combining known words in novel ways (compositional generalization). However, existing temporal grounding datasets are not carefully designed to evaluate the compositional generalizability. To systematically benchmark the compositional generalizability of temporal grounding models, we introduce a new Compositional Temporal Grounding task and construct two new dataset splits, i.e., Charades-CG and ActivityNet-CG. When evaluating the state-of-the-art methods on our new dataset splits, we empirically find that they fail to generalize to queries with novel combinations of seen words. We argue that the inherent structured semantics inside the videos and language is the crucial factor to achieve compositional generalization. Based on this insight, we propose a variational cross-graph reasoning framework that explicitly decomposes video and language into hierarchical semantic graphs, respectively, and learns fine-grained semantic correspondence between the two graphs. Furthermore, we introduce a novel adaptive structured semantics learning approach to derive the structure-informed and domain-generalizable graph representations, which facilitate the fine-grained semantic correspondence reasoning between the two graphs. Extensive experiments validate the superior compositional generalizability of our approach.
updated: Sun Jan 22 2023 08:02:23 GMT+0000 (UTC)
published: Sun Jan 22 2023 08:02:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト