ビデオで言語クエリを接地することは、言語クエリに意味的に関連する時間間隔(または瞬間)を特定することを目的としています。この困難なタスクの解決策には、ビデオとクエリのセマンティックコンテンツの理解と、それらのマルチモーダルインタラクションに関するきめ細かい推論が必要です。私たちの重要なアイデアは、この課題をアルゴリズムによるグラフマッチングの問題に作り直すことです。グラフニューラルネットワークの最近の進歩に後押しされて、グラフ畳み込みネットワークを活用して、ビデオとテキストの情報、およびそれらのセマンティックアラインメントをモデル化することを提案します。ドメイン間での情報の相互交換を可能にするために、ビデオとクエリのグラフを照合するための新しいビデオ言語グラフ照合ネットワーク(VLG-Net)を設計します。主要な要素には、ビデオスニペットとクエリトークンの上に個別に構築された表現グラフが含まれます。これらは、モダリティ内の関係をモデル化するために使用されます。クロスモーダルコンテキストモデリングとマルチモーダルフュージョンには、グラフマッチングレイヤーが採用されています。最後に、モーメント候補は、モーメントの強化されたスニペット機能を融合することにより、マスクされたモーメント注意プーリングを使用して作成されます。自然言語クエリを使用したビデオの瞬間の時間的ローカリゼーションに広く使用されている3つのデータセット、ActivityNet-Captions、TACoS、およびDiDeMoで、最先端の接地方法よりも優れたパフォーマンスを示します。
Grounding language queries in videos aims at identifying the time interval (or moment) semantically relevant to a language query. The solution to this challenging task demands the understanding of videos' and queries' semantic content and the fine-grained reasoning about their multi-modal interactions. Our key idea is to recast this challenge into an algorithmic graph matching problem. Fueled by recent advances in Graph Neural Networks, we propose to leverage Graph Convolutional Networks to model video and textual information as well as their semantic alignment. To enable the mutual exchange of information across the domains, we design a novel Video-Language Graph Matching Network (VLG-Net) to match video and query graphs. Core ingredients include representation graphs, built on top of video snippets and query tokens separately, which are used for modeling the intra-modality relationships. A Graph Matching layer is adopted for cross-modal context modeling and multi-modal fusion. Finally, moment candidates are created using masked moment attention pooling by fusing the moment's enriched snippet features. We demonstrate superior performance over state-of-the-art grounding methods on three widely used datasets for temporal localization of moments in videos with natural language queries: ActivityNet-Captions, TACoS, and DiDeMo.