LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval
 弱く監視されたビデオモーメントの取得の目的は、トレーニング中に一時的なアノテーションにアクセスせずに、指定された自然言語クエリに最も関連するビデオセグメントをローカライズすることです。以前の強く監督されたアプローチと弱く監督されたアプローチは、ローカリゼーションの視覚的意味表現を学習するために、共同注意メカニズムを利用することがよくあります。ただし、このようなアプローチはビデオの要素と言語モダリティ間の関係の特定に重点を置く傾向がありますが、クエリのセマンティックコンテキストが与えられた場合、ビデオフレーム間の関係コンテキストのモデリングにはあまり重点が置かれません。したがって、ローカルフレーム機能に基づいて構築された上記の視覚的意味の表現には、多くのコンテキスト情報が含まれていません。この制限に対処するために、クエリのセマンティックコンテキストが与えられた場合に、フレームの可能なすべてのペア間の対応について推論するために、きめの細かいフレーム単位の相互作用を活用する潜在グラフ共同注意ネットワーク(LoGAN)を提案します。 2つのデータセットDiDeMoとCharades-Staにわたる包括的な実験は、提案された潜在的共注意モデルの有効性を示しています。このモデルは、現在の最先端技術(SOTA)の弱監視アプローチよりも大幅に優れています。特に、DiDeMoで強力に監視されているSOTAメソッドよりもRecall @ 1の精度が11%向上します。
The goal of weakly-supervised video moment retrieval is to localize the video segment most relevant to the given natural language query without access to temporal annotations during training. Prior strongly- and weakly-supervised approaches often leverage co-attention mechanisms to learn visual-semantic representations for localization. However, while such approaches tend to focus on identifying relationships between elements of the video and language modalities, there is less emphasis on modeling relational context between video frames given the semantic context of the query. Consequently, the above-mentioned visual-semantic representations, built upon local frame features, do not contain much contextual information. To address this limitation, we propose a Latent Graph Co-Attention Network (LoGAN) that exploits fine-grained frame-by-word interactions to reason about correspondences between all possible pairs of frames, given the semantic context of the query. Comprehensive experiments across two datasets, DiDeMo and Charades-Sta, demonstrate the effectiveness of our proposed latent co-attention model where it outperforms current state-of-the-art (SOTA) weakly-supervised approaches by a significant margin. Notably, it even achieves a 11% improvement to Recall@1 accuracy over strongly-supervised SOTA methods on DiDeMo.
updated: Sat Mar 28 2020 18:11:37 GMT+0000 (UTC)
published: Fri Sep 27 2019 16:26:30 GMT+0000 (UTC)
