Weakly Supervised Video Moment Retrieval From Text Queries
  自然言語クエリを使用したテキストからビデオへのモーメント検索では、トレーニング中に完全な監督を必要とするいくつかの最近の方法が提案されています。ただし、テキスト記述ごとに時間境界アノテーションを使用して多数のトレーニングビデオを取得するのは非常に時間がかかり、スケーラブルではないことがよくあります。この問題に対処するために、この作業では、テキストのタスクからビデオモーメントの検索まで、弱いラベルから学習する問題を紹介します。監督の弱点は、トレーニング中に、さまざまなテキスト記述が関係するビデオの時間的範囲ではなく、ビデオとテキストのペアにしかアクセスできないためです。ビデオレベルの文記述のみを使用して、ビデオから関連するセグメントの概念を学習する視覚的意味的埋め込みベースのフレームワークを提案します。具体的には、私たちの主なアイデアは、テキストガイド付き注意(TGA)を使用して、ビデオフレームと文の説明の間の潜在的な配置を利用することです。次に、テスト段階でTGAを使用して、関連する瞬間を取得します。 2つのベンチマークデータセットの実験により、この方法が最先端の完全に監視されたアプローチに匹敵するパフォーマンスを達成することが実証されます。
There have been a few recent methods proposed in text to video moment retrieval using natural language queries, but requiring full supervision during training. However, acquiring a large number of training videos with temporal boundary annotations for each text description is extremely time-consuming and often not scalable. In order to cope with this issue, in this work, we introduce the problem of learning from weak labels for the task of text to video moment retrieval. The weak nature of the supervision is because, during training, we only have access to the video-text pairs rather than the temporal extent of the video to which different text descriptions relate. We propose a joint visual-semantic embedding based framework that learns the notion of relevant segments from video using only video-level sentence descriptions. Specifically, our main idea is to utilize latent alignment between video frames and sentence descriptions using Text-Guided Attention (TGA). TGA is then used during the test phase to retrieve relevant moments. Experiments on two benchmark datasets demonstrate that our method achieves comparable performance to state-of-the-art fully supervised approaches.
updated: Wed Sep 04 2019 23:03:18 GMT+0000 (UTC)
published: Fri Apr 05 2019 21:11:25 GMT+0000 (UTC)
