Weakly-Supervised Video Moment Retrieval via Semantic Completion Network
 ビデオモーメント検索は、特定の自然言語クエリに最も関連するモーメントを検索することです。既存のメソッドのほとんどは、完全に監視された設定でトレーニングされます。これには、各クエリの時間境界の完全な注釈が必要です。ただし、注釈に手動でラベルを付けることは、実際には時間がかかり、費用がかかります。本論文では、トレーニング用に粗いビデオレベルの注釈のみを必要とする、新規の弱教師付きモーメント検索フレームワークを提案します。具体的には、コンテキスト情報を集約して、1回のパスですべての候補提案を生成およびスコアリングする提案生成モジュールを考案します。次に、開発と探索の両方を考慮して、上位Kの提案を選択するアルゴリズムを考案します。次に、選択された提案とクエリの間の意味的類似性を測定し、報酬を計算し、洗練をスコアリングするために提案生成モジュールにフィードバックを提供する意味補完モジュールを構築します。 ActivityCaptionsとCharades-STAの実験は、提案された方法の有効性を示しています。
Video moment retrieval is to search the moment that is most relevant to the given natural language query. Existing methods are mostly trained in a fully-supervised setting, which requires the full annotations of temporal boundary for each query. However, manually labeling the annotations is actually time-consuming and expensive. In this paper, we propose a novel weakly-supervised moment retrieval framework requiring only coarse video-level annotations for training. Specifically, we devise a proposal generation module that aggregates the context information to generate and score all candidate proposals in one single pass. We then devise an algorithm that considers both exploitation and exploration to select top-K proposals. Next, we build a semantic completion module to measure the semantic similarity between the selected proposals and query, compute reward and provide feedbacks to the proposal generation module for scoring refinement. Experiments on the ActivityCaptions and Charades-STA demonstrate the effectiveness of our proposed method.
updated: Wed Jan 15 2020 11:09:43 GMT+0000 (UTC)
published: Tue Nov 19 2019 10:31:43 GMT+0000 (UTC)
