arXiv reaDer
Text-based Localization of Moments in a Video Corpus
テキストベースのビデオモーメントのローカリゼーションに関するこれまでの作品は、トリミングされていないビデオのテキストクエリを時間的に根拠づけることに重点を置いています。これらの作品は、関連するビデオがすでに知られていると仮定し、その関連するビデオのみでその瞬間をローカライズしようとします。そのような作品とは異なり、私たちはこの仮定を緩和し、特定の文のクエリに対するビデオのコーパス内の瞬間を特定するタスクに取り組みます。システムが実行する必要があるため、このタスクは固有の課題を提起します:(i)ビデオのセグメントのみが照会された文に対応する関連ビデオの検索、および(ii)センテンスに基づく関連ビデオのモーメントの時間的位置特定クエリ。この課題を克服するために、私たちは、モーメントとセンテンスの効果的な共同埋め込みスペースを学習する階層型モーメントアラインメントネットワーク(HMAN)を提案します。 HMANは、ビデオ内の瞬間の微妙な違いを学習することに加えて、センテンスクエリに基づいてビデオ間のグローバルセマンティック概念を区別することに焦点を当てています。 3つのベンチマークテキストベースのビデオモーメント検索データセット(Charades-STA、DiDeMo、およびActivityNetキャプション)の定性的および定量的結果は、ビデオのコーパス内のモーメントの時間的ローカリゼーションという提案されたタスクで、この方法が有望なパフォーマンスを達成することを示しています。
Prior works on text-based video moment localization focus on temporally grounding the textual query in an untrimmed video. These works assume that the relevant video is already known and attempt to localize the moment on that relevant video only. Different from such works, we relax this assumption and address the task of localizing moments in a corpus of videos for a given sentence query. This task poses a unique challenge as the system is required to perform: (i) retrieval of the relevant video where only a segment of the video corresponds with the queried sentence, and (ii) temporal localization of moment in the relevant video based on sentence query. Towards overcoming this challenge, we propose Hierarchical Moment Alignment Network (HMAN) which learns an effective joint embedding space for moments and sentences. In addition to learning subtle differences between intra-video moments, HMAN focuses on distinguishing inter-video global semantic concepts based on sentence queries. Qualitative and quantitative results on three benchmark text-based video moment retrieval datasets - Charades-STA, DiDeMo, and ActivityNet Captions - demonstrate that our method achieves promising performance on the proposed task of temporal localization of moments in a corpus of videos.
updated: Wed Aug 18 2021 23:08:48 GMT+0000 (UTC)
published: Thu Aug 20 2020 00:05:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト