arXiv reaDer
Finding Moments in Video Collections Using Natural Language
自然言語クエリを指定して、トリミングされていない、セグメント化されていないビデオの大規模なコーパスから関連するビデオモーメントを取得するタスクを紹介します。システムは関連するビデオの両方を効率的に識別し、ビデオ内の関連する瞬間をローカライズする必要があるため、私たちのタスクには固有の課題があります。これらの課題に対処するために、SpatioTemporal Alignment with Language(STAL)を提案します。これは、一連の短いビデオクリップ内の一連の領域としてビデオモーメントを表し、自然言語クエリをモーメントの領域に位置合わせするモデルです。アラインメントコストは、対称二乗面取り距離を使用して可変長言語とビデオ機能を比較します。これにより、ビデオモーメントの効率的なインデックス作成と取得が可能になります。さらに、言語機能をビデオモーメント内の領域に位置合わせすることにより、ビデオモーメント全体から集合的な特徴のみを抽出する方法と比較して、より細かい位置合わせが可能になります。私たちは、ビデオコーパスのモーメント検索設定に拡張された自然言語(DiDeMoおよびCharades-STA)を使用して、ビデオ内のモーメントの時間的ローカリゼーションのために最近提案された2つのデータセットに対するアプローチを評価します。 STAL再ランク付けモデルは、提案されたタスクのすべてのデータセットのすべての基準で、最近提案されたモーメントコンテキストネットワークよりも優れており、平均リコールで37%〜118%、中央値ランクで最大30%の相対ゲインが得られることを示しています。さらに、私たちのアプローチは、おおよその設定で1Mのビデオコーパスを使用して、130倍以上の高速検索と8倍小さいインデックスサイズを実現します。
We introduce the task of retrieving relevant video moments from a large corpus of untrimmed, unsegmented videos given a natural language query. Our task poses unique challenges as a system must efficiently identify both the relevant videos and localize the relevant moments in the videos. To address these challenges, we propose SpatioTemporal Alignment with Language (STAL), a model that represents a video moment as a set of regions within a series of short video clips and aligns a natural language query to the moment's regions. Our alignment cost compares variable-length language and video features using symmetric squared Chamfer distance, which allows for efficient indexing and retrieval of the video moments. Moreover, aligning language features to regions within a video moment allows for finer alignment compared to methods that extract only an aggregate feature from the entire video moment. We evaluate our approach on two recently proposed datasets for temporal localization of moments in video with natural language (DiDeMo and Charades-STA) extended to our video corpus moment retrieval setting. We show that our STAL re-ranking model outperforms the recently proposed Moment Context Network on all criteria across all datasets on our proposed task, obtaining relative gains of 37% - 118% for average recall and up to 30% for median rank. Moreover, our approach achieves more than 130x faster retrieval and 8x smaller index size with a 1M video corpus in an approximate setting.
updated: Wed Feb 23 2022 12:44:54 GMT+0000 (UTC)
published: Tue Jul 30 2019 07:31:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト