言語のクエリを介してトリミングされていないビデオの瞬間をローカライズすることは、新しい興味深いタスクであり、言語をビデオに正確に反映する機能が必要です。以前の作品では、関連するアクティビティをローカライズするために、ビデオ全体を処理することにより、このタスクに取り組みました。ビデオ監視など、このアプローチの実際のアプリケーションでは、効率が重要なシステム要件です。このペーパーでは、ゲートアテンションアーキテクチャを使用して、テキストとビデオのコンテンツを整列させるために、きめ細かいテキスト表現と視覚表現をモデル化するエンドツーエンドシステムであるTripNetを紹介します。さらに、TripNetは強化学習を使用して、関連するアクティビティクリップを長いビデオに効率的にローカライズします。アクティビティ分類を実行するために、いくつかのフレームの視覚的特徴を抽出します。 Charades-STA、ActivityNetキャプション、およびTACoSデータセットを使用した評価では、TripNetはビデオ全体の32〜41%のみを確認することで高精度を達成し、処理時間を節約できることがわかりました。
Localizing moments in untrimmed videos via language queries is a new and interesting task that requires the ability to accurately ground language into video. Previous works have approached this task by processing the entire video, often more than once, to localize relevant activities. In the real world applications of this approach, such as video surveillance, efficiency is a key system requirement. In this paper, we present TripNet, an end-to-end system that uses a gated attention architecture to model fine-grained textual and visual representations in order to align text and video content. Furthermore, TripNet uses reinforcement learning to efficiently localize relevant activity clips in long videos, by learning how to intelligently skip around the video. It extracts visual features for few frames to perform activity classification. In our evaluation over Charades-STA, ActivityNet Captions and the TACoS dataset, we find that TripNet achieves high accuracy and saves processing time by only looking at 32-41% of the entire video.