毎日大量の動画が表示されるため、動画内の重要な情報を非常に短時間で抽出して理解できることがますます重要になっています。したがって、特定のビデオのストーリー全体を伝えるフレームの最小サブセットを見つけるタスクであるビデオ要約は、ビデオの理解の効率を向上させるために非常に重要です。フレームレベルのビデオ要約を達成するために、新しい拡張された時間関係生成的敵対ネットワーク(DTR-GAN)を提案します。ビデオが与えられると、最も意味のあるコンパクトな情報を含むキーフレームのセットを選択します。具体的には、DTR-GANは、拡張された一時的なリレーショナルジェネレーターと、3人のプレイヤーが負けたディスクリミネーターを敵対的に学習します。時間表現のキャプチャを強化するために、新しい拡張時間関係(DTR)ユニットが導入されました。ジェネレーターはこのユニットを使用して、グローバルなマルチスケール時間的コンテキストを効果的に活用してキーフレームを選択し、一般的に使用されるBi-LSTMを補完します。簡単なランダムシーケンスではなく、グローバルパースペクティブから概要が十分なキービデオ表現をキャプチャすることを保証するために、3人のプレイヤーの損失によって概要の情報の完全性とコンパクトさの両方を実施することを学習する弁別器を提示します。損失には、生成された要約損失、ランダム要約損失、および実際の要約(グランドトゥルース)損失が含まれます。これらは、学習したモデルをより適切に正規化して有用な要約を取得するために重要な役割を果たします。 3つの公開データセットの包括的な実験により、提案されたアプローチの有効性が示されます。
The large amount of videos popping up every day, make it more and more critical that key information within videos can be extracted and understood in a very short time. Video summarization, the task of finding the smallest subset of frames, which still conveys the whole story of a given video, is thus of great significance to improve efficiency of video understanding. We propose a novel Dilated Temporal Relational Generative Adversarial Network (DTR-GAN) to achieve frame-level video summarization. Given a video, it selects the set of key frames, which contain the most meaningful and compact information. Specifically, DTR-GAN learns a dilated temporal relational generator and a discriminator with three-player loss in an adversarial manner. A new dilated temporal relation (DTR) unit is introduced to enhance temporal representation capturing. The generator uses this unit to effectively exploit global multi-scale temporal context to select key frames and to complement the commonly used Bi-LSTM. To ensure that summaries capture enough key video representation from a global perspective rather than a trivial randomly shorten sequence, we present a discriminator that learns to enforce both the information completeness and compactness of summaries via a three-player loss. The loss includes the generated summary loss, the random summary loss, and the real summary (ground-truth) loss, which play important roles for better regularizing the learned model to obtain useful summaries. Comprehensive experiments on three public datasets show the effectiveness of the proposed approach.