この作業では、{\ em story-preserving long video truncationという名前の新しい問題を導入します。この問題では、長いビデオを自動的に複数の短い魅力的なサブビデオに切り捨て、それぞれに切れ目のないストーリーが含まれるアルゴリズムが必要です。これは、従来のビデオハイライト検出またはビデオ要約の問題とは異なり、各サブビデオは一貫性のある不可欠なストーリーを維持するために必要であり、Youtube、Facebook、TikTok、Kwaiなどのリソース制作ビデオ共有プラットフォームで特に重要になっています問題に対処するために、TruNetという名前の新しい大規模なビデオ切り捨てデータセットを収集し、注釈を付けます。新しいデータセットを使用して、境界認識ネットワーク(BAN)と高速順方向長期短期メモリ(FF-LSTM)の2つのコンポーネントで構成されるビデオ切り捨てのニューラルアーキテクチャをさらに開発およびトレーニングします。最初にBANを使用して、フレームレベルの魅力と境界を一緒に考慮して、高品質の時間的提案を生成します。次に、一連のフレーム間の高次の依存関係をキャプチャする傾向があるFF-LSTMを適用して、一時的な提案が一貫した不可欠なストーリーであるかどうかを判断します。私たちの提案したフレームワークは、定量的測定とユーザー研究の両方で、ストーリーを保持する長いビデオの切り捨て問題に対する既存のアプローチよりも優れていることを示しています。このデータセットは、https://ai.baidu.com/broad/downloadで公開されている学術研究で使用できます。
In this work, we introduce a new problem, named as {\em story-preserving long video truncation, that requires an algorithm to automatically truncate a long-duration video into multiple short and attractive sub-videos with each one containing an unbroken story. This differs from traditional video highlight detection or video summarization problems in that each sub-video is required to maintain a coherent and integral story, which is becoming particularly important for resource-production video sharing platforms such as Youtube, Facebook, TikTok, Kwai, etc. To address the problem, we collect and annotate a new large video truncation dataset, named as TruNet, which contains 1470 videos with on average 11 short stories per video. With the new dataset, we further develop and train a neural architecture for video truncation that consists of two components: a Boundary Aware Network (BAN) and a Fast-Forward Long Short-Term Memory (FF-LSTM). We first use the BAN to generate high quality temporal proposals by jointly considering frame-level attractiveness and boundaryness. We then apply the FF-LSTM, which tends to capture high-order dependencies among a sequence of frames, to decide whether a temporal proposal is a coherent and integral story. We show that our proposed framework outperforms existing approaches for the story-preserving long video truncation problem in both quantitative measures and user-study. The dataset is available for public academic research usage at https://ai.baidu.com/broad/download.