ビデオの要約は、長いビデオからキーフレーム/ショットを抽出することを目的としています。従来の方法は、主に、アルゴリズム設計の事前知識として、生成された要約の多様性と代表性を利用します。このホワイトペーパーでは、ビデオの要約をコンテンツベースのレコメンダーの問題として定式化します。これは、情報過多に苦しむユーザーのために、長いビデオから最も有用なコンテンツを抽出するものです。スケーラブルなディープニューラルネットワークは、セグメントとビデオの両方を明示的にモデリングすることにより、1つのビデオセグメントがユーザーにとって有用なセグメントであるかどうかを予測する上で提案されます。さらに、ビデオを理解するタスクのさまざまな側面の間でより多くの相関関係を見つけるために、トリミングされていないビデオのシーンとアクションの認識を実現します。また、私たちの論文では、要約タスクにおけるオーディオおよびビジュアル機能の効果について説明します。また、初期段階の過剰適合からモデルを防止するために、データ増強とマルチタスク学習によって作業を拡張します。モデルの最終結果は、ICCV 2019 CoView Workshop Challenge Trackで1位になりました。
Video summarization aims to extract keyframes/shots from a long video. Previous methods mainly take diversity and representativeness of generated summaries as prior knowledge in algorithm design. In this paper, we formulate video summarization as a content-based recommender problem, which should distill the most useful content from a long video for users who suffer from information overload. A scalable deep neural network is proposed on predicting if one video segment is a useful segment for users by explicitly modelling both segment and video. Moreover, we accomplish scene and action recognition in untrimmed videos in order to find more correlations among different aspects of video understanding tasks. Also, our paper will discuss the effect of audio and visual features in summarization task. We also extend our work by data augmentation and multi-task learning for preventing the model from early-stage overfitting. The final results of our model win the first place in ICCV 2019 CoView Workshop Challenge Track.