動画は強力な情報源の1つであり、オンライン動画とオフライン動画の消費は過去数年間でかつてないレベルに達しています。動画から情報を抽出する際の基本的な課題は、視聴者が1つのフレームから情報を抽出できる画像とは対照的に、視聴者は完全な動画を見てコンテキストを理解する必要があることです。誰もが独自のキーフレームの偏見を持っているため、コンテキストの理解とは別に、万人向けのユニバーサル要約ビデオを作成することはほとんど不可能です。サッカーの試合では、コーチは選手の配置やテクニックなどの情報で構成されるフレームを検討するかもしれません。ただし、サッカーの試合についてあまり知識のない人は、ゴールとスコアボードで構成されるフレームにより重点を置きます。したがって、監視された学習パスを使用して問題のあるビデオの要約に取り組む場合は、データの広範な個別のラベル付けが必要になります。このホワイトペーパーでは、ビデオフレームから正確な特徴を抽出するための従来のビジョンベースのアルゴリズム手法を採用することにより、教師なし学習を通じてビデオの要約を解決しようとしています。また、ディープラーニングベースの特徴抽出とそれに続く複数のクラスタリング手法を提案して、興味深いキーフレーム抽出によってビデオを要約する効果的な方法を見つけました。 SumMeデータセットでのこれらのアプローチのパフォーマンスを比較し、ディープラーニングベースの特徴抽出を使用すると、動的視点ビデオの場合にパフォーマンスが向上することが証明されていることを示しました。
Video is one of the robust sources of information and the consumption of online and offline videos has reached an unprecedented level in the last few years. A fundamental challenge of extracting information from videos is a viewer has to go through the complete video to understand the context, as opposed to an image where the viewer can extract information from a single frame. Apart from context understanding, it almost impossible to create a universal summarized video for everyone, as everyone has their own bias of keyframe, e.g; In a soccer game, a coach person might consider those frames which consist of information on player placement, techniques, etc; however, a person with less knowledge about a soccer game, will focus more on frames which consist of goals and score-board. Therefore, if we were to tackle problem video summarization through a supervised learning path, it will require extensive personalized labeling of data. In this paper, we attempt to solve video summarization through unsupervised learning by employing traditional vision-based algorithmic methodologies for accurate feature extraction from video frames. We have also proposed a deep learning-based feature extraction followed by multiple clustering methods to find an effective way of summarizing a video by interesting key-frame extraction. We have compared the performance of these approaches on the SumMe dataset and showcased that using deep learning-based feature extraction has been proven to perform better in case of dynamic viewpoint videos.