この論文は、フル機能の長さのビデオのための新しい軽量サムネイルコンテナベースの要約(LTC-SUM)フレームワークを提案します。このフレームワークは、エンドユーザーデバイスの計算リソースを使用して、同時ユーザー向けにパーソナライズされたキーショットサマリーを生成します。ビデオデータ全体を取得して処理し、ビデオの要約を生成する最先端の方法は、計算量が非常に多くなります。この点で、提案されたLTC-SUMメソッドは、軽量のサムネイルを使用して、イベントを検出する複雑なプロセスを処理します。これにより、リソースに制約のあるエンドユーザーデバイスの計算とプライバシーのボトルネックが解決されるため、計算の複雑さが大幅に軽減され、通信とストレージの効率が向上します。これらの改善は、サムネイルから特徴を抽出する軽量の2D CNNモデルを設計することで達成されました。これにより、特定のセグメントのほんの一握りを選択して取得することができました。全18本の長編ビデオ(長さ約32.9時間)の広範な定量的実験により、提案された方法は、同じエンドユーザーデバイス構成での最先端の方法よりも大幅に計算効率が高いことが示されました。 56人の参加者の結果の共同定性的評価は、参加者が提案された方法を使用して生成された要約に高い評価を与えたことを示しました。私たちの知る限り、これは、長編ビデオのサムネイルコンテナを使用して、完全にクライアント主導のパーソナライズされたキーショットビデオ要約フレームワークを設計する最初の試みです。
This paper proposes a novel lightweight thumbnail container-based summarization (LTC-SUM) framework for full feature-length videos. This framework generates a personalized keyshot summary for concurrent users by using the computational resource of the end-user device. State-of-the-art methods that acquire and process entire video data to generate video summaries are highly computationally intensive. In this regard, the proposed LTC-SUM method uses lightweight thumbnails to handle the complex process of detecting events. This significantly reduces computational complexity and improves communication and storage efficiency by resolving computational and privacy bottlenecks in resource-constrained end-user devices. These improvements were achieved by designing a lightweight 2D CNN model to extract features from thumbnails, which helped select and retrieve only a handful of specific segments. Extensive quantitative experiments on a set of full 18 feature-length videos (approximately 32.9 h in duration) showed that the proposed method is significantly computationally efficient than state-of-the-art methods on the same end-user device configurations. Joint qualitative assessments of the results of 56 participants showed that participants gave higher ratings to the summaries generated using the proposed method. To the best of our knowledge, this is the first attempt in designing a fully client-driven personalized keyshot video summarization framework using thumbnail containers for feature-length videos.