膨大な量のビデオコンテンツが毎分インターネットにアップロードされているため、視覚的なコンテンツを効率的に閲覧、検索、およびインデックス登録するには、ビデオの要約が重要になります。それにもかかわらず、ソーシャルカメラとエゴセントリックカメラの普及により、いくつかのデバイスでキャプチャされた多数のまばらなシナリオが作成され、最終的にはまとめて要約する必要があります。この記事では、視野を断続的に共有する複数のダイナミックカメラで同時に記録されたビデオを要約する問題について説明します。 (a)多くの場合、同じシーンをキャプチャしていない移動カメラ間で重要なイベントの多様なセットを識別し、(b)各イベントで最も代表的なビューを選択してユニバーサルサマリーに含める堅牢なフレームワークを提示します。適用可能な代替手段がないため、新しいマルチビューエゴセントリックデータセットであるMulti-Egoを収集しました。データセットは3つのカメラで同時に記録され、さまざまな現実のシナリオをカバーします。映像には、さまざまな要約構成の下で複数の個人が注釈を付け、コンセンサス分析により信頼できるグラウンドトゥルースを保証します。監視ありと監視なしの両方の設定でのアプローチの堅牢性と利点を示す3つの他の標準ベンチマークに加えて、コンパイルされたデータセットで広範な実験を行います。さらに、我々のアプローチがさまざまなビュー数のデータから集合的に学習し、他の要約方法と直交していることを示し、スケーラブルで汎用的であるとみなします。私たちの資料は公開されています。
With vast amounts of video content being uploaded to the Internet every minute, video summarization becomes critical for efficient browsing, searching, and indexing of visual content. Nonetheless, the spread of social and egocentric cameras creates an abundance of sparse scenarios captured by several devices, and ultimately required to be jointly summarized. In this paper, we discuss the problem of summarizing videos recorded simultaneously by several dynamic cameras that intermittently share the field of view. We present a robust framework that (a) identifies a diverse set of important events among moving cameras that often are not capturing the same scene, and (b) selects the most representative view(s) at each event to be included in a universal summary. Due to the lack of an applicable alternative, we collected a new multi-view egocentric dataset, Multi-Ego. Our dataset is recorded simultaneously by three cameras, covering a wide variety of real-life scenarios. The footage is annotated by multiple individuals under various summarization configurations, with a consensus analysis ensuring a reliable ground truth. We conduct extensive experiments on the compiled dataset in addition to three other standard benchmarks that show the robustness and the advantage of our approach in both supervised and unsupervised settings. Additionally, we show that our approach learns collectively from data of varied number-of-views and orthogonal to other summarization methods, deeming it scalable and generic. Our materials are made publicly available.