ユーザーが以前に視聴した動画にマークされた優先ハイライトクリップに基づいて、特定のターゲット動画のユーザーの個別のハイライトを検出する方法を提案します。私たちの方法は、オブジェクトと人間の活動のために事前にトレーニングされた機能を使用して、優先クリップとターゲットビデオの両方のコンテンツを明示的に活用します。オブジェクトベースおよび人間のアクティビティベースのコンテンツに基づいて優先クリップを適応的に重み付けし、これらの重みを使用して各ユーザーの単一の特徴表現に融合するマルチヘッドアテンションメカニズムを設計します。これらのユーザーごとの機能表現と、目的のターゲットビデオから計算されたフレームごとの機能との類似性を計算して、ターゲットビデオからユーザー固有のハイライトクリップを推定します。個々のユーザーの注釈付きハイライトを含む大規模なハイライト検出データセットでメソッドをテストします。現在のベースラインと比較すると、検出されたハイライトの平均精度が2〜4%向上しています。また、各ユーザーに関連付けられた優先ハイライトクリップの数、およびオブジェクトベースと人間のアクティビティベースの機能表現に対して広範なアブレーション実験を実行して、メソッドが実際にコンテンツベースとユーザー固有の両方であることを検証します。
We propose a method to detect individualized highlights for users on given target videos based on their preferred highlight clips marked on previous videos they have watched. Our method explicitly leverages the contents of both the preferred clips and the target videos using pre-trained features for the objects and the human activities. We design a multi-head attention mechanism to adaptively weigh the preferred clips based on their object- and human-activity-based contents, and fuse them using these weights into a single feature representation for each user. We compute similarities between these per-user feature representations and the per-frame features computed from the desired target videos to estimate the user-specific highlight clips from the target videos. We test our method on a large-scale highlight detection dataset containing the annotated highlights of individual users. Compared to current baselines, we observe an absolute improvement of 2-4% in the mean average precision of the detected highlights. We also perform extensive ablation experiments on the number of preferred highlight clips associated with each user as well as on the object- and human-activity-based feature representations to validate that our method is indeed both content-based and user-specific.