既存のビデオコピー検出方法は、一般に、キーフレーム間の空間的類似性に基づいてビデオ類似性を測定し、時間的次元の潜在的類似性を無視するため、ビデオ類似性は空間情報に偏る。統一されたビデオの類似性をエンドツーエンドでモデル化する方法がありますが、詳細な部分的な位置合わせ情報が失われるため、コピーセグメントのローカリゼーションができなくなります。上記の問題に対処するために、空間的類似性、時間的類似性、および部分的整列を共同でモデル化するビデオ類似性および整列学習(VSAL)アプローチを提案します。空間的類似性バイアスを軽減するために、フレームレベルの空間的類似性から予測されたマスクマップとして時間的類似性をモデル化します。各要素は、フレームペアが部分的な配置に正しく位置する確率を示します。部分的なコピーをさらにローカライズするために、ステップマップは、要素が時空間類似性マップ上の現在の部分的な配置の拡張方向を示す空間的類似性から学習されます。マスクマップから取得された開始点は、ステップマップの指示に従って部分的に最適な位置に拡張されます。類似性と整合性の学習戦略により、VSALはVCDBコアデータセットで最先端のF1スコアを実現します。さらに、FIVR-200kデータセットに新しいセグメントレベルの注釈を追加することにより、部分的なビデオコピーの検出とローカリゼーションの新しいベンチマークを構築します。VSALも最高のパフォーマンスを実現し、より困難な状況での有効性を検証します。私たちのプロジェクトはhttps://pvcd-vsal.github.io/vsal/で公開されています。
Existing video copy detection methods generally measure video similarity based on spatial similarities between key frames, neglecting the latent similarity in temporal dimension, so that the video similarity is biased towards spatial information. There are methods modeling unified video similarity in an end-to-end way, but losing detailed partial alignment information, which causes the incapability of copy segments localization. To address the above issues, we propose the Video Similarity and Alignment Learning (VSAL) approach, which jointly models spatial similarity, temporal similarity and partial alignment. To mitigate the spatial similarity bias, we model the temporal similarity as the mask map predicted from frame-level spatial similarity, where each element indicates the probability of frame pair lying right on the partial alignments. To further localize partial copies, the step map is learned from the spatial similarity where the elements indicate extending directions of the current partial alignments on the spatial-temporal similarity map. Obtained from the mask map, the start points extend out into partial optimal alignments following instructions of the step map. With the similarity and alignment learning strategy, VSAL achieves the state-of-the-art F1-score on VCDB core dataset. Furthermore, we construct a new benchmark of partial video copy detection and localization by adding new segment-level annotations for FIVR-200k dataset, where VSAL also achieves the best performance, verifying its effectiveness in more challenging situations. Our project is publicly available at https://pvcd-vsal.github.io/vsal/.