ビデオの顕著なオブジェクト検出は、ビデオ内で最も視覚的に特徴的なオブジェクトを見つけることを目的としています。時間的依存関係を調査するために、既存の方法は通常、リカレントニューラルネットワークまたはオプティカルフローに頼っています。ただし、これらのアプローチは高い計算コストを必要とし、時間の経過とともに不正確さを蓄積する傾向があります。この論文では、高度な計算時間モデリング技術を使用せずに、ビデオの顕著なオブジェクト検出のための対照的な機能を学習するための注意モジュールを備えたネットワークを提案します。ビデオフレーム内のグローバル情報をキャプチャするために、非ローカルの自己注意スキームを開発します。共注意の定式化は、低レベルと高レベルの機能を組み合わせるために利用されます。さらに、対照学習を適用して、同じビデオの前景領域のペアが一緒に引き寄せられ、前景と背景の領域のペアが潜在空間に押し出される特徴表現を改善します。フレーム内のコントラスト損失は、前景と背景の特徴を分離するのに役立ち、フレーム間のコントラスト損失は、時間的一貫性を向上させます。ビデオ顕著なオブジェクト検出と教師なしビデオオブジェクトセグメンテーションのためのいくつかのベンチマークデータセットで広範な実験を実施し、提案された方法がより少ない計算を必要とし、最先端のアプローチに対して有利に機能することを示します。
Video salient object detection aims to find the most visually distinctive objects in a video. To explore the temporal dependencies, existing methods usually resort to recurrent neural networks or optical flow. However, these approaches require high computational cost, and tend to accumulate inaccuracies over time. In this paper, we propose a network with attention modules to learn contrastive features for video salient object detection without the high computational temporal modeling techniques. We develop a non-local self-attention scheme to capture the global information in the video frame. A co-attention formulation is utilized to combine the low-level and high-level features. We further apply the contrastive learning to improve the feature representations, where foreground region pairs from the same video are pulled together, and foreground-background region pairs are pushed away in the latent space. The intra-frame contrastive loss helps separate the foreground and background features, and the inter-frame contrastive loss improves the temporal consistency. We conduct extensive experiments on several benchmark datasets for video salient object detection and unsupervised video object segmentation, and show that the proposed method requires less computation, and performs favorably against the state-of-the-art approaches.