ディープラーニングベースのビデオの顕著なオブジェクト検出は、そのパフォーマンスが他の監視されていない方法よりも大幅に優れているため、最近大きな成功を収めています。ただし、既存のデータ駆動型のアプローチは、このような有望な結果を提供するために、大量のピクセル単位の注釈付きビデオフレームに大きく依存しています。このホワイトペーパーでは、疑似ラベルを使用して、半教師付きビデオ顕著オブジェクト検出タスクに対処します。具体的には、空間調整ネットワークと時空間モジュールで構成される効果的なビデオ顕著性検出器を紹介します。オプティカルフローの観点から同じ改良ネットワークと動き情報に基づいて、疎注釈付きフレームからピクセルレベルの擬似ラベルを生成するための新しい方法をさらに提案します。生成された疑似ラベルと一部の手動注釈を利用することにより、ビデオ顕著性検出器はコントラスト推論とコヒーレンス強化の両方の空間的および時間的キューを学習し、正確な顕著性マップを生成します。実験結果は、VOS、DAVIS、およびFBMSの3つのパブリックベンチマーク全体で、提案された半教師あり方法がすべての最先端の完全教師あり方法よりもはるかに優れていることを示しています。
Deep learning-based video salient object detection has recently achieved great success with its performance significantly outperforming any other unsupervised methods. However, existing data-driven approaches heavily rely on a large quantity of pixel-wise annotated video frames to deliver such promising results. In this paper, we address the semi-supervised video salient object detection task using pseudo-labels. Specifically, we present an effective video saliency detector that consists of a spatial refinement network and a spatiotemporal module. Based on the same refinement network and motion information in terms of optical flow, we further propose a novel method for generating pixel-level pseudo-labels from sparsely annotated frames. By utilizing the generated pseudo-labels together with a part of manual annotations, our video saliency detector learns spatial and temporal cues for both contrast inference and coherence enhancement, thus producing accurate saliency maps. Experimental results demonstrate that our proposed semi-supervised method even greatly outperforms all the state-of-the-art fully supervised methods across three public benchmarks of VOS, DAVIS, and FBMS.