ビデオ顕著オブジェクト検出 (VSOD) タスクの場合、外観モダリティとモーション モダリティから情報をどのように発掘するかは、常に大きな関心事のトピックでした。 RGB アピアランス ストリームとオプティカル フロー モーション ストリームを含む 2 ストリーム構造は、VSOD タスクの典型的なパイプラインとして広く使用されてきましたが、既存の方法は通常、モーション機能を使用してアピアランス機能を一方向に誘導するか、適応的にしかし盲目的に 2 つを融合するだけです。モダリティの特徴。ただし、これらの方法は、包括的で不特定の学習スキームにより、さまざまなシナリオでパフォーマンスが低下します。この論文では、より安全なモデリング哲学に従って、外観モダリティとモーションモダリティの重要性をより包括的な方法で深く調査し、PSNet という名前の上下の並列対称性を持つ VSOD ネットワークを提案します。 Gather Diffusion Reinforcement (GDR) モジュールと Cross-modality Refinement and Complement (CRC) モジュールの連携により、完全なビデオ顕著性デコードを達成するために、異なるドミナント モダリティを持つ 2 つの並列ブランチが設定されます。最後に、Importance Perception Fusion (IPF) モジュールを使用して、さまざまなシナリオでのさまざまな重要性に従って、2 つの並列ブランチからの機能を融合します。 4 つのデータセット ベンチマークでの実験は、私たちの方法が望ましい競争力のあるパフォーマンスを達成することを示しています。
For the video salient object detection (VSOD) task, how to excavate the information from the appearance modality and the motion modality has always been a topic of great concern. The two-stream structure, including an RGB appearance stream and an optical flow motion stream, has been widely used as a typical pipeline for VSOD tasks, but the existing methods usually only use motion features to unidirectionally guide appearance features or adaptively but blindly fuse two modality features. However, these methods underperform in diverse scenarios due to the uncomprehensive and unspecific learning schemes. In this paper, following a more secure modeling philosophy, we deeply investigate the importance of appearance modality and motion modality in a more comprehensive way and propose a VSOD network with up and down parallel symmetry, named PSNet. Two parallel branches with different dominant modalities are set to achieve complete video saliency decoding with the cooperation of the Gather Diffusion Reinforcement (GDR) module and Cross-modality Refinement and Complement (CRC) module. Finally, we use the Importance Perception Fusion (IPF) module to fuse the features from two parallel branches according to their different importance in different scenarios. Experiments on four dataset benchmarks demonstrate that our method achieves desirable and competitive performance.