Temporal-Spatial Feature Pyramid for Video Saliency Detection
この論文では、ビデオ顕著性モデリングのためのスケール、空間、および時間情報を組み合わせた、ビデオ顕著性検出のための3D完全畳み込みエンコーダ-デコーダアーキテクチャを提案します。エンコーダーは、入力された連続ビデオフレームからマルチスケールの時空間特徴を抽出し、時空間畳み込みとトップダウン特徴統合によって時空間特徴ピラミッドを構築します。デコーダーは、さまざまなスケールからの時空間特徴の階層的デコードを実行し、最終的に複数のビデオフレームの統合から顕著性マップを生成します。私たちのモデルはシンプルでありながら効果的であり、リアルタイムで実行できます。私たちは豊富な実験を行っており、その結果は、適切に設計された構造がビデオ顕著性検出の精度を大幅に向上させることができることを示しています。 3つの純粋に視覚的なビデオ顕著性ベンチマークと6つのオーディオビデオ顕著性ベンチマークに関する実験結果は、私たちの方法が最先端のパフォーマンスを達成することを示しています。
In this paper, we propose a 3D fully convolutional encoder-decoder architecture for video saliency detection, which combines scale, space and time information for video saliency modeling. The encoder extracts multi-scale temporal-spatial features from the input continuous video frames, and then constructs temporal-spatial feature pyramid through temporal-spatial convolution and top-down feature integration. The decoder performs hierarchical decoding of temporal-spatial features from different scales, and finally produces a saliency map from the integration of multiple video frames. Our model is simple yet effective, and can run in real time. We perform abundant experiments, and the results indicate that the well-designed structure can improve the precision of video saliency detection significantly. Experimental results on three purely visual video saliency benchmarks and six audio-video saliency benchmarks demonstrate that our method achieves state-of-theart performance.
updated: Mon May 10 2021 09:14:14 GMT+0000 (UTC)
published: Mon May 10 2021 09:14:14 GMT+0000 (UTC)
