BSUV-Net: A Fully-Convolutional Neural Network for Background Subtraction of Unseen Videos
 バックグラウンド減算は、コンピュータビジョンおよびビデオ処理の基本的なタスクであり、オブジェクト追跡、人物認識などの前処理ステップとしてよく適用されます。最近、多くの成功したバックグラウンド減算アルゴリズムが提案されました。実行中のものは監視されます。重要なのは、トレーニング中にテストビデオの注釈付きフレームが利用できるかどうかにかかっています。その結果、完全に「目に見えない」ビデオでのパフォーマンスは、文献に記載されていません。この作業では、完全に畳み込みニューラルネットワークに基づいて、目に見えないビデオ(BSUV-Net)の新しい、教師あり、バックグラウンド減算アルゴリズムを提案します。ネットワークへの入力は、現在のフレームと、セマンティックセグメンテーションマップと共に異なる時間スケールでキャプチャされた2つの背景フレームで構成されます。オーバーフィッティングの可能性を減らすために、背景フレームと現在のフレーム間の照明の違いの影響を緩和する新しいデータ拡張手法も導入します。 CDNet-2014データセットでは、BSUV-Netは、Fメジャー、リコール、精度などのいくつかのメトリックに関して、目に見えないビデオで評価された最先端のアルゴリズムよりも優れています。
Background subtraction is a basic task in computer vision and video processing often applied as a pre-processing step for object tracking, people recognition, etc. Recently, a number of successful background-subtraction algorithms have been proposed, however nearly all of the top-performing ones are supervised. Crucially, their success relies upon the availability of some annotated frames of the test video during training. Consequently, their performance on completely "unseen" videos is undocumented in the literature. In this work, we propose a new, supervised, background-subtraction algorithm for unseen videos (BSUV-Net) based on a fully-convolutional neural network. The input to our network consists of the current frame and two background frames captured at different time scales along with their semantic segmentation maps. In order to reduce the chance of overfitting, we also introduce a new data-augmentation technique which mitigates the impact of illumination difference between the background frames and the current frame. On the CDNet-2014 dataset, BSUV-Net outperforms state-of-the-art algorithms evaluated on unseen videos in terms of several metrics including F-measure, recall and precision.
updated: Tue Jan 14 2020 16:30:38 GMT+0000 (UTC)
published: Fri Jul 26 2019 03:05:00 GMT+0000 (UTC)
