シーンから正確な前景オブジェクトを抽出することは、多くのビデオアプリケーションにとって不可欠なステップです。従来のバックグラウンド減算アルゴリズムは粗い推定値を生成できますが、高品質のマスクを生成するには、トライマップの提供やキーフレームのラベリングなど、人間による大幅な介入が必要な専門的なソフトウェアが必要です。静的だが不完全な背景が利用可能なアプリケーションでの自動前景抽出方法を提案します。例には、オブジェクトがシーンに入る前またはオブジェクトがシーンを離れた後に背景をキャプチャできる撮影や監視が含まれます。私たちの提案する方法は非常に堅牢で、最先端の背景減算、ビデオセグメンテーション、アルファマット法よりもはるかに優れた推定値を生成します。私たちの方法の鍵となる革新は、新しい情報融合技術です。フュージョンフレームワークを使用すると、アルファマット、背景の減算、および画像のノイズ除去の個々の強みを統合して、全体的に優れた推定値を生成できます。このような統合は、背景が不完全な複雑なシーンを処理する場合に特に重要です。フレームワークがどのように開発され、個々のコンポーネントがどのように構築されるかを示します。提案された方法を評価するために、広範な実験とアブレーション研究が行われます。
Extracting accurate foreground objects from a scene is an essential step for many video applications. Traditional background subtraction algorithms can generate coarse estimates, but generating high quality masks requires professional softwares with significant human interventions, e.g., providing trimaps or labeling key frames. We propose an automatic foreground extraction method in applications where a static but imperfect background is available. Examples include filming and surveillance where the background can be captured before the objects enter the scene or after they leave the scene. Our proposed method is very robust and produces significantly better estimates than state-of-the-art background subtraction, video segmentation and alpha matting methods. The key innovation of our method is a novel information fusion technique. The fusion framework allows us to integrate the individual strengths of alpha matting, background subtraction and image denoising to produce an overall better estimate. Such integration is particularly important when handling complex scenes with imperfect background. We show how the framework is developed, and how the individual components are built. Extensive experiments and ablation studies are conducted to evaluate the proposed method.