再構成タスクにより適した反事実的ビデオ合成の観点から、ビデオ マッティング問題の代替定式化である「ファクター マッティング」を提案します。ファクター マッティングの目的は、ビデオのコンテンツを独立したコンポーネントに分離し、それぞれが他のコンポーネントのコンテンツが削除されたシーンの反事実バージョンを視覚化することです。因子マッティングは、レイヤー間の複雑な条件付き相互作用を説明するマッティング問題のより一般的なベイジアン フレーミングにうまくマッピングされることを示します。この観察に基づいて、スプラッシュ、シャドウ、リフレクションなどの複雑なクロスレイヤーの相互作用を持つビデオでも有用な分解を生成するファクター マッティング問題を解決する方法を提示します。私たちの方法はビデオごとにトレーニングされ、外部の大規模なデータセットでの事前トレーニングも、シーンの 3D 構造に関する知識も必要としません。私たちは広範な実験を行い、私たちの方法が複雑な相互作用を持つシーンを解きほぐすだけでなく、従来のビデオ マッティングや背景減算などの既存のタスクでトップの方法よりも優れていることを示しています。さらに、さまざまなダウンストリーム タスクに対するアプローチの利点を示します。詳細については、プロジェクトの Web ページを参照してください: https://factormatte.github.io
We propose "factor matting", an alternative formulation of the video matting problem in terms of counterfactual video synthesis that is better suited for re-composition tasks. The goal of factor matting is to separate the contents of video into independent components, each visualizing a counterfactual version of the scene where contents of other components have been removed. We show that factor matting maps well to a more general Bayesian framing of the matting problem that accounts for complex conditional interactions between layers. Based on this observation, we present a method for solving the factor matting problem that produces useful decompositions even for video with complex cross-layer interactions like splashes, shadows, and reflections. Our method is trained per-video and requires neither pre-training on external large datasets, nor knowledge about the 3D structure of the scene. We conduct extensive experiments, and show that our method not only can disentangle scenes with complex interactions, but also outperforms top methods on existing tasks such as classical video matting and background subtraction. In addition, we demonstrate the benefits of our approach on a range of downstream tasks. Please refer to our project webpage for more details: https://factormatte.github.io