このペーパーの目的は、ビデオを自然なレイヤーに分離し、分離されたレイヤーのどれに注意を払うかを制御することです。たとえば、反射、透明度、またはオブジェクトの動きを分離できるようにします。 (i)レイヤーを(空間マスクとして)明示的に設計に組み込む新しい構造化ニューラルネットワークアーキテクチャを導入します。これにより、このタスクの以前の汎用ネットワークよりも分離パフォーマンスが向上します。 (ii)制御性のためにオーディオなどの外部キューを活用し、曖昧さをなくすために、アーキテクチャを拡張できることを実証します。 (iii)制御された実験でアプローチとトレーニング手順の有効性を実験的に実証すると同時に、乱雑なシーンでの反射除去やアクション認識などの実際の単語アプリケーションに提案モデルをうまく適用できることを示します。
The objective of this paper is to be able to separate a video into its natural layers, and to control which of the separated layers to attend to. For example, to be able to separate reflections, transparency or object motion. We make the following three contributions: (i) we introduce a new structured neural network architecture that explicitly incorporates layers (as spatial masks) into its design. This improves separation performance over previous general purpose networks for this task; (ii) we demonstrate that we can augment the architecture to leverage external cues such as audio for controllability and to help disambiguation; and (iii) we experimentally demonstrate the effectiveness of our approach and training procedure with controlled experiments while also showing that the proposed model can be successfully applied to real-word applications such as reflection removal and action recognition in cluttered scenes.