自然画像のマットは、コンピュータービジョンとグラフィックスにおいて重要な問題です。外部情報なしで入力画像のみが利用できる場合、これは不適切な問題です。最近のディープラーニングアプローチは有望な結果を示していますが、アルファマットのみを推定しています。このホワイトペーパーでは、前景とアルファマットの同時推定のためのコンテキスト認識型の自然な画像マット方法を示します。この方法では、2つのエンコーダネットワークを使用して、マットに必要な情報を抽出します。特に、マットエンコーダーを使用してローカルフィーチャを学習し、コンテキストエンコーダーを使用してよりグローバルなコンテキスト情報を取得します。これら2つのエンコーダーからの出力を連結し、デコーダーネットワークに入力して、フォアグラウンドとアルファマットを同時に推定します。このディープニューラルネットワーク全体をトレーニングするために、標準ラプラシアン損失と特徴損失の両方を使用します。前者は高い数値性能を達成するのに役立ち、後者は知覚的にもっともらしい結果につながります。また、ネットワークの一般化パフォーマンスを大幅に改善するいくつかのデータ増強戦略を報告します。私たちの定性的および定量的な実験は、私たちの方法が単一の自然な画像に対して高品質のマットを可能にすることを示しています。推論コードとモデルはhttps://github.com/hqqxyy/Context-Aware-Mattingで公開されています。
Natural image matting is an important problem in computer vision and graphics. It is an ill-posed problem when only an input image is available without any external information. While the recent deep learning approaches have shown promising results, they only estimate the alpha matte. This paper presents a context-aware natural image matting method for simultaneous foreground and alpha matte estimation. Our method employs two encoder networks to extract essential information for matting. Particularly, we use a matting encoder to learn local features and a context encoder to obtain more global context information. We concatenate the outputs from these two encoders and feed them into decoder networks to simultaneously estimate the foreground and alpha matte. To train this whole deep neural network, we employ both the standard Laplacian loss and the feature loss: the former helps to achieve high numerical performance while the latter leads to more perceptually plausible results. We also report several data augmentation strategies that greatly improve the network's generalization performance. Our qualitative and quantitative experiments show that our method enables high-quality matting for a single natural image. Our inference codes and models have been made publicly available at https://github.com/hqqxyy/Context-Aware-Matting.