arXiv reaDer
ブリッジコンポジットとリアル:エンドツーエンドのディープイメージマットに向けて
Bridge Composite and Real: Towards End-to-end Deep Image Matting
自然画像から正確な前景を抽出することは、映画製作や拡張現実などの多くのダウンストリームアプリケーションに役立ちます。ただし、動物やポートレートなどの前景の毛皮のような特徴やさまざまな外観は、通常、トライマップや落書きなどの追加のユーザー入力を必要とする既存のマット方法に挑戦します。これらの問題を解決するために、画像マットのセマンティクスと詳細の明確な役割を研究し、タスクを2つの並列サブタスク(高レベルのセマンティックセグメンテーションと低レベルの詳細マット)に分解します。具体的には、共有エンコーダーと2つの別個のデコーダーを使用して、エンドツーエンドの自然な画像マット化のために両方のタスクを協調的に学習する、新しいGlance and Focus Mattingネットワーク(GFM)を提案します。さらに、マットタスクで利用できる自然画像の制限により、以前の方法では通常、トレーニングと評価に合成画像を採用します。その結果、実世界の画像での一般化能力が制限されます。この論文では、前景画像と背景画像の間のさまざまな不一致の包括的な分析を行うことにより、合成画像と実世界の画像の間のドメインギャップの問題を体系的に調査します。不一致を減らすことを目的とした慎重に設計された構成ルートRSSNは、優れた一般化能力を備えたより良いモデルにつながる可能性があることがわかりました。さらに、2,000枚の高解像度の実世界の動物画像と10,000枚のポートレート画像、および手動でラベル付けされたアルファマットを含むベンチマークを提供し、実世界の画像に対するマットモデルの一般化能力を評価するためのテストベッドとして機能します。包括的な実証研究により、GFMは最先端の方法よりも優れており、汎化誤差を効果的に低減できることが実証されています。コードとデータセットがリリースされます。
Extracting accurate foregrounds from natural images benefits many downstream applications such as film production and augmented reality. However, the furry characteristics and various appearance of the foregrounds, e.g., animal and portrait, challenge existing matting methods, which usually require extra user inputs such as trimap or scribbles. To resolve these problems, we study the distinct roles of semantics and details for image matting and decompose the task into two parallel sub-tasks: high-level semantic segmentation and low-level details matting. Specifically, we propose a novel Glance and Focus Matting network (GFM), which employs a shared encoder and two separate decoders to learn both tasks in a collaborative manner for end-to-end natural image matting. Besides, due to the limitation of available natural images in the matting task, previous methods typically adopt composite images for training and evaluation, which result in limited generalization ability on real-world images. In this paper, we investigate the domain gap issue between composite images and real-world images systematically by conducting comprehensive analyses of various discrepancies between foreground and background images. We find that a carefully designed composition route RSSN that aims to reduce the discrepancies can lead to a better model with remarkable generalization ability. Furthermore, we provide a benchmark containing 2,000 high-resolution real-world animal images and 10,000 portrait images along with their manually labeled alpha mattes to serve as a test bed for evaluating matting model's generalization ability on real-world images. Comprehensive empirical studies have demonstrated that GFM outperforms state-of-the-art methods and effectively reduces the generalization error. The code and the dataset will be released.
updated: Sun Jul 11 2021 09:00:53 GMT+0000 (UTC)
published: Fri Oct 30 2020 10:57:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト