arXiv reaDer
階層的およびプログレッシブ イメージ マッティング
Hierarchical and Progressive Image Matting
ほとんどのマッティング研究は、高品質のアルファ マットを実現するために高度なセマンティクスに頼っており、アルファの詳細を補完するために、直接的な低レベルの機能の組み合わせが通常調査されています。ただし、外観にとらわれない統合は偏った前景の詳細しか提供できず、アルファマットはピクセル単位の不透明度の認識を向上させるために異なるレベルの機能集約を必要とすると主張します。この論文では、追加の入力なしで単一のRGB画像から前景の不透明度をより適切に予測できる、エンドツーエンドの階層的およびプログレッシブアテンションマッティングネットワーク(HAttMatting ++)を提案します。具体的には、チャネルごとの注意を利用してピラミッド型の特徴を抽出し、さまざまなレベルで空間的注意を使用して外観の手がかりをフィルタリングします。このプログレッシブ アテンション メカニズムは、適応セマンティクスとセマンティクスが示す境界からアルファ マットを推定できます。また、構造的類似性 (SSIM)、平均二乗誤差 (MSE)、敵対的損失、セントリー監視を融合したハイブリッド損失関数を導入して、ネットワークを誘導し、フォアグラウンド構造全体をさらに改善します。さらに、59、600 のトレーニング画像と 1000 のテスト画像 (合計 646 の異なる前景アルファ マット) で構成される大規模で挑戦的な画像マット データセットを構築します。これにより、階層的でプログレッシブな集約モデルの堅牢性をさらに向上させることができます。広範な実験により、提案された HAttMatting++ が洗練された前景構造をキャプチャし、単一の RGB 画像を入力として最先端のパフォーマンスを実現できることが実証されています。
Most matting researches resort to advanced semantics to achieve high-quality alpha mattes, and direct low-level features combination is usually explored to complement alpha details. However, we argue that appearance-agnostic integration can only provide biased foreground details and alpha mattes require different-level feature aggregation for better pixel-wise opacity perception. In this paper, we propose an end-to-end Hierarchical and Progressive Attention Matting Network (HAttMatting++), which can better predict the opacity of the foreground from single RGB images without additional input. Specifically, we utilize channel-wise attention to distill pyramidal features and employ spatial attention at different levels to filter appearance cues. This progressive attention mechanism can estimate alpha mattes from adaptive semantics and semantics-indicated boundaries. We also introduce a hybrid loss function fusing Structural SIMilarity (SSIM), Mean Square Error (MSE), Adversarial loss, and sentry supervision to guide the network to further improve the overall foreground structure. Besides, we construct a large-scale and challenging image matting dataset comprised of 59, 600 training images and 1000 test images (a total of 646 distinct foreground alpha mattes), which can further improve the robustness of our hierarchical and progressive aggregation model. Extensive experiments demonstrate that the proposed HAttMatting++ can capture sophisticated foreground structures and achieve state-of-the-art performance with single RGB images as input.
updated: Thu Oct 13 2022 11:16:49 GMT+0000 (UTC)
published: Thu Oct 13 2022 11:16:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト