arXiv reaDer
コンテキストアセンブルと強力なデータ拡張による画像マットの堅牢性の向上
Boosting Robustness of Image Matting with Context Assembling and Strong Data Augmentation
ディープイメージマット法は、ベンチマークでますます優れた結果を達成しています(Composition-1k / alphamatting.comなど)。ただし、トライマップへの堅牢性やさまざまなドメインからの画像への一般化などの堅牢性は、まだ十分に検討されていません。一部の作品では、トライマップを改良するか、追加のデータ拡張を介してアルゴリズムを実際の画像に適合させることを提案していますが、これらのデータ拡張を使用している間のベンチマークのパフォーマンスの大幅な低下は言うまでもなく、両方を考慮していません。このギャップを埋めるために、マルチレベルのコンテキストアセンブルと強力なデータ拡張ターゲティングマットを介してより高いロバスト性(RMat)を実現する画像マット手法を提案します。具体的には、最初に、エンコーダーのトランスフォーマーブロックを使用して十分なグローバル情報をモデル化し、畳み込みレイヤーと組み合わせた詳細と、デコーダーのアテンションブロックを組み立てる低レベルの機能に焦点を当てることにより、強力なマットフレームワークを構築します。次に、この強力なベースラインに基づいて、現在のデータ拡張を分析し、ベースラインモデルを強化し、より一般化可能なマット手法に貢献するために、シンプルで効果的な強力なデータ拡張を検討します。以前の方法と比較して、提案された方法は、より小さなモデルサイズでComposition-1kベンチマークで最先端の結果(SADで11%の改善、Gradで27%の改善)を達成するだけでなく、より堅牢な一般化結果も示します他のベンチマーク、実際の画像、および広範な実験による粗いものから細かいものへのさまざまなトライマップについても説明します。
Deep image matting methods have achieved increasingly better results on benchmarks (e.g., Composition-1k/alphamatting.com). However, the robustness, including robustness to trimaps and generalization to images from different domains, is still under-explored. Although some works propose to either refine the trimaps or adapt the algorithms to real-world images via extra data augmentation, none of them has taken both into consideration, not to mention the significant performance deterioration on benchmarks while using those data augmentation. To fill this gap, we propose an image matting method which achieves higher robustness (RMat) via multilevel context assembling and strong data augmentation targeting matting. Specifically, we first build a strong matting framework by modeling ample global information with transformer blocks in the encoder, and focusing on details in combination with convolution layers as well as a low-level feature assembling attention block in the decoder. Then, based on this strong baseline, we analyze current data augmentation and explore simple but effective strong data augmentation to boost the baseline model and contribute a more generalizable matting method. Compared with previous methods, the proposed method not only achieves state-of-the-art results on the Composition-1k benchmark (11% improvement on SAD and 27% improvement on Grad) with smaller model size, but also shows more robust generalization results on other benchmarks, on real-world images, and also on varying coarse-to-fine trimaps with our extensive experiments.
updated: Tue Jan 18 2022 11:45:17 GMT+0000 (UTC)
published: Tue Jan 18 2022 11:45:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト