arXiv reaDer
高解像度のまばらな注意を伴うセマンティックレイアウト操作
Semantic Layout Manipulation with High-Resolution Sparse Attention
セマンティックラベルマップを編集して入力画像を操作することを目的としたセマンティック画像レイアウト操作の問題に取り組んでいます。このタスクの中心的な問題は、結果の画像を視覚的にリアルにしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。クロスドメイン対応の学習に関する最近の研究は、密な注意ベースのワーピングを伴うグローバルレイアウト転送の有望な結果を示しています。ただし、この方法では、対応する画像や歪んだ画像の滑らかさと解像度が不足しているため、テクスチャの詳細が失われる傾向があります。このパラダイムをレイアウト操作タスクに適合させるために、最大512x512の解像度で視覚的な詳細を新しいレイアウトに効果的に転送する高解像度のスパースアテンションモジュールを提案します。視覚的な品質をさらに向上させるために、セマンティックエンコーダーと粗い合成から細かい合成のための2段デコーダーで構成される新しいジェネレーターアーキテクチャを紹介します。 ADE20kおよびPlaces365データセットでの実験は、提案されたアプローチが既存の修復およびレイアウト操作方法に比べて大幅な改善を達成することを示しています。
We tackle the problem of semantic image layout manipulation, which aims to manipulate an input image by editing its semantic label map. A core problem of this task is how to transfer visual details from the input images to the new semantic layout while making the resulting image visually realistic. Recent work on learning cross-domain correspondence has shown promising results for global layout transfer with dense attention-based warping. However, this method tends to lose texture details due to the lack of smoothness and resolution in the correspondence and warped images. To adapt this paradigm for the layout manipulation task, we propose a high-resolution sparse attention module that effectively transfers visual details to new layouts at a resolution up to 512x512. To further improve visual quality, we introduce a novel generator architecture consisting of a semantic encoder and a two-stage decoder for coarse-to-fine synthesis. Experiments on the ADE20k and Places365 datasets demonstrate that our proposed approach achieves substantial improvements over the existing inpainting and layout manipulation methods.
updated: Mon Dec 14 2020 06:50:43 GMT+0000 (UTC)
published: Mon Dec 14 2020 06:50:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト