arXiv reaDer
セマンティック画像合成のための増強および評価スキームの改善
Improving Augmentation and Evaluation Schemes for Semantic Image Synthesis
データ拡張はディープニューラルネットワークのパフォーマンスを向上させるための事実上の手法ですが、生成的敵対的ネットワーク(GAN)の拡張戦略の開発にはほとんど注意が払われていません。この目的のために、GANベースのセマンティック画像合成モデル用に特別に設計された新しい拡張スキームを紹介します。ジェネレータへの入力として使用されるセマンティックラベルマップでオブジェクトの形状をランダムにワープすることを提案します。ワープされたラベルマップとワープされていないラベルマップおよび画像の間の局所的な形状の不一致により、GANはシーンの構造的および幾何学的詳細をよりよく学習し、生成された画像の品質を向上させることができます。拡張GANモデルを対応するバニラに対してベンチマークしている間、以前のセマンティック画像合成研究で報告された定量化メトリックは、外部の事前トレーニング済みセグメンテーションネットワークを介して導出されるため、特定のセマンティッククラスに強く偏っていることを発見しました。したがって、特定のセグメンテーションネットワークのバイアスクラスとバイアスクラスで生成された画像のパフォーマンスを個別に分析することにより、確立されたセマンティック画像合成評価スキームを改善することを提案します。最後に、3つの異なるデータセットにわたる最先端のセマンティック画像合成モデルを使用して、両方のクラス分割で、拡張スキームで得られた強力な定量的および定性的な改善を示します。 COCO-Stuff、ADE20K、Cityscapesのデータセット全体で平均して、拡張モデルはバニラモデルよりも最大3mIoUおよび最大10FIDポイント優れています。
Despite data augmentation being a de facto technique for boosting the performance of deep neural networks, little attention has been paid to developing augmentation strategies for generative adversarial networks (GANs). To this end, we introduce a novel augmentation scheme designed specifically for GAN-based semantic image synthesis models. We propose to randomly warp object shapes in the semantic label maps used as an input to the generator. The local shape discrepancies between the warped and non-warped label maps and images enable the GAN to learn better the structural and geometric details of the scene and thus to improve the quality of generated images. While benchmarking the augmented GAN models against their vanilla counterparts, we discover that the quantification metrics reported in the previous semantic image synthesis studies are strongly biased towards specific semantic classes as they are derived via an external pre-trained segmentation network. We therefore propose to improve the established semantic image synthesis evaluation scheme by analyzing separately the performance of generated images on the biased and unbiased classes for the given segmentation network. Finally, we show strong quantitative and qualitative improvements obtained with our augmentation scheme, on both class splits, using state-of-the-art semantic image synthesis models across three different datasets. On average across COCO-Stuff, ADE20K and Cityscapes datasets, the augmented models outperform their vanilla counterparts by ~3 mIoU and ~10 FID points.
updated: Tue Dec 08 2020 16:22:06 GMT+0000 (UTC)
published: Wed Nov 25 2020 10:55:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト