Generative Adversarial Networks (GAN) の約束は、自動運転における AI モデルのトレーニングと検証のためのフォトリアリスティックなデータを安価に提供することです。大成功にもかかわらず、複数の物体を特徴とする複雑な画像に対するパフォーマンスは十分に研究されていません。画像コンテンツをほとんどまたはまったく制御せずに高品質のストリート シーンを生成するフレームワークもありますが、高品質の生成を犠牲にしてより詳細な制御を提供するフレームワークもあります。両方のアプローチに共通する制限は、画像全体にグローバル潜在コードを使用することであり、これにより独立したオブジェクト分布の学習が妨げられます。人間の顔の生成における潜在空間のもつれ解除に関する最近の研究である SemanticStyleGAN (SSG) を動機として、都市シーンの生成と操作のための新しいフレームワーク Urban-StyleGAN を提案します。都市のシーンは人間の顔よりも複雑であるため、SSG を単純に適用すると結果が悪くなることがわかりました。よりコンパクトでありながらもつれの解けた潜在表現を提供するために、個々のクラスがスーパークラスにグループ化されるクラス グループ化戦略を開発します。さらに、生成器の S 空間で教師なし潜在探索アルゴリズムを採用し、画像コンテンツの制御において従来の W^+ 空間よりも効率的であることを示します。都市景観と地図データセットの結果は、提案されたアプローチが都市シーンに対する以前のアプローチよりも大幅に優れた制御性と向上した画質を達成し、品質の点で汎用の制御不可能な生成モデル (StyleGAN2 など) と同等であることを示しています。
A promise of Generative Adversarial Networks (GANs) is to provide cheap photorealistic data for training and validating AI models in autonomous driving. Despite their huge success, their performance on complex images featuring multiple objects is understudied. While some frameworks produce high-quality street scenes with little to no control over the image content, others offer more control at the expense of high-quality generation. A common limitation of both approaches is the use of global latent codes for the whole image, which hinders the learning of independent object distributions. Motivated by SemanticStyleGAN (SSG), a recent work on latent space disentanglement in human face generation, we propose a novel framework, Urban-StyleGAN, for urban scene generation and manipulation. We find that a straightforward application of SSG leads to poor results because urban scenes are more complex than human faces. To provide a more compact yet disentangled latent representation, we develop a class grouping strategy wherein individual classes are grouped into super-classes. Moreover, we employ an unsupervised latent exploration algorithm in the S-space of the generator and show that it is more efficient than the conventional W^+-space in controlling the image content. Results on the Cityscapes and Mapillary datasets show the proposed approach achieves significantly more controllability and improved image quality than previous approaches on urban scenes and is on par with general-purpose non-controllable generative models (like StyleGAN2) in terms of quality.