高速エンコード、忠実な再構築(例:顔の同一性の保持)、高解像度でのシャープな生成/再構築サンプル、および入力のセマンティック操作をサポートする十分に構造化された潜在空間を提供する生成オートエンコーダーを提供します。現在、これらすべてを十分に達成するオートエンコーダーまたはGANモデルはありません。漸進的に成長するオートエンコーダモデルPIONEERに基づいて構築されています。PIONEERは、最近導入された正規化スキームの慎重な分析に基づいて、トレーニングダイナミクスを完全に変更します。 CelebAHQの顔の同一性の保存について、視覚的および定量的な結果が大幅に改善されていることを示しています。私たちのモデルは、定量的にも現実的な画像属性操作によっても、潜在的な空間の最先端の解きほぐしを実現します。 LSUNベッドルームデータセットでは、より単純なモデルを使用しているにもかかわらず、バニラのパイオニアのもつれを解くパフォーマンスを改善しています。全体的に、私たちの結果は、PIONEERネットワークがフォトリアリスティックな顔の操作への道を提供することを示しています。
We present a generative autoencoder that provides fast encoding, faithful reconstructions (eg. retaining the identity of a face), sharp generated/reconstructed samples in high resolutions, and a well-structured latent space that supports semantic manipulation of the inputs. There are no current autoencoder or GAN models that satisfactorily achieve all of these. We build on the progressively growing autoencoder model PIONEER, for which we completely alter the training dynamics based on a careful analysis of recently introduced normalization schemes. We show significantly improved visual and quantitative results for face identity conservation in CelebAHQ. Our model achieves state-of-the-art disentanglement of latent space, both quantitatively and via realistic image attribute manipulations. On the LSUN Bedrooms dataset, we improve the disentanglement performance of the vanilla PIONEER, despite having a simpler model. Overall, our results indicate that the PIONEER networks provide a way towards photorealistic face manipulation.