arXiv reaDer
生成モデルにおける外観と視点の明示的な解きほぐし
Explicit Disentanglement of Appearance and Perspective in Generative Models
 解きほぐされた表現学習は、データのコンパクトで独立した解釈しやすい要因を見つけます。そのような学習には誘導バイアスが必要であることが示されており、これを画像の生成モデルで明示的にエンコードします。具体的には、2つの潜在空間を持つモデルを提案します。1つは入力データの空間変換を表し、もう1つは変換されたデータを表します。後者はデータの本質的な外観を自然にキャプチャすることがわかります。生成モデルを実現するために、空間トランスフォーマーを変分オートエンコーダーに組み込む変分推論変換オートエンコーダー(VITAE)を提案します。エンコーダーを慎重に設計し、変換クラスを微分同相に制限することにより、モデルで推論を効率的に実行する方法を示します。経験的に、このモデルでは、MNISTで視覚スタイルを数字タイプから分離し、CelebAで顔の形から人体および顔の特徴の形とポーズを分離します。
Disentangled representation learning finds compact, independent and easy-to-interpret factors of the data. Learning such has been shown to require an inductive bias, which we explicitly encode in a generative model of images. Specifically, we propose a model with two latent spaces: one that represents spatial transformations of the input data, and another that represents the transformed data. We find that the latter naturally captures the intrinsic appearance of the data. To realize the generative model, we propose a Variationally Inferred Transformational Autoencoder (VITAE) that incorporates a spatial transformer into a variational autoencoder. We show how to perform inference in the model efficiently by carefully designing the encoders and restricting the transformation class to be diffeomorphic. Empirically, our model separates the visual style from digit type on MNIST, separates shape and pose in images of human bodies and facial features from facial shape on CelebA.
updated: Wed Nov 13 2019 07:18:04 GMT+0000 (UTC)
published: Tue Jun 11 2019 10:24:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト