arXiv reaDer
不変表現学習のための周期的に訓練された敵対的ネットワーク
A Cyclically-Trained Adversarial Network for Invariant Representation Learning
 最近の研究では、ディープニューラルネットワークは、特定のタイプの変換を介して生成される可能性のある敵対的な例に対して脆弱であることを示しています。敵対的な攻撃の望ましいファミリに対して堅牢であることは、変換のファミリに対して不変であることと同じです。次に、不変表現を学習することは、特定のアプリケーションコンテキスト内でこのホワイトペーパーで検討することを達成するための重要な目標として自然に浮上します。具体的には、周期的に訓練された敵対的なネットワークを提案して、画像空間から潜在表現空間へのマッピングを学習し、潜在表現が特定の変動要因(アイデンティティなど)に対して不変になるようにします。学習されたマッピングは、合成された画像が現実的であるだけでなく、指定されていない要因(たとえば、ポーズや照明)についても元の画像と同じ値であり、指定された要因の望ましい値であることを保証します。もつれのない表現学習は2つの潜在空間を必要とします。1つは指定された要素用で、もう1つは指定されていない要素用です。不変表現表現学習で必要な空間は1つだけです。潜在的な空間ではなく、画像空間で変分オートエンコーダーを使用して敵対的なトレーニングを適用することにより、特定の因子への不変性を奨励します。この不変性は、周期的なトレーニングプロセス(前方および後方サイクル)を導入することによって強化されます。また、条件付き生成ネットワークを評価する新しい方法を提案します。これは、実際のイメージとは対照的に、さまざまな変動要因が合成されたイメージからどれだけうまく予測できるかを比較します。定量的に言えば、私たちのアプローチは、アイデンティティ、ポーズ、照明、スタイルなどの要素を持つ3つのデータセットにわたる実験で最先端のパフォーマンスを実現します。私たちの方法は、以前のアプローチと比較して目に見えるアーチファクトがほとんどない、シャープで高品質の合成画像を生成します。
Recent studies show that deep neural networks are vulnerable to adversarial examples which can be generated via certain types of transformations. Being robust to a desired family of adversarial attacks is then equivalent to being invariant to a family of transformations. Learning invariant representations then naturally emerges as an important goal to achieve which we explore in this paper within specific application contexts. Specifically, we propose a cyclically-trained adversarial network to learn a mapping from image space to latent representation space and back such that the latent representation is invariant to a specified factor of variation (e.g., identity). The learned mapping assures that the synthesized image is not only realistic, but has the same values for unspecified factors (e.g., pose and illumination) as the original image and a desired value of the specified factor. Unlike disentangled representation learning, which requires two latent spaces, one for specified and another for unspecified factors, invariant representation learning needs only one such space. We encourage invariance to a specified factor by applying adversarial training using a variational autoencoder in the image space as opposed to the latent space. We strengthen this invariance by introducing a cyclic training process (forward and backward cycle). We also propose a new method to evaluate conditional generative networks. It compares how well different factors of variation can be predicted from the synthesized, as opposed to real, images. In quantitative terms, our approach attains state-of-the-art performance in experiments spanning three datasets with factors such as identity, pose, illumination or style. Our method produces sharp, high-quality synthetic images with little visible artefacts compared to previous approaches.
updated: Thu Apr 16 2020 16:14:12 GMT+0000 (UTC)
published: Fri Jun 21 2019 20:43:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト