現代の機械学習の公然の秘密は、多くのモデルが標準ベンチマークで美しく機能するが、ラボの外で一般化できないことです。これは、バイアスされたトレーニングデータに起因しており、実世界のイベントに対するカバレッジが不十分です。生成モデルも例外ではありませんが、生成的敵対ネットワーク(GAN)の最近の進歩はそうではないことを示唆しています。これらのモデルは驚くほどリアルで多様な画像を合成できるようになりました。写真の生成モデリングは解決された問題ですか?現在のGANは標準のデータセットに非常によく適合することができますが、視覚的な多様体の包括的なモデルであることにまだ欠けています。特に、カメラの動きや色の変化などの単純な変換に適合する能力を研究しています。モデルは、トレーニング対象のデータセット(たとえば、中心のオブジェクト)のバイアスを反映しますが、一般化のための能力も示します。潜在空間で「ステアリング」することにより、現実を作成しながら分布をシフトできます。画像。分布シフトの程度は、トレーニングデータの分布の幅に関連していると仮定します。したがって、GAN変換の限界を定量化するための実験を行い、問題を軽減するための手法を導入します。コードはプロジェクトページで公開されています:https://ali-design.github.io/gan_steerability/
An open secret in contemporary machine learning is that many models work beautifully on standard benchmarks but fail to generalize outside the lab. This has been attributed to biased training data, which provide poor coverage over real world events. Generative models are no exception, but recent advances in generative adversarial networks (GANs) suggest otherwise - these models can now synthesize strikingly realistic and diverse images. Is generative modeling of photos a solved problem? We show that although current GANs can fit standard datasets very well, they still fall short of being comprehensive models of the visual manifold. In particular, we study their ability to fit simple transformations such as camera movements and color changes. We find that the models reflect the biases of the datasets on which they are trained (e.g., centered objects), but that they also exhibit some capacity for generalization: by "steering" in latent space, we can shift the distribution while still creating realistic images. We hypothesize that the degree of distributional shift is related to the breadth of the training data distribution. Thus, we conduct experiments to quantify the limits of GAN transformations and introduce techniques to mitigate the problem. Code is released on our project page: https://ali-design.github.io/gan_steerability/