arXiv reaDer
AlphaGAN: Fully Differentiable Architecture Search for Generative Adversarial Networks
生成的敵対的ネットワーク(GAN)はミニマックスゲームの問題として定式化され、ジェネレーターは、弁別子に対する敵対的学習によって、実際のデータ分布にアプローチしようとします。本質的な問題の複雑さは、生成ネットワークのパフォーマンスを向上させるという課題をもたらします。この作業では、自動アーキテクチャ検索の最近の進歩をGANに組み込むことにより、ネットワークアーキテクチャの観点からモデル学習を後押しすることを目指しています。この目的のために、alphaGANと呼ばれる、生成的敵対ネットワークのための完全に区別可能な検索フレームワークを提案します。検索プロセスは、2レベルのミニマックス最適化問題を解決するものとして形式化されています。この場合、外部レベルの目的は、ジェネレーターで条件付けされた純粋なナッシュ均衡に向けた適切なネットワークアーキテクチャと、従来のGAN損失で最適化された弁別器ネットワークパラメーターを探すことを目的としています。内部レベル。全体の最適化では、2レベルの目的を完全に区別可能な方法で交互に最小化することにより1次の方法を実行し、巨大な検索スペースでアーキテクチャ検索を完了できるようにします。 CIFAR-10およびSTL-10データセットでの広範な実験は、私たちのアルゴリズムが、およそ2で構成される検索スペースで単一のGPUで3 GPU時間でのみ高性能アーキテクチャを取得できることを示しています。 1011の可能な構成。また、検索プロセスの動作と検索されたアーキテクチャのプロパティに関する包括的な分析も提供します。これは、生成モデルのアーキテクチャに関するさらなる研究に役立ちます。事前トレーニング済みのモデルとコードは、で入手できます。
Generative Adversarial Networks (GANs) are formulated as minimax game problems, whereby generators attempt to approach real data distributions by virtue of adversarial learning against discriminators. The intrinsic problem complexity poses the challenge to enhance the performance of generative networks. In this work, we aim to boost model learning from the perspective of network architectures, by incorporating recent progress on automated architecture search into GANs. To this end, we propose a fully differentiable search framework for generative adversarial networks, dubbed alphaGAN. The searching process is formalized as solving a bi-level minimax optimization problem, in which the outer-level objective aims for seeking a suitable network architecture towards pure Nash Equilibrium conditioned on the generator and the discriminator network parameters optimized with a traditional GAN loss in the inner level. The entire optimization performs a first-order method by alternately minimizing the two-level objective in a fully differentiable manner, enabling architecture search to be completed in an enormous search space. Extensive experiments on CIFAR-10 and STL-10 datasets show that our algorithm can obtain high-performing architectures only with 3-GPU hours on a single GPU in the search space comprised of approximate 2 ? 1011 possible configurations. We also provide a comprehensive analysis on the behavior of the searching process and the properties of searched architectures, which would benefit further research on architectures for generative models. Pretrained models and codes are available at
updated: Sat Aug 07 2021 07:53:29 GMT+0000 (UTC)
published: Tue Jun 16 2020 13:27:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト