arXiv reaDer
GAN圧縮:インタラクティブな条件付きGANの効率的なアーキテクチャ
GAN Compression: Efficient Architectures for Interactive Conditional GANs
条件付き生成敵対ネットワーク(cGAN)は、多くのコンピュータービジョンおよびグラフィックスアプリケーションで制御可能な画像合成を可能にしました。ただし、最近のcGANは、最新の認識CNNよりも1〜2桁多く計算集約的です。たとえば、Gau-GANはイメージごとに281G MACを消費しますが、MobileNet-v3の0.44GMACとは異なり、インタラクティブな展開が困難です。この作業では、cGANのジェネレータの推論時間とモデルサイズを削減するための汎用圧縮フレームワークを提案します。既存のCNN圧縮方法を直接適用すると、GANトレーニングの難しさとジェネレータアーキテクチャの違いにより、パフォーマンスが低下します。これらの課題には2つの方法で対処します。まず、GANトレーニングを安定させるために、元のモデルの複数の中間表現の知識をその圧縮モデルに転送し、不対学習と対学習を統合します。次に、既存のCNN設計を再利用する代わりに、ニューラルアーキテクチャ検索(NAS)を使用して効率的なアーキテクチャを自動的に見つけます。検索プロセスを加速するために、重みの共有により、モデルのトレーニングとアーキテクチャの検索を分離します。実験は、さまざまな監視設定(ペアリングとペアリング解除)、モデルアーキテクチャ、および学習方法(例:pix2pix、GauGAN、CycleGAN)でのメソッドの有効性を示しています。画像品質を損なうことなく、CycleGANの計算を20倍以上、GauGANの計算を9倍削減し、インタラクティブな画像合成の道を開きます。コードとデモは公開されています。
Conditional Generative Adversarial Networks (cGANs) have enabled controllable image synthesis for many computer vision and graphics applications. However, recent cGANs are 1-2 orders of magnitude more computationally-intensive than modern recognition CNNs. For example, Gau-GAN consumes 281G MACs per image, compared to 0.44GMACs for MobileNet-v3, making it difficult for interactive deployment. In this work, we propose a general-purpose compression framework for reducing the inference time and model size of the generator in cGANs. Directly applying existing CNNs compression methods yields poor performance due to the difficulty of GAN training and the differences in generator architectures. We address these challenges in two ways. First, to stabilize the GAN training, we transfer knowledge of multiple intermediate representations of the original model to its compressed model, and unify unpaired and paired learning. Second, instead of reusing existing CNN designs, our method automatically finds efficient architectures via neural architecture search (NAS). To accelerate the search process, we decouple the model training and architecture search via weight sharing. Experiments demonstrate the effectiveness of our method across different supervision settings (paired and unpaired), model architectures, and learning methods (e.g., pix2pix, GauGAN, CycleGAN). Without losing image quality, we reduce the computation of CycleGAN by more than 20x and GauGAN by 9x, paving the way for interactive image synthesis. The code and demo are publicly available.
updated: Wed Dec 16 2020 05:30:02 GMT+0000 (UTC)
published: Thu Mar 19 2020 17:59:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト