フォトリアリスティックな画像生成の品質を犠牲にすることなく、条件付き画像生成オートエンコーダーに必要なテンソル計算を削減する新しいアルゴリズムを提示します。私たちの方法はデバイスに依存せず、汎用ワークステーションでオートエンコーダーをトレーニングするのにかかるほぼ通常の時間で、特定の CPU のみの GPU コンピューティング デバイスのオートエンコーダーを最適化できます。これは、2 段階の斬新な戦略によって達成されます。最初に、使用されるチャネルができるだけ少なくなるように、チャネルの重みを圧縮します。次に、ほぼゼロになった重みのアクティベーションを削除し、オートエンコーダーを微調整します。画質を維持するために、学生と教師のトレーニングを通じて微調整が行われ、圧縮されたオートエンコーダーが教師として再利用されます。顔画像へのセグメンテーション マスク、顔画像から漫画化、最後に複数のコンピューティング デバイスでの CycleGAN ベースのモデルなど、さまざまな条件付き画像生成タスクのパフォーマンスの向上を示します。主張と設計の選択を正当化するためにさまざまなアブレーション研究を実施し、画質を維持しながら CPU のみのデバイスでさまざまなオートエンコーダーのリアルタイム バージョンを実現し、そのようなオートエンコーダーの大規模な展開を可能にします。
We present a novel algorithm to reduce tensor compute required by a conditional image generation autoencoder without sacrificing quality of photo-realistic image generation. Our method is device agnostic, and can optimize an autoencoder for a given CPU-only, GPU compute device(s) in about normal time it takes to train an autoencoder on a generic workstation. We achieve this via a two-stage novel strategy where, first, we condense the channel weights, such that, as few as possible channels are used. Then, we prune the nearly zeroed out weight activations, and fine-tune the autoencoder. To maintain image quality, fine-tuning is done via student-teacher training, where we reuse the condensed autoencoder as the teacher. We show performance gains for various conditional image generation tasks: segmentation mask to face images, face images to cartoonization, and finally CycleGAN-based model over multiple compute devices. We perform various ablation studies to justify the claims and design choices, and achieve real-time versions of various autoencoders on CPU-only devices while maintaining image quality, thus enabling at-scale deployment of such autoencoders.