arXiv reaDer
チャネル認識を使用したクラス条件付きGANの解釈
Interpreting Class Conditional GANs with Channel Awareness
生成的敵対的ネットワーク(GAN)のメカニズムを理解することは、ダウンストリームアプリケーションでGANをより適切に使用するのに役立ちます。既存の取り組みは主に無条件モデルの解釈を対象としており、条件付きGANがさまざまなカテゴリに関する画像のレンダリングをどのように学習するかについてはあまり検討されていません。この作業は、クラス条件付きジェネレーターが複数のクラスの合成をどのように統合するかを調査することにより、このギャップを埋めます。この目的のために、広く使用されているクラス条件付きバッチ正規化(CCBN)に飛び込み、さまざまなカテゴリの埋め込みが与えられると、各機能チャネルがさまざまな程度でアクティブ化されることを確認します。このような現象を説明するために、単一のチャネルが最終的な合成にどのように寄与するかを定量的に特徴付けるチャネル認識を提案します。 ImageNetで事前トレーニングされたBigGANモデルの広範な評価と分析により、特定のカテゴリの生成に主に関与するのはチャネルのサブセットのみであり、類似のカテゴリ(猫や犬など)は通常、同じチャネルに関連していることがわかります。チャネルは、すべてのクラス間で情報を共有することが判明しました。適切な方法として、私たちのアルゴリズムは、条件付きGANを使用したいくつかの新しいアプリケーションを可能にします。具体的には、(1)1つのチャンネルを変更するだけで、(1)用途の広い画像編集を実現し、(2)2つの異なるクラスを調和的にハイブリッド化することができます。さらに、提案されたチャネル認識が、(3)合成された画像のセグメント化、および(4)カテゴリごとの合成パフォーマンスの評価において有望な可能性を示していることを確認します。
Understanding the mechanism of generative adversarial networks (GANs) helps us better use GANs for downstream applications. Existing efforts mainly target interpreting unconditional models, leaving it less explored how a conditional GAN learns to render images regarding various categories. This work fills in this gap by investigating how a class conditional generator unifies the synthesis of multiple classes. For this purpose, we dive into the widely used class-conditional batch normalization (CCBN), and observe that each feature channel is activated at varying degrees given different categorical embeddings. To describe such a phenomenon, we propose channel awareness, which quantitatively characterizes how a single channel contributes to the final synthesis. Extensive evaluations and analyses on the BigGAN model pre-trained on ImageNet reveal that only a subset of channels is primarily responsible for the generation of a particular category, similar categories (e.g., cat and dog) usually get related to some same channels, and some channels turn out to share information across all classes. For good measure, our algorithm enables several novel applications with conditional GANs. Concretely, we achieve (1) versatile image editing via simply altering a single channel and manage to (2) harmoniously hybridize two different classes. We further verify that the proposed channel awareness shows promising potential in (3) segmenting the synthesized image and (4) evaluating the category-wise synthesis performance.
updated: Mon Mar 21 2022 17:53:22 GMT+0000 (UTC)
published: Mon Mar 21 2022 17:53:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト