arXiv reaDer
TreeGAN:クラス生成を画像生成に組み込む
TreeGAN: Incorporating Class Hierarchy into Image Generation
条件付き画像生成(CIG)は、コンピュータービジョンと機械学習で広く研究されている問題です。クラスを指定すると、CIGはこのクラスの名前を入力として受け取り、このクラスに属する一連のイメージを生成します。既存のCIG作品では、クラスごとに、クラス間の関係を考慮せずに、対応する画像が個別に生成されます。実際のアプリケーションでは、クラスは階層に編成されており、その階層関係は高忠実度の画像を生成するのに役立ちます。この論文では、条件付き画像生成のためにクラス階層を活用することを目指しています。クラス階層を組み込む2つの方法を提案します。事前制御と事後制約です。事前制御では、最初にクラス階層をエンコードし、次にそれを事前条件として条件付きジェネレーターにフィードして画像を生成します。制約後、画像が生成された後、クラス階層との整合性を測定し、整合性スコアを使用してジェネレーターのトレーニングをガイドします。これらの2つのアイデアに基づいて、3つのモジュールで構成されるTreeGANモデルを提案します。(1)クラスの階層構造とそのテキスト名を入力として受け取り、各クラスの埋め込みを学習するクラス階層エンコーダー(CHE)。埋め込みは、クラス間の階層関係をキャプチャします。 (2)CHEが生成したクラスの埋め込みを入力として受け取り、このクラスに属するイメージのセットを生成する条件付きイメージジェネレーター(CIG)。 (3)生成された画像を階層的に分類し、生成された画像がクラス階層と互換性があるかどうかをチェックする整合性チェッカー。整合性スコアは、CIGが階層互換のイメージを生成するようにガイドするために使用されます。さまざまなデータセットの実験により、この手法の効果が実証されています。
Conditional image generation (CIG) is a widely studied problem in computer vision and machine learning. Given a class, CIG takes the name of this class as input and generates a set of images that belong to this class. In existing CIG works, for different classes, their corresponding images are generated independently, without considering the relationship among classes. In real-world applications, the classes are organized into a hierarchy and their hierarchical relationships are informative for generating high-fidelity images. In this paper, we aim to leverage the class hierarchy for conditional image generation. We propose two ways of incorporating class hierarchy: prior control and post constraint. In prior control, we first encode the class hierarchy, then feed it as a prior into the conditional generator to generate images. In post constraint, after the images are generated, we measure their consistency with the class hierarchy and use the consistency score to guide the training of the generator. Based on these two ideas, we propose a TreeGAN model which consists of three modules: (1) a class hierarchy encoder (CHE) which takes the hierarchical structure of classes and their textual names as inputs and learns an embedding for each class; the embedding captures the hierarchical relationship among classes; (2) a conditional image generator (CIG) which takes the CHE-generated embedding of a class as input and generates a set of images belonging to this class; (3) a consistency checker which performs hierarchical classification on the generated images and checks whether the generated images are compatible with the class hierarchy; the consistency score is used to guide the CIG to generate hierarchy-compatible images. Experiments on various datasets demonstrate the effectiveness of our method.
updated: Tue Nov 30 2021 04:29:09 GMT+0000 (UTC)
published: Wed Sep 16 2020 15:06:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト