Visual-Relation Conscious Image Generation from Structured-Text
視覚的関係レイアウトモジュールとGANのピラミッド、つまりスタッキングGANで構成される、所定の構造化テキストから画像を生成するためのエンドツーエンドネットワークを提案します。ビジュアルリレーションレイアウトモジュールは、構造化テキスト内のエンティティ間のリレーションを、包括的な使用法と個別の使用法の2つの方法で使用しています。使用可能なすべての関係を包括的に使用して、すべてのエンティティの初期境界ボックスをローカライズします。また、個別のリレーションを個別に使用して、入力テキストのすべてのリレーションの最初のバウンディングボックスリレーションユニットを予測します。次に、すべてのリレーションユニットを統合して、視覚的なリレーションレイアウト、つまりすべてのエンティティの境界ボックスを生成します。これにより、関連するリレーションを維持しながら、各エンティティが各エンティティに一意に対応します。私たちの視覚的関係レイアウトは、入力テキストで与えられたシーン構造を反映しています。スタッキングGANは、視覚的関係レイアウトと前のGANの出力に条件付けられた3つのGANのスタックであり、一貫してシーン構造をキャプチャします。私たちのネットワークは、シーンの構造を維持しながら、エンティティの詳細を高解像度でリアルにレンダリングします。 2つの公開データセットの実験結果は、最先端の方法に対する私たちの方法のアウトパフォーマンスを示しています。
We propose an end-to-end network for image generation from given structured-text that consists of the visual-relation layout module and the pyramid of GANs, namely stacking-GANs. Our visual-relation layout module uses relations among entities in the structured-text in two ways: comprehensive usage and individual usage. We comprehensively use all available relations together to localize initial bounding-boxes of all the entities. We also use individual relation separately to predict from the initial bounding-boxes relation-units for all the relations in the input text. We then unify all the relation-units to produce the visual-relation layout, i.e., bounding-boxes for all the entities so that each of them uniquely corresponds to each entity while keeping its involved relations. Our visual-relation layout reflects the scene structure given in the input text. The stacking-GANs is the stack of three GANs conditioned on the visual-relation layout and the output of previous GAN, consistently capturing the scene structure. Our network realistically renders entities' details in high resolution while keeping the scene structure. Experimental results on two public datasets show outperformances of our method against state-of-the-art methods.
updated: Sat Jul 18 2020 05:26:53 GMT+0000 (UTC)
published: Mon Aug 05 2019 17:33:00 GMT+0000 (UTC)
