Variational Hetero-Encoder Randomized GANs for Joint Image-Text Modeling
 双方向ジョイントイメージテキストモデリングのために、確率的テキストデコーダー、確率的イメージエンコーダー、およびGANをコヒーレントなエンドツーエンドに統合する多用途の深い生成モデルである、変分ヘテロエンコーダー(VHE)ランダム化生成的敵対ネットワーク(GAN)を開発しますマルチモダリティ学習フレームワークを終了します。 VHEランダム化GAN(VHE-GAN)は、関連するテキストをデコードするために画像をエンコードし、ランダム性のソースとして変分後部をGAN画像ジェネレーターに送ります。ディープトピックモデル、ラダー構造の画像エンコーダー、StackGAN ++を含む3つの既成モジュールをVHE-GANに接続します。これにより、すでに競争力のあるパフォーマンスを実現しています。これにより、マルチスケールの低解像度から高解像度の方法だけでなく、階層セマンティックの粗から密の方法でフォトリアリスティックな画像を生成するVHE-raster-scan-GANの開発がさらに促進されます。 VHE-raster-scan-GANは、階層的なセマンティックおよび視覚の概念をキャプチャしてエンドツーエンドのトレーニングと関連付けることにより、さまざまな画像テキストマルチモダリティ学習および生成タスクで最先端のパフォーマンスを実現します。
For bidirectional joint image-text modeling, we develop variational hetero-encoder (VHE) randomized generative adversarial network (GAN), a versatile deep generative model that integrates a probabilistic text decoder, probabilistic image encoder, and GAN into a coherent end-to-end multi-modality learning framework. VHE randomized GAN (VHE-GAN) encodes an image to decode its associated text, and feeds the variational posterior as the source of randomness into the GAN image generator. We plug three off-the-shelf modules, including a deep topic model, a ladder-structured image encoder, and StackGAN++, into VHE-GAN, which already achieves competitive performance. This further motivates the development of VHE-raster-scan-GAN that generates photo-realistic images in not only a multi-scale low-to-high-resolution manner, but also a hierarchical-semantic coarse-to-fine fashion. By capturing and relating hierarchical semantic and visual concepts with end-to-end training, VHE-raster-scan-GAN achieves state-of-the-art performance in a wide variety of image-text multi-modality learning and generation tasks.
updated: Tue Jan 07 2020 20:51:34 GMT+0000 (UTC)
published: Sat May 18 2019 13:58:12 GMT+0000 (UTC)
