arXiv reaDer
テキストから画像への合成のための敵対神経回路網の調査と分類
A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
  テキストから画像への合成とは、キーワードや文章の形で書かれたテキスト記述を、テキストと同様の意味を持つ画像に変換する計算方法を指します。初期の研究では、画像合成は主に単語と画像の相関分析と監視方法を組み合わせて、テキストに一致する視覚コンテンツの最適な配置を見つけました。ディープラーニング(DL)の最近の進歩により、教師なしのディープラーニングメソッドの新しいセット、特に適切にトレーニングされたニューラルネットワークモデルを使用してリアルな視覚画像を生成できるディープ生成モデルがもたらされました。このペーパーでは、テキストから画像への合成の研究領域における最新の開発状況を確認します。私たちの調査では、最初に画像合成とその課題を紹介し、次に生成的敵対ネットワーク(GAN)やディープコンボリューショナルエンコーダーデコーダーニューラルネットワーク(DCNN)などの重要な概念をレビューします。その後、GANベースのテキストから画像への合成を、セマンティックエンハンスメントGAN、解像度エンハンスメントGAN、ダイバーシティエンハンスメントGANS、およびモーションエンハンスメントGANの4つの主要なカテゴリにまとめる分類法を提案します。各グループの主な目的を詳しく説明し、各グループの典型的なGANアーキテクチャをさらにレビューします。分類法とレビューでは、さまざまな手法の手法と進化の概要を説明し、最終的には、GANとDCNNを使用して人間の顔、鳥、花、部屋のインテリアなどのカテゴリーで魅惑的な結果を生成する同時ソリューションのリストを要約する明確なロードマップを提供します、エッジマップ(ゲーム)などからのオブジェクトの再構成。調査は、提案されたソリューションの比較、未解決のままの課題、およびテキストからイメージへの合成ドメインの将来の開発で終了します。
Text-to-image synthesis refers to computational methods which translate human written textual descriptions, in the form of keywords or sentences, into images with similar semantic meaning to the text. In earlier research, image synthesis relied mainly on word to image correlation analysis combined with supervised methods to find best alignment of the visual content matching to the text. Recent progress in deep learning (DL) has brought a new set of unsupervised deep learning methods, particularly deep generative models which are able to generate realistic visual images using suitably trained neural network models. In this paper, we review the most recent development in the text-to-image synthesis research domain. Our survey first introduces image synthesis and its challenges, and then reviews key concepts such as generative adversarial networks (GANs) and deep convolutional encoder-decoder neural networks (DCNN). After that, we propose a taxonomy to summarize GAN based text-to-image synthesis into four major categories: Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANS, and Motion Enhancement GANs. We elaborate the main objective of each group, and further review typical GAN architectures in each group. The taxonomy and the review outline the techniques and the evolution of different approaches, and eventually provide a clear roadmap to summarize the list of contemporaneous solutions that utilize GANs and DCNNs to generate enthralling results in categories such as human faces, birds, flowers, room interiors, object reconstruction from edge maps (games) etc. The survey will conclude with a comparison of the proposed solutions, challenges that remain unresolved, and future developments in the text-to-image synthesis domain.
updated: Mon Oct 21 2019 14:23:14 GMT+0000 (UTC)
published: Mon Oct 21 2019 14:23:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト