条件付きテキストから画像への生成は、多くの可能性のあるアプリケーションとともに、研究の活発な分野です。既存の研究は、主に、1ステップで利用可能な調整情報から単一の画像を生成することに焦点を合わせてきました。ワンステップ生成を超えた実用的な拡張の1つは、進行中の言語入力またはフィードバックに基づいて、画像を繰り返し生成するシステムです。このようなシステムは、フィードバック履歴、現在のフィードバック、およびフィードバック履歴に存在する概念間の相互作用に関して、生成された画像の内容を理解する必要があるため、これはワンステップ生成タスクよりもはるかに困難です。この作業では、現在のステップまでの生成された出力と、生成のための過去のすべての指示の両方を考慮した反復画像生成モデルを提示します。モデルが背景を生成し、新しいオブジェクトを追加し、既存のオブジェクトに単純な変換を適用できることを示します。私たちのアプローチは、インタラクティブな世代に向けた重要なステップであると考えています。コードとデータは、https://www.microsoft.com/en-us/research/project/generative-neural-visual-artist-geneva/で入手できます。
Conditional text-to-image generation is an active area of research, with many possible applications. Existing research has primarily focused on generating a single image from available conditioning information in one step. One practical extension beyond one-step generation is a system that generates an image iteratively, conditioned on ongoing linguistic input or feedback. This is significantly more challenging than one-step generation tasks, as such a system must understand the contents of its generated images with respect to the feedback history, the current feedback, as well as the interactions among concepts present in the feedback history. In this work, we present a recurrent image generation model which takes into account both the generated output up to the current step as well as all past instructions for generation. We show that our model is able to generate the background, add new objects, and apply simple transformations to existing objects. We believe our approach is an important step toward interactive generation. Code and data is available at: https://www.microsoft.com/en-us/research/project/generative-neural-visual-artist-geneva/ .