arXiv reaDer
インタラクティブな画像編集のためのシーケンシャルアテンションGAN
Sequential Attention GAN for Interactive Image Editing
既存のテキストからイメージへの合成タスクのほとんどは、イメージの事前定義されたテキスト記述に基づく静的な1回転の生成です。より実用的でインタラクティブな現実のアプリケーションを探索するために、新しいタスク-インタラクティブな画像編集を導入します。これにより、ユーザーは、マルチターンのテキストコマンドをオンザフライで操作して、エージェントに画像を編集させることができます。各セッションで、エージェントはユーザーから自然言語の説明を入力として受け取り、ユーザーの説明に従って、前のターンで生成された画像を新しいデザインに変更します。このシーケンシャルでインタラクティブな画像生成タスクの主な課題は2つあります。1)生成された画像と提供されたテキストによる説明の間のコンテキストの一貫性。 2)各セッションで生成された画像シーケンス全体の視覚的な一貫性を維持するための、段階的なリージョンレベルの変更。これらの課題に対処するために、ニューラルステートトラッカーを適用してシーケンスの各ターンで前のイメージとテキストの説明をエンコードし、GANフレームワークを使用して新しいSequential Attention Generative Adversarial Network(SeqAttnGAN)を提案します。前の画像と一致し、説明と一貫性のある画像の修正バージョン。地域固有の改良を実現するために、モデルに順次注意メカニズムを導入します。新しいタスクのベンチマークとして、Zap-SeqとDeepFashion-Seqの2つの新しいデータセットを導入しました。これらには、ファッション分野でのイメージ記述シーケンスを使用したマルチターンセッションが含まれています。両方のデータセットの実験は、提案されたSeqAttnGANmodelが、視覚的な品質、画像シーケンスの一貫性、テキスト画像の一貫性を含むすべての評価指標にわたってインタラクティブな画像編集タスクの最先端のアプローチよりも優れていることを示しています。
Most existing text-to-image synthesis tasks are static single-turn generation, based on pre-defined textual descriptions of images. To explore more practical and interactive real-life applications, we introduce a new task - Interactive Image Editing, where users can guide an agent to edit images via multi-turn textual commands on-the-fly. In each session, the agent takes a natural language description from the user as the input and modifies the image generated in the previous turn to a new design, following the user description. The main challenges in this sequential and interactive image generation task are two-fold: 1) contextual consistency between a generated image and the provided textual description; 2) step-by-step region-level modification to maintain visual consistency across the generated image sequence in each session. To address these challenges, we propose a novel Sequential Attention Generative Adversarial Net-work (SeqAttnGAN), which applies a neural state tracker to encode the previous image and the textual description in each turn of the sequence, and uses a GAN framework to generate a modified version of the image that is consistent with the preceding images and coherent with the description. To achieve better region-specific refinement, we also introduce a sequential attention mechanism into the model. To benchmark on the new task, we introduce two new datasets, Zap-Seq and DeepFashion-Seq, which contain multi-turn sessions with image-description sequences in the fashion domain. Experiments on both datasets show that the proposed SeqAttnGANmodel outperforms state-of-the-art approaches on the interactive image editing task across all evaluation metrics including visual quality, image sequence coherence, and text-image consistency.
updated: Wed Aug 05 2020 22:13:20 GMT+0000 (UTC)
published: Thu Dec 20 2018 03:55:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト