ストーリー ビジュアライゼーションは、完全なストーリーに基づいて複数の画像を生成できるようにすることで、従来のテキストから画像への生成を進化させます。このタスクでは、マシンが 1) 長いテキスト入力を理解し、2) ストーリーの内容を示すグローバルに一貫した画像シーケンスを生成する必要があります。一貫したストーリーのビジュアライゼーションの重要な課題は、ストーリーに不可欠なキャラクターを維持することです。この課題に取り組むために、ベクトル量子化変分オートエンコーダー (VQ-VAE) を text-to-visual-token (トランスフォーマー) アーキテクチャーで増強する最近の研究を適応させることを提案します。具体的には、text-to-visual-token モジュールを次の 2 段階のフレームワークで変更します。1) 文字のみのビジュアル トークンを予測する文字トークン プランニング モデル。 2) 画像生成を完了するために VQ-VAE に送信される、残りのビジュアル トークン シーケンスを生成するビジュアル トークン完了モデル。文字が画像に表示されるようにするために、文字トークンの配置目標を使用して 2 段階のフレームワークをさらにトレーニングします。広範な実験と評価により、提案された方法が文字の保存に優れており、強力なベースラインと比較してより高品質の画像シーケンスを生成できることが実証されています。コードは https://github.com/sairin1202/VP-CSV にあります。
Story visualization advances the traditional text-to-image generation by enabling multiple image generation based on a complete story. This task requires machines to 1) understand long text inputs and 2) produce a globally consistent image sequence that illustrates the contents of the story. A key challenge of consistent story visualization is to preserve characters that are essential in stories. To tackle the challenge, we propose to adapt a recent work that augments Vector-Quantized Variational Autoencoders (VQ-VAE) with a text-tovisual-token (transformer) architecture. Specifically, we modify the text-to-visual-token module with a two-stage framework: 1) character token planning model that predicts the visual tokens for characters only; 2) visual token completion model that generates the remaining visual token sequence, which is sent to VQ-VAE for finalizing image generations. To encourage characters to appear in the images, we further train the two-stage framework with a character-token alignment objective. Extensive experiments and evaluations demonstrate that the proposed method excels at preserving characters and can produce higher quality image sequences compared with the strong baselines. Codes can be found in https://github.com/sairin1202/VP-CSV