Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization
テキストから画像への合成については多くの研究が行われていますが、入力テキストの言語構造の使用法を調査するための作業はほとんど行われていません。そのような情報は、その入力が画像シーケンス(またはビジュアルストーリー)に変換される必要がある明示的な物語構造を持っているため、ストーリーの視覚化にとってさらに重要です。この領域での以前の研究は、視覚的品質、一貫性、および関連性の観点から、生成された画像シーケンスに改善の余地が十分にあることを示しています。このホワイトペーパーでは、最初に、構造化入力をエンコードするためのTransformerベースの反復アーキテクチャを使用した構成要素解析ツリーの使用について説明します。次に、構造化された入力を常識的な情報で補強し、この外部知識がビジュアルストーリーの生成に与える影響を調査します。第3に、バウンディングボックスと高密度のキャプションを介して視覚的な構造を組み込み、デュアルラーニングセットアップ内で生成された画像の文字/オブジェクトに関するフィードバックを提供します。 Visual Genomeでトレーニングされた既製の高密度キャプションモデルが、微調整を必要とせずに、異なるターゲットドメインからの画像の空間構造を改善できることを示します。ストーリー内の対照的な損失(単語と画像のサブ領域の間)を使用してモデルをエンドツーエンドでトレーニングし、複数のデータセットのいくつかのメトリック(および人間の評価)で大幅な改善を示します。最後に、言語情報と視覚空間情報の分析を提供します。コードとデータ:。
While much research has been done in text-to-image synthesis, little work has been done to explore the usage of linguistic structure of the input text. Such information is even more important for story visualization since its inputs have an explicit narrative structure that needs to be translated into an image sequence (or visual story). Prior work in this domain has shown that there is ample room for improvement in the generated image sequence in terms of visual quality, consistency and relevance. In this paper, we first explore the use of constituency parse trees using a Transformer-based recurrent architecture for encoding structured input. Second, we augment the structured input with commonsense information and study the impact of this external knowledge on the generation of visual story. Third, we also incorporate visual structure via bounding boxes and dense captioning to provide feedback about the characters/objects in generated images within a dual learning setup. We show that off-the-shelf dense-captioning models trained on Visual Genome can improve the spatial structure of images from a different target domain without needing fine-tuning. We train the model end-to-end using intra-story contrastive loss (between words and image sub-regions) and show significant improvements in several metrics (and human evaluation) for multiple datasets. Finally, we provide an analysis of the linguistic and visuo-spatial information. Code and data:
updated: Thu Oct 21 2021 00:16:02 GMT+0000 (UTC)
published: Thu Oct 21 2021 00:16:02 GMT+0000 (UTC)
