arXiv reaDer
コンテキスト メモリを使用したオンライン テキスト拡張によるストーリーの視覚化
Story Visualization by Online Text Augmentation with Context Memory
ストーリービジュアライゼーション (SV) は、テキストから画像への生成タスクであり、テキストの説明から視覚的な詳細をレンダリングするだけでなく、複数の文にわたる長期的なコンテキストをエンコードすることも難しいため、困難です。これまでの取り組みは主に、文ごとに意味的に関連する画像を生成することに焦点を当てていましたが、特定の段落全体に広がるコンテキストをエンコードして、文脈的に説得力のある画像(たとえば、正しい文字や適切なシーンの背景を含む)を生成することは依然として課題です。この目的を達成するために、推論時の言語バリエーションをよりよく一般化するために、トレーニング中に補助的な監視として複数の疑似記述を生成するオンライン テキスト拡張機能を備えた、双方向トランスフォーマー フレームワーク用の新しいメモリ アーキテクチャを提案します。 2 つの一般的な SV ベンチマーク、つまり Pororo-SV と Flintstones-SV に関する広範な実験では、提案された手法は、FID、キャラクター F1、フレーム精度、BLEU-2/3、および計算の複雑さは同等かそれ以下の R 精度。
Story visualization (SV) is a challenging text-to-image generation task for the difficulty of not only rendering visual details from the text descriptions but also encoding a long-term context across multiple sentences. While prior efforts mostly focus on generating a semantically relevant image for each sentence, encoding a context spread across the given paragraph to generate contextually convincing images (e.g., with a correct character or with a proper background of the scene) remains a challenge. To this end, we propose a novel memory architecture for the Bi-directional Transformer framework with an online text augmentation that generates multiple pseudo-descriptions as supplementary supervision during training for better generalization to the language variation at inference. In extensive experiments on the two popular SV benchmarks, i.e., the Pororo-SV and Flintstones-SV, the proposed method significantly outperforms the state of the arts in various metrics including FID, character F1, frame accuracy, BLEU-2/3, and R-precision with similar or less computational complexity.
updated: Sat Aug 19 2023 07:30:52 GMT+0000 (UTC)
published: Tue Aug 15 2023 05:08:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト