視覚から言語へのシーケンシャルな視覚的ストーリーテリングは、最近、コンピュータービジョンおよび言語モデリングの分野における重点分野の1つです。既存のモデルは主観的に読みやすい物語を生成しますが、これらのモデルは、画像シーケンス内のすべての予想される人間および動物のキャラクターを説明し対処するストーリーの生成を逃す場合があります。このシナリオを考慮して、提供されたキャラクター間の関係を暗黙的に学習し、それによってスコープ内の各キャラクターでストーリーを生成するモデルを提案します。この目的でVISTデータセットを使用し、データセットに関する多数の統計情報を報告します。最終的に、モデルについて説明し、実験について説明し、現在の状況と今後の作業について説明します。
Sequential vision-to-language or visual storytelling has recently been one of the areas of focus in computer vision and language modeling domains. Though existing models generate narratives that read subjectively well, there could be cases when these models miss out on generating stories that account and address all prospective human and animal characters in the image sequences. Considering this scenario, we propose a model that implicitly learns relationships between provided characters and thereby generates stories with respective characters in scope. We use the VIST dataset for this purpose and report numerous statistics on the dataset. Eventually, we describe the model, explain the experiment and discuss our current status and future work.