視覚的なストーリーテリングの主な課題の1つは、人間のようなストーリーを生成するために、長いイベントシーケンスにわたってストーリーのコンテキストを維持できる技術を開発することです。この論文では、この問題に対処するために、エンコーダーデコーダーネットワークに基づく階層的な深層学習アーキテクチャを提案します。ネットワークがこのコンテキストを維持し、長く多様な文を生成しやすくするために、自然言語の画像記述と画像自体を組み込んで、各ストーリー文を生成します。ビジュアルストーリーテリング(VIST)データセットでシステムを評価し、この方法が一連の異なる自動評価指標で最先端の技術より優れていることを示します。この評価からの経験的な結果は、提案されたアーキテクチャのさまざまなコンポーネントの必要性を示し、視覚的なストーリーテリングのためのアーキテクチャの有効性を示しています。
One of the primary challenges of visual storytelling is developing techniques that can maintain the context of the story over long event sequences to generate human-like stories. In this paper, we propose a hierarchical deep learning architecture based on encoder-decoder networks to address this problem. To better help our network maintain this context while also generating long and diverse sentences, we incorporate natural language image descriptions along with the images themselves to generate each story sentence. We evaluate our system on the Visual Storytelling (VIST) dataset and show that our method outperforms state-of-the-art techniques on a suite of different automatic evaluation metrics. The empirical results from this evaluation demonstrate the necessities of different components of our proposed architecture and shows the effectiveness of the architecture for visual storytelling.