ビジョンと自然言語の橋渡しは、コンピュータビジョンとマルチメディア研究における長年の目標です。以前の作品はビジュアルコンテンツの単一文の説明の生成に重点を置いていましたが、最近の作品は段落の生成について研究しています。この作品では、長いビデオの一貫した簡潔なストーリーを生成することを目的としたビデオストーリーテリングの問題を紹介します。ビデオストーリーテリングは、主にストーリーの多様性とビデオの長さと複雑さのために、新しい課題をもたらします。課題に対処する新しい方法を提案します。最初に、マルチモーダル埋め込み学習のコンテキスト対応フレームワークを提案します。ここでは、過去と未来のコンテキスト情報を活用するための残余双方向リカレントニューラルネットワークを設計します。次に、基礎となるストーリーラインを発見するためのナレーターモデルを提案します。ナレーターは、生成されたストーリーのテキストメトリックを直接最適化することによってトレーニングされる強化学習エージェントとして作成されます。調査を可能にするために収集した新しいデータセットであるビデオストーリーデータセットでメソッドを評価します。私たちの方法を複数の最先端のベースラインと比較し、定量的測定とユーザー調査の観点から、この方法がより良いパフォーマンスを達成することを示します。
Bridging vision and natural language is a longstanding goal in computer vision and multimedia research. While earlier works focus on generating a single-sentence description for visual content, recent works have studied paragraph generation. In this work, we introduce the problem of video storytelling, which aims at generating coherent and succinct stories for long videos. Video storytelling introduces new challenges, mainly due to the diversity of the story and the length and complexity of the video. We propose novel methods to address the challenges. First, we propose a context-aware framework for multimodal embedding learning, where we design a Residual Bidirectional Recurrent Neural Network to leverage contextual information from past and future. Second, we propose a Narrator model to discover the underlying storyline. The Narrator is formulated as a reinforcement learning agent which is trained by directly optimizing the textual metric of the generated story. We evaluate our method on the Video Story dataset, a new dataset that we have collected to enable the study. We compare our method with multiple state-of-the-art baselines, and show that our method achieves better performance, in terms of quantitative measures and user study.