現在の画像キャプションシステムは、単に説明的なレベルで実行され、基本的にシーン内のオブジェクトとそれらの関係を列挙します。それどころか、人間は世界の事前知識のいくつかの情報源を統合することにより画像を解釈します。この作業では、このようなコンテキスト情報をキャプションパイプラインに統合することで、シーンのもっともらしい解釈を提供するキャプションの作成に一歩近づくことを目指しています。このため、ニュース記事の説明に使用される画像のキャプションに焦点を当てています。画像に関連付けられたニュース記事のテキストによって提供されるコンテキスト情報を活用できる新しいキャプション作成方法を提案します。このモデルは、視覚的な手がかりに基づいて記事から情報を選択的に引き出し、コンテキストソースに表示される語彙外の名前付きエンティティに出力辞書を動的に拡張できます。さらに、文献で最大のニュース画像キャプションデータセットである「GoodNews」を紹介し、最新の結果を示します。
Current image captioning systems perform at a merely descriptive level, essentially enumerating the objects in the scene and their relations. Humans, on the contrary, interpret images by integrating several sources of prior knowledge of the world. In this work, we aim to take a step closer to producing captions that offer a plausible interpretation of the scene, by integrating such contextual information into the captioning pipeline. For this we focus on the captioning of images used to illustrate news articles. We propose a novel captioning method that is able to leverage contextual information provided by the text of news articles associated with an image. Our model is able to selectively draw information from the article guided by visual cues, and to dynamically extend the output dictionary to out-of-vocabulary named entities that appear in the context source. Furthermore we introduce `GoodNews', the largest news image captioning dataset in the literature and demonstrate state-of-the-art results.