マシンビジョンと自然言語処理技術の進歩の恩恵を受けて、現在の画像キャプションシステムは詳細な視覚的記述を生成できます。ほとんどの場合、これらの説明は画像の客観的な特徴を表していますが、一部のモデルには感情などの画像の観察者の視点に関連する主観的な側面が組み込まれています。ただし、現在のモデルでは、通常、キャプション生成プロセス中に画像の感情的な内容を考慮していません。このペーパーでは、顔の表情機能を使用して画像キャプションを生成する新しい画像キャプションモデルを提案することで、この問題に対処しています。モデルは、異なる時間ステップで他の視覚的特徴に加えて顔の特徴を適用する長い短期記憶ネットワークを使用して画像キャプションを生成します。すべての標準的な評価指標を使用して、顔の特徴がある場合とない場合の画像キャプションモデルの包括的なコレクションを比較します。評価指標は、顔の特徴をアテンションメカニズムで適用すると、顔を含む約11Kの画像で構成される標準のFlickr 30Kデータセットから抽出された画像キャプションデータセットで、より表情豊かで相関のある画像キャプションを示す最高のパフォーマンスが得られることを示しています生成されたキャプションを分析すると、おそらく予想外に、キャプションの質の向上は、画像の感情的な側面に関連する形容詞の追加によるものではなく、キャプションで説明されているアクションの多様性によるものであることがわかります。
Benefiting from advances in machine vision and natural language processing techniques, current image captioning systems are able to generate detailed visual descriptions. For the most part, these descriptions represent an objective characterisation of the image, although some models do incorporate subjective aspects related to the observer's view of the image, such as sentiment; current models, however, usually do not consider the emotional content of images during the caption generation process. This paper addresses this issue by proposing novel image captioning models which use facial expression features to generate image captions. The models generate image captions using long short-term memory networks applying facial features in addition to other visual features at different time steps. We compare a comprehensive collection of image captioning models with and without facial features using all standard evaluation metrics. The evaluation metrics indicate that applying facial features with an attention mechanism achieves the best performance, showing more expressive and more correlated image captions, on an image caption dataset extracted from the standard Flickr 30K dataset, consisting of around 11K images containing faces. An analysis of the generated captions finds that, perhaps unexpectedly, the improvement in caption quality appears to come not from the addition of adjectives linked to emotional aspects of the images, but from more variety in the actions described in the captions.