画像キャプションモデルは、通常、目に見えない概念に一般化する能力ではなく、保持されている一連の画像を記述する能力で評価されます。構図の一般化の問題を研究します。構図の一般化とは、イメージを記述するときに、モデルが見えない概念の組み合わせをどの程度うまく構成するかを測定するものです。最先端の画像キャプションモデルでは、このタスクの一般化パフォーマンスが不十分です。キャプションの生成と画像のランク付けを組み合わせ、パフォーマンスの低下に対処するマルチタスクモデルを提案し、画像との類似性に応じてキャプションを再ランク付けするデコードメカニズムを使用します。このモデルは、最先端のキャプションモデルと比較して、概念の目に見えない組み合わせへの一般化が大幅に向上しています。
Image captioning models are usually evaluated on their ability to describe a held-out set of images, not on their ability to generalize to unseen concepts. We study the problem of compositional generalization, which measures how well a model composes unseen combinations of concepts when describing images. State-of-the-art image captioning models show poor generalization performance on this task. We propose a multi-task model to address the poor performance, that combines caption generation and image--sentence ranking, and uses a decoding mechanism that re-ranks the captions according their similarity to the image. This model is substantially better at generalizing to unseen combinations of concepts compared to state-of-the-art captioning models.