画像キャプション モデルには、さまざまな画像の内容を言葉で説明する高度な一般化機能が必要です。ほとんどの既存のアプローチは、学習困難の違いを考慮せずに、トレーニングで画像とキャプションのペアを同等に扱います。いくつかの画像キャプション アプローチでは、難易度の高いトレーニング データを提示するカリキュラム学習方法が導入されています。ただし、それらの難易度の測定は、ドメイン固有の機能または以前のモデル トレーニングに基づいています。この論文では、事前訓練された視覚言語モデルによって計算されたクロスモーダル類似性を使用して、画像キャプションのシンプルかつ効率的な難易度測定を提案します。 COCO および Flickr30k データセットでの実験では、提案されたアプローチが、ヒューリスティックを必要とせず、追加のトレーニング コストを発生させることなく、優れたパフォーマンスとベースラインへの競争力のある収束速度を達成することが示されています。さらに、難しい例や目に見えないデータに対するモデルのパフォーマンスが高いことも、一般化能力を示しています。
Image captioning models require the high-level generalization ability to describe the contents of various images in words. Most existing approaches treat the image-caption pairs equally in their training without considering the differences in their learning difficulties. Several image captioning approaches introduce curriculum learning methods that present training data with increasing levels of difficulty. However, their difficulty measurements are either based on domain-specific features or prior model training. In this paper, we propose a simple yet efficient difficulty measurement for image captioning using cross-modal similarity calculated by a pretrained vision-language model. Experiments on the COCO and Flickr30k datasets show that our proposed approach achieves superior performance and competitive convergence speed to baselines without requiring heuristics or incurring additional training costs. Moreover, the higher model performance on difficult examples and unseen data also demonstrates the generalization ability.