arXiv reaDer
Image Captioning with Very Scarce Supervised Data: Adversarial Semi-Supervised Learning Approach
 多数の画像と各画像の複数のキャプションで構成される組織化されたデータセットの構築は、多大な労力を必要とする面倒な作業です。一方、多数の画像と文章を別々に収集することは非常に簡単です。この論文では、画像キャプションモデルをトレーニングするための新しいデータ効率の良い半教師付きフレームワークを開発します。膨大なペアのない画像とキャプションデータを活用して、それらを関連付けます。この目的のために、提案された半教師付き学習方法は、生成的敵対ネットワークを介して不対サンプルに擬似ラベルを割り当てて、画像とキャプションの共同分布を学習します。評価するために、MS COCOキャプションデータセットの修正版である、ほとんどペアになっていないCOCOデータセットを構築します。経験的な結果は、特にペアのサンプルの量が少ない場合に、いくつかの強力なベースラインと比較した本方法の有効性を示しています。
Constructing an organized dataset comprised of a large number of images and several captions for each image is a laborious task, which requires vast human effort. On the other hand, collecting a large number of images and sentences separately may be immensely easier. In this paper, we develop a novel data-efficient semi-supervised framework for training an image captioning model. We leverage massive unpaired image and caption data by learning to associate them. To this end, our proposed semi-supervised learning method assigns pseudo-labels to unpaired samples via Generative Adversarial Networks to learn the joint distribution of image and caption. To evaluate, we construct scarcely-paired COCO dataset, a modified version of MS COCO caption dataset. The empirical results show the effectiveness of our method compared to several strong baselines, especially when the amount of the paired samples are scarce.
updated: Thu Nov 21 2019 07:01:02 GMT+0000 (UTC)
published: Thu Sep 05 2019 04:16:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト