arXiv reaDer
ペアのデータからのコンテキストを活用する、部分的に監視された新しいオブジェクトのキャプション
Partially-supervised novel object captioning leveraging context from paired data
この論文では、トレーニングデータセットにキャプションラベルがない新規オブジェクトを含む画像の画像キャプションソリューションを改善するためのアプローチを提案します。私たちのアプローチはモデルアーキテクチャにとらわれず、主に既存の完全にペアになっている画像キャプションデータと新しいオブジェクト検出ラベル(部分的にペアになっているデータ)のみの画像を使用するトレーニング手法に焦点を当てています。既存の画像とキャプションのペアからのコンテキストを活用して、これらの新しいオブジェクトの合成ペアキャプションデータを作成します。さらに、これらの部分的にペアになっている画像を新しいオブジェクトと再利用して、キャプションモデルを微調整するために使用される疑似ラベルキャプションを作成します。人気のあるキャプションモデル(Up-Down)をベースラインとして使用して、私たちのアプローチは、ホールドアウトされたMS COCOのドメイン外テスト分割で最先端の結果を達成し、新規オブジェクト画像のF1メトリックとCIDErを75.8改善します。トレーニング中に部分的にペアになった画像を使用しないベースラインモデルと比較して、それぞれ26.6ポイント。
In this paper, we propose an approach to improve image captioning solutions for images with novel objects that do not have caption labels in the training dataset. Our approach is agnostic to model architecture, and primarily focuses on training technique that uses existing fully paired image-caption data and the images with only the novel object detection labels (partially paired data). We create synthetic paired captioning data for these novel objects by leveraging context from existing image-caption pairs. We further re-use these partially paired images with novel objects to create pseudo-label captions that are used to fine-tune the captioning model. Using a popular captioning model (Up-Down) as baseline, our approach achieves state-of-the-art results on held-out MS COCO out-of-domain test split, and improves F1 metric and CIDEr for novel object images by 75.8 and 26.6 points respectively, compared to baseline model that does not use partially paired images during training.
updated: Fri Sep 10 2021 21:31:42 GMT+0000 (UTC)
published: Fri Sep 10 2021 21:31:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト