arXiv reaDer
ペアデータからコンテキストを活用する部分的に監視された新しいオブジェクトキャプション
Partially-Supervised Novel Object Captioning Leveraging Context from Paired Data
この論文では、トレーニングデータセットにキャプションラベルがない新規オブジェクトを含む画像の画像キャプションソリューションを改善するためのアプローチを提案します。私たちのアプローチを部分的に監視された新規オブジェクトキャプション(PS-NOC)と呼びます。 PS-NOCはモデルアーキテクチャに依存せず、主に、既存の完全にペアになっている画像キャプションデータと、新しいオブジェクト検出ラベル(部分的にペアになっているデータ)のみの画像を使用するトレーニングアプローチに焦点を当てています。既存の画像とキャプションのペアからのコンテキストを活用して、新しいオブジェクトの合成ペアキャプションデータを作成します。次に、新しいオブジェクトと部分的にペアになっている画像の疑似ラベルキャプションを作成し、この追加データを使用してキャプションモデルを微調整します。また、PS-NOC内のSCST-F1と呼ばれるSCSTのバリアントを提案します。これは、新規オブジェクトのF1スコアを直接最適化します。 PS-NOCは、人気のあるキャプションモデル(Up-Down)をベースラインとして使用して、保留されたMS COCOのドメイン外テスト分割に関する新しい最先端の結果、つまり85.9F1スコアと103.8CIDErを設定します。これは、トレーニング中に部分的にペアになったデータを使用しないベースラインモデルと比較して、それぞれ85.9ポイントと34.1ポイントの改善です。また、詳細なアブレーション研究を実施して、アプローチの有効性を実証します。
In this paper, we propose an approach to improve image captioning solution for images with novel objects that do not have caption labels in the training dataset. We refer to our approach as Partially-Supervised Novel Object Captioning (PS-NOC). PS-NOC is agnostic to model architecture, and primarily focuses on the training approach that uses existing fully paired image-caption data and the images with only the novel object detection labels (partially paired data). We create synthetic paired captioning data for novel objects by leveraging context from existing image-caption pairs. We then create pseudo-label captions for partially paired images with novel objects, and use this additional data to fine-tune the captioning model. We also propose a variant of SCST within PS-NOC, called SCST-F1, that directly optimizes the F1-score of novel objects. Using a popular captioning model (Up-Down) as baseline, PS-NOC sets new state-of-the-art results on held-out MS COCO out-of-domain test split, i.e., 85.9 F1-score and 103.8 CIDEr. This is an improvement of 85.9 and 34.1 points respectively compared to baseline model that does not use partially paired data during training. We also perform detailed ablation studies to demonstrate the effectiveness of our approach.
updated: Fri Nov 19 2021 07:54:39 GMT+0000 (UTC)
published: Fri Sep 10 2021 21:31:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト