arXiv reaDer
CLIP を使用した半教師あり画像キャプション
Semi-Supervised Image Captioning with CLIP
画像のキャプション付けは、視覚言語理解における基本的なタスクであり、提供された画像に対して正確な自然言語による説明を生成することを目的としています。画像とテキストのペアの大規模なコーパスから学習した豊富な意味論的特徴を備えた CLIP モデルは、このタスクに最適です。この論文では、CLIP エンコーディングの可能性を活用した 2 段階の半教師あり画像キャプション手法を紹介します。私たちのモデルは、CLIP ビジュアル エンコーダー、マッピング ネットワーク、およびテキスト生成用の言語モデルで構成されています。最初の段階では、生成されたキャプションとグラウンド トゥルースのキャプションを対比することにより、小さなラベル付きデータセットを使用してモデルをトレーニングします。次の段階では、CLIP 埋め込みに基づいて画像とキャプションの類似性を最大化することを目的として、ラベルのない画像を使用してトレーニングを続けます。注目すべきことに、COCO キャプションの 2% 未満しか利用していないにもかかわらず、私たちのアプローチは、完全なデータセットでトレーニングされた最先端のモデルに匹敵するパフォーマンスを実現します。さらに、私たちのアプローチによって生成されたキャプションは、より特徴的で有益で、人間の好みに沿ったものになります。
Image captioning, a fundamental task in vision-language understanding, seeks to generate accurate natural language descriptions for provided images. The CLIP model, with its rich semantic features learned from a large corpus of image-text pairs, is well-suited for this task. In this paper, we present a two-stage semi-supervised image captioning approach that exploits the potential of CLIP encoding. Our model comprises a CLIP visual encoder, a mapping network, and a language model for text generation. In the initial stage, we train the model using a small labeled dataset by contrasting the generated captions with the ground truth captions. In the subsequent stage, we continue the training using unlabeled images, aiming to maximize the image-caption similarity based on CLIP embeddings. Remarkably, despite utilizing less than 2% of the COCO-captions, our approach delivers a performance comparable to state-of-the-art models trained on the complete dataset. Furthermore, the captions generated by our approach are more distinctive, informative, and in line with human preference.
updated: Mon Jun 26 2023 23:29:16 GMT+0000 (UTC)
published: Mon Jun 26 2023 23:29:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト