arXiv reaDer
ContextCLIP: CLIP 視覚表現での画像とテキストのペアの文脈上の配置
ContextCLIP: Contextual Alignment of Image-Text pairs on CLIP visual representations
最先端の経験的研究により、ディープ ニューラル ネットワークによって学習された視覚的表現は本質的に堅牢であり、さまざまなデータセットに対して分類タスクを実行できることが示されています。たとえば、CLIP は、画像とテキストのペアの共同埋め込み空間での分類タスクについて、複数のデータセットでゼロ ショット転送パフォーマンスを示しました。ただし、BirdsNAP、RESISC45、MNIST などの標準的なデータセットでは、転送パフォーマンスが低下しました。このホワイト ペーパーでは、Conceptual Captions データセットで堅牢な視覚的表現を学習することにより、画像とテキストのペアを文脈に合わせて配置するための文脈および対照的な学習フレームワークである ContextCLIP を提案します。私たちのフレームワークは、テキストと画像の表現を共同埋め込み空間で文脈的に整列させることにより、画像とテキストの整列を改善することが観察されました。 ContextCLIP は、テキストから画像への検索タスクで優れた定性的なパフォーマンスを示し、分類精度が向上しました。分類タスク用の CIFAR-10、CIFAR-100、Birdsnap、RESISC45、および MNIST データセットに対するゼロショット転送および微調整実験により、モデルを定量的に評価しました。
State-of-the-art empirical work has shown that visual representations learned by deep neural networks are robust in nature and capable of performing classification tasks on diverse datasets. For exam- ple, CLIP demonstrated zero-shot transfer performance on multiple datasets for classification tasks in a joint embedding space of image and text pairs. However, it showed negative transfer performance on standard datasets, e.g., BirdsNAP, RESISC45, and MNIST. In this paper, we propose ContextCLIP, a contextual and contrastive learning framework for the contextual alignment of image-text pairs by learning robust visual representations on Conceptual Captions dataset. Our framework was observed to improve the image-text alignment by aligning text and image representations contextually in the joint embedding space. ContextCLIP showed good qualitative performance for text-to-image retrieval tasks and enhanced classifica- tion accuracy. We evaluated our model quantitatively with zero-shot transfer and fine-tuning experiments on CIFAR-10, CIFAR-100, Birdsnap, RESISC45, and MNIST datasets for classification task.
updated: Mon Nov 14 2022 05:17:51 GMT+0000 (UTC)
published: Mon Nov 14 2022 05:17:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト