arXiv reaDer
テキスト反転によるゼロショット合成画像検索
Zero-Shot Composed Image Retrieval with Textual Inversion
合成画像検索 (CIR) は、参照画像と 2 つの画像間の違いを説明する相対キャプションで構成されるクエリに基づいてターゲット画像を検索することを目的としています。 CIR 用のデータセットのラベル付けには多大な労力とコストが必要であり、既存の手法は教師あり学習に依存しているため、その広範な使用が妨げられています。この研究では、ラベル付きトレーニング データセットを必要とせずに CIR に対処することを目的とした新しいタスクであるゼロショット CIR (ZS-CIR) を提案します。 Zero-Shot composEd Image Retrieval with textual invErsion (SEARLE) と名付けられた私たちのアプローチは、参照画像の視覚的特徴を CLIP トークン埋め込み空間の擬似単語トークンにマッピングし、それを相対的なキャプションと統合します。 ZS-CIR の研究をサポートするために、Composited Image Retrieval on Common Objects in context (CIRCO) という名前のオープンドメイン ベンチマーク データセットを導入します。これは、クエリごとに複数のグランド トゥルースを含む CIR の最初のデータセットです。実験では、SEARLE が CIR タスクの 2 つの主要なデータセット、FashionIQ と CIRR、および提案された CIRCO のベースラインよりも優れたパフォーマンスを示すことが示されています。データセット、コード、モデルは https://github.com/miccunifi/SEARLE で公開されています。
Composed Image Retrieval (CIR) aims to retrieve a target image based on a query composed of a reference image and a relative caption that describes the difference between the two images. The high effort and cost required for labeling datasets for CIR hamper the widespread usage of existing methods, as they rely on supervised learning. In this work, we propose a new task, Zero-Shot CIR (ZS-CIR), that aims to address CIR without requiring a labeled training dataset. Our approach, named zero-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE), maps the visual features of the reference image into a pseudo-word token in CLIP token embedding space and integrates it with the relative caption. To support research on ZS-CIR, we introduce an open-domain benchmarking dataset named Composed Image Retrieval on Common Objects in context (CIRCO), which is the first dataset for CIR containing multiple ground truths for each query. The experiments show that SEARLE exhibits better performance than the baselines on the two main datasets for CIR tasks, FashionIQ and CIRR, and on the proposed CIRCO. The dataset, the code and the model are publicly available at https://github.com/miccunifi/SEARLE.
updated: Sat Aug 19 2023 14:04:41 GMT+0000 (UTC)
published: Mon Mar 27 2023 14:31:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト