Common Deep Metric Learning (DML) データセットは、類似性の 1 つの概念のみを指定します。たとえば、Cars196 データセット内の 2 つの画像は、同じ自動車モデルを示している場合、類似していると見なされます。アプリケーションに応じて、画像検索システムのユーザーは、可能な限り簡単に組み込む必要があるさまざまな変化する類似概念を持っていると主張します。したがって、ユーザーが自然言語のみを使用してトレーニング データを使用せずに画像表現に重要なプロパティを制御する新しい DML 設定として、Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) を提示します。この目的のために、トレーニングにいくつかのテキストプロンプトのみを使用する画像の LanZ-DML のモデルである InDiReCT (CLIP 埋め込みテキストで次元削減を使用した画像表現) を提案します。 InDiReCT は、画像とテキストの固定特徴抽出器として CLIP を利用し、テキスト プロンプト埋め込みのバリエーションを画像埋め込み空間に転送します。 5 つのデータセットと全体で 13 の類似概念に関する広範な実験により、トレーニング中に画像がまったく表示されないにもかかわらず、InDiReCT は強力なベースラインよりも優れたパフォーマンスを発揮し、完全に教師ありモデルのパフォーマンスに近づくことが示されています。分析により、InDiReCT は目的の類似性の概念と相関する画像の領域に焦点を当てることを学習することが明らかになりました。これにより、自然言語のみを使用してカスタムの埋め込みスペースを作成するためのトレーニングが高速で使いやすい方法になります。
Common Deep Metric Learning (DML) datasets specify only one notion of similarity, e.g., two images in the Cars196 dataset are deemed similar if they show the same car model. We argue that depending on the application, users of image retrieval systems have different and changing similarity notions that should be incorporated as easily as possible. Therefore, we present Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) as a new DML setting in which users control the properties that should be important for image representations without training data by only using natural language. To this end, we propose InDiReCT (Image representations using Dimensionality Reduction on CLIP embedded Texts), a model for LanZ-DML on images that exclusively uses a few text prompts for training. InDiReCT utilizes CLIP as a fixed feature extractor for images and texts and transfers the variation in text prompt embeddings to the image embedding space. Extensive experiments on five datasets and overall thirteen similarity notions show that, despite not seeing any images during training, InDiReCT performs better than strong baselines and approaches the performance of fully-supervised models. An analysis reveals that InDiReCT learns to focus on regions of the image that correlate with the desired similarity notion, which makes it a fast to train and easy to use method to create custom embedding spaces only using natural language.