最初に成功しない場合: ゼロショット、クロスドメイン検索の再ランキングのテスト時間
If At First You Don't Succeed: Test Time Re-ranking for Zero-shot, Cross-domain Retrieval
この論文では、2つの重要な貢献をする、ゼロショットのクロスドメイン画像検索の新しい方法を提案します。 1 つ目は、ギャラリーとギャラリーのランクを反復的な再ランキング プロセスに組み込むことで、意味のある共有視覚的特徴を持たないクエリとギャラリーのペアを一致させることができる、テスト時の再ランキング手順です。 2 つ目は、トレーニング時に相互注意を使用し、知識を抽出して、テスト時に単一の画像から相互注意のような特徴を抽出することを促進することです。 Vision Transformer アーキテクチャおよびゼロ ショット検索損失と組み合わせると、当社のアプローチは、Sketchy および TU-Berlin スケッチベースの画像検索ベンチマークで最先端の結果をもたらします。ただし、以前の多くの方法とは異なり、私たちのアプローチのコンポーネントはどれも、スケッチベースの画像検索タスク向けに特別に設計されたものではありません。一般に、クロスドメインのゼロショット検索タスクに適用できます。したがって、Office-Home データセットを使用したゼロショットの漫画から写真への検索の結果も示します。
In this paper we propose a novel method for zero-shot, cross-domain image retrieval in which we make two key contributions. The first is a test-time re-ranking procedure that enables query-gallery pairs, without meaningful shared visual features, to be matched by incorporating gallery-gallery ranks into an iterative re-ranking process. The second is the use of cross-attention at training time and knowledge distillation to encourage cross-attention-like features to be extracted at test time from a single image. When combined with the Vision Transformer architecture and zero-shot retrieval losses, our approach yields state-of-the-art results on the Sketchy and TU-Berlin sketch-based image retrieval benchmarks. However, unlike many previous methods, none of the components in our approach are engineered specifically towards the sketch-based image retrieval task - it can be generally applied to any cross-domain, zero-shot retrieval task. We therefore also show results on zero-shot cartoon-to-photo retrieval using the Office-Home dataset.
