このペーパーでは、ゼロショットスケッチベースの画像検索(ZS-SBIR)の問題を調査します。人間のスケッチをクエリとして使用して、目に見えないカテゴリから写真を検索します。私たちは重要なことに、実用化への確実な前進を表す新しいZS-SBIRシナリオを提案することにより、先行技術を進歩させます。新しい設定は、実用的なZS-SBIRの2つの重要でありながら無視されがちな課題を一意に認識します。(i)アマチュアスケッチと写真の間の大きなドメインギャップ、および(ii)大規模検索への移行の必要性。まず、110のカテゴリにまたがる330,000枚のスケッチと204,000枚の写真で構成される、新しいZS-SBIRデータセット、QuickDraw-Extendedをコミュニティに提供します。高度に抽象的なアマチュアの人間のスケッチは、セミフォトリアリスティックであることが多い既存のデータセットに含まれているスケッチではなく、意図的にドメインギャップを最大化するために供給されます。次に、ZS-SBIRフレームワークを作成して、スケッチと写真を共通の埋め込みスペースに共同でモデル化します。ドメイン間の相互情報をマイニングする新しい戦略は、ドメインのギャップを緩和するために特別に設計されています。外部の意味論的知識は、意味論の転送を支援するためにさらに埋め込まれています。意外なことに、モデルの縮小バージョンを使用して既に達成できる既存のデータセットでは、検索パフォーマンスが最先端のパフォーマンスを大幅に上回っています。さらに、新しく提案されたデータセットの多くの代替案と比較することにより、完全なモデルの優れたパフォーマンスを実証します。新しいデータセットとモデルのすべてのトレーニングおよびテストコードは、将来の研究を容易にするために公開されます
In this paper, we investigate the problem of zero-shot sketch-based image retrieval (ZS-SBIR), where human sketches are used as queries to conduct retrieval of photos from unseen categories. We importantly advance prior arts by proposing a novel ZS-SBIR scenario that represents a firm step forward in its practical application. The new setting uniquely recognizes two important yet often neglected challenges of practical ZS-SBIR, (i) the large domain gap between amateur sketch and photo, and (ii) the necessity for moving towards large-scale retrieval. We first contribute to the community a novel ZS-SBIR dataset, QuickDraw-Extended, that consists of 330,000 sketches and 204,000 photos spanning across 110 categories. Highly abstract amateur human sketches are purposefully sourced to maximize the domain gap, instead of ones included in existing datasets that can often be semi-photorealistic. We then formulate a ZS-SBIR framework to jointly model sketches and photos into a common embedding space. A novel strategy to mine the mutual information among domains is specifically engineered to alleviate the domain gap. External semantic knowledge is further embedded to aid semantic transfer. We show that, rather surprisingly, retrieval performance significantly outperforms that of state-of-the-art on existing datasets that can already be achieved using a reduced version of our model. We further demonstrate the superior performance of our full model by comparing with a number of alternatives on the newly proposed dataset. The new dataset, plus all training and testing code of our model, will be publicly released to facilitate future research