スケッチベースの画像検索(SBIR)は、スケッチと自然画像の間に大きなクロスドメインギャップがあるため、困難なタスクです。抽象スケッチと自然画像を共通の高レベルのセマンティック空間に配置する方法は、SBIRの重要な問題のままです。この論文では、3つのブランチ(スケッチブランチ、自然画像ブランチ、エッジマップブランチ)を統合して、より識別的なクロスドメイン機能を学習する、新しい半不均一3方向ジョイント埋め込みネットワーク(Semi3-Net)を提案します。 SBIRタスクの表現。重要な洞察は、スケッチ、自然画像、およびエッジマップ間の相互および微妙な関係をどのように育成するかにあります。準不均一なフィーチャマッピングは、各ドメインからボトムフィーチャを抽出するように設計されています。スケッチとエッジマップのブランチは共有され、自然画像のブランチは他のブランチとは異種です。さらに、異なるドメインからの機能を3つのブランチすべてが共有される共通の高レベルのセマンティック空間に埋め込むために、共同のセマンティック埋め込みが導入されています。自然画像と対応するエッジマップの両方に共通する有益な機能をさらにキャプチャするために、異なるドメイン間で共通のチャネルごとの機能再キャリブレーションを実行する共同注意モデルが導入されています。ハイブリッドロスメカニズムは、3つのブランチを整列させるように設計されており、アライメントロスとスケッチエッジマップコントラスト損失が提示され、ネットワークが不変のクロスドメイン表現を学習するように促します。 2つの広く使用されているカテゴリレベルのデータセット(SketchyとTU-Berlin Extension)の実験結果は、提案された方法が最先端の方法よりも優れていることを示しています。
Sketch-based image retrieval (SBIR) is a challenging task due to the large cross-domain gap between sketches and natural images. How to align abstract sketches and natural images into a common high-level semantic space remains a key problem in SBIR. In this paper, we propose a novel semi-heterogeneous three-way joint embedding network (Semi3-Net), which integrates three branches (a sketch branch, a natural image branch, and an edgemap branch) to learn more discriminative cross-domain feature representations for the SBIR task. The key insight lies with how we cultivate the mutual and subtle relationships amongst the sketches, natural images, and edgemaps. A semi-heterogeneous feature mapping is designed to extract bottom features from each domain, where the sketch and edgemap branches are shared while the natural image branch is heterogeneous to the other branches. In addition, a joint semantic embedding is introduced to embed the features from different domains into a common high-level semantic space, where all of the three branches are shared. To further capture informative features common to both natural images and the corresponding edgemaps, a co-attention model is introduced to conduct common channel-wise feature recalibration between different domains. A hybrid-loss mechanism is designed to align the three branches, where an alignment loss and a sketch-edgemap contrastive loss are presented to encourage the network to learn invariant cross-domain representations. Experimental results on two widely used category-level datasets (Sketchy and TU-Berlin Extension) demonstrate that the proposed method outperforms state-of-the-art methods.