arXiv reaDer
ゼロショットスケッチベースの画像検索のためのスタック型セマンティックガイドネットワーク
Stacked Semantic-Guided Network for Zero-Shot Sketch-Based Image Retrieval
  ゼロショットスケッチベースの画像検索(ZS-SBIR)は、ゼロショットシナリオでのフリーハンドスケッチを使用して、自然画像ギャラリーからのクロスドメイン画像検索のタスクです。これまでの作品は、入力として非常に抽象的で疎なスケッチを受け取り、対応する自然画像を合成する生成的アプローチに主に焦点を当てていました。ただし、スケッチの固有の視覚的スパース性とクラス内の大きな分散により、条件付きデコーダーの学習がより困難になり、そのため、検索パフォーマンスが不十分になります。この論文では、ZS-SBIRのスケッチのユニークな特性に対処するために、新しいスタックセマンティックガイドネットワークを提案します。具体的には、スケッチの本質的なスパース性を軽減するために、ディープニューラルネットワークにさまざまな中間フィーチャ表現情報を組み込む多層フィーチャフュージョンネットワークを考案します。見えているクラスから見えないクラスへの視覚的な知識の伝達を改善するために、まず粗いカテゴリ固有の対応する機能を生成し(条件入力として補助セマンティック情報を取得)、次に細かいインスタンスを生成する、粗から細までの条件付きデコーダーを作成します-特定の対応する機能(スケッチ表現を条件付き入力として使用)。さらに、回帰損失と分類損失を利用して、それぞれ合成された特徴の意味情報と識別情報を保存します。大規模なSketchyデータセットとTU-Berlinデータセットに関する広範な実験により、提案されたアプローチが最新の方法よりも検索パフォーマンスが20%以上優れていることが実証されています。
Zero-shot sketch-based image retrieval (ZS-SBIR) is a task of cross-domain image retrieval from a natural image gallery with free-hand sketch under a zero-shot scenario. Previous works mostly focus on a generative approach that takes a highly abstract and sparse sketch as input and then synthesizes the corresponding natural image. However, the intrinsic visual sparsity and large intra-class variance of the sketch make the learning of the conditional decoder more difficult and hence achieve unsatisfactory retrieval performance. In this paper, we propose a novel stacked semantic-guided network to address the unique characteristics of sketches in ZS-SBIR. Specifically, we devise multi-layer feature fusion networks that incorporate different intermediate feature representation information in a deep neural network to alleviate the intrinsic sparsity of sketches. In order to improve visual knowledge transfer from seen to unseen classes, we elaborate a coarse-to-fine conditional decoder that generates coarse-grained category-specific corresponding features first (taking auxiliary semantic information as conditional input) and then generates fine-grained instance-specific corresponding features (taking sketch representation as conditional input). Furthermore, regression loss and classification loss are utilized to preserve the semantic and discriminative information of the synthesized features respectively. Extensive experiments on the large-scale Sketchy dataset and TU-Berlin dataset demonstrate that our proposed approach outperforms state-of-the-art methods by more than 20\% in retrieval performance.
updated: Fri Oct 18 2019 02:31:42 GMT+0000 (UTC)
published: Wed Apr 03 2019 12:33:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト