複数のオブジェクトの外観と相対位置を説明するフリーハンドスケッチを使用して画像コレクションを検索するためのアルゴリズムを提示します。スケッチベースの画像検索(SBIR)メソッドは、主に、画像内の位置に不変の単一の主要なオブジェクトを含むクエリに一致します。私たちの仕事は、シーン全体の構成を指定するための簡潔で直感的な表現としてドローイングを活用しています。畳み込みニューラルネットワーク(CNN)をトレーニングして、スケッチされたオブジェクトからマスクされた視覚的特徴をエンコードし、これらをコンポジション内のオブジェクトの空間的関係と外観をエンコードする空間記述子にプールします。トリプレット損失の下でシャムネットワークとしてCNNバックボーンをトレーニングすると、組成の類似性を測定するためのメトリック検索埋め込みが生成されます。これは、製品の量子化を適用することにより、視覚探索に効率的に活用できます。
We present an algorithm for searching image collections using free-hand sketches that describe the appearance and relative positions of multiple objects. Sketch based image retrieval (SBIR) methods predominantly match queries containing a single, dominant object invariant to its position within an image. Our work exploits drawings as a concise and intuitive representation for specifying entire scene compositions. We train a convolutional neural network (CNN) to encode masked visual features from sketched objects, pooling these into a spatial descriptor encoding the spatial relationships and appearances of objects in the composition. Training the CNN backbone as a Siamese network under triplet loss yields a metric search embedding for measuring compositional similarity which may be efficiently leveraged for visual search by applying product quantization.