ハッシュコーディングは、大規模な画像検索のための近似最近傍探索で広く使用されています。クラスラベルやトレーニングデータのペアワイズ類似性などのセマンティックアノテーションが与えられると、ハッシュメソッドは効果的でコンパクトなバイナリコードを学習して生成できます。新しく導入された画像の中には、未定義のセマンティックラベルが含まれている場合があります。これを未表示の画像と呼びますが、zeor-shotハッシュ手法が研究されています。ただし、既存のzeor-shotハッシュ手法は、単一ラベル画像の取得に重点を置いており、マルチラベル画像を処理することはできません。本論文では、初めて、マルチラベルの見えない画像検索のための新しいトランスダクティブゼロショットハッシュ法を提案した。見えない/ターゲットデータのラベルを予測するために、視覚的意味論的ブリッジが、見えた/ソースデータのインスタンスコンセプトコヒーレンスランキングを介して構築されます。次に、ペアワイズ類似性損失と焦点量子化損失が構築され、可視/ソースデータと不可視/ターゲットデータの両方を使用してハッシュモデルをトレーニングします。 3つの人気のあるマルチラベルデータセットの広範な評価は、提案されたハッシュ方法が競合する方法よりも大幅に優れた結果を達成することを示しています。
Hash coding has been widely used in approximate nearest neighbor search for large-scale image retrieval. Given semantic annotations such as class labels and pairwise similarities of the training data, hashing methods can learn and generate effective and compact binary codes. While some newly introduced images may contain undefined semantic labels, which we call unseen images, zeor-shot hashing techniques have been studied. However, existing zeor-shot hashing methods focus on the retrieval of single-label images, and cannot handle multi-label images. In this paper, for the first time, a novel transductive zero-shot hashing method is proposed for multi-label unseen image retrieval. In order to predict the labels of the unseen/target data, a visual-semantic bridge is built via instance-concept coherence ranking on the seen/source data. Then, pairwise similarity loss and focal quantization loss are constructed for training a hashing model using both the seen/source and unseen/target data. Extensive evaluations on three popular multi-label datasets demonstrate that, the proposed hashing method achieves significantly better results than the competing methods.