ハッシュは、計算とストレージの効率のため、大規模なマルチメディアデータのマルチモーダル検索に広く適用されています。特に、ディープハッシュは、その完全な検索パフォーマンスにより、近年、前例のない研究の注目を集めています。ただし、既存のディープハッシュ手法のほとんどは、データポイントのセマンティックラベルを活用せずに類似性関係を維持することでバイナリハッシュコードを学習します。この作業では、スケーラブルなマルチモーダル検索のための新しいディープセマンティックマルチモーダルハッシュネットワークを提案します。 DSMHNでは、モダリティ固有のハッシュ関数の2つのセットは、モダリティ間類似性とモダリティ内セマンティックラベルの両方を明示的に保存することにより、共同で学習されます。具体的には、学習したハッシュコードがタスク固有の分類に最適であるという前提で、結果のハッシュコードにセマンティックラベルを埋め込むことにより、2つのストリームネットワークが共同でハッシュ関数を学習します。損失関数の特定の形式に関連付けられている以前のディープハッシュ手法とは異なり、提案されているディープハッシュフレームワークは、さまざまなタイプの損失関数と柔軟に統合できます。さらに、ビットバランスプロパティを調べて、各ビットが1または-1になる確率が50%のバイナリコードを生成します。さらに、特徴表現学習、モダリティ間類似性保存学習、セマンティックラベル保存学習、およびビットバランス制約付きのハッシュ関数学習を同時に活用することにより、コンパクトで高品質なハッシュコードを学習するための統合されたディープマルチモーダルハッシュフレームワークが提案されています。広く使用されている3つのマルチモーダル検索データセットで、ユニモーダル検索とクロスモーダル検索の両方のタスクについて広範な実験を行います。実験結果は、DSMHNが最先端の方法よりも大幅に優れていることを示しています。
Hashing has been widely applied to multimodal retrieval on large-scale multimedia data due to its efficiency in computation and storage. Particularly, deep hashing has received unprecedented research attention in recent years, owing to its perfect retrieval performance. However, most of existing deep hashing methods learn binary hash codes by preserving the similarity relationship while without exploiting the semantic labels of data points, which result in suboptimal binary codes. In this work, we propose a novel Deep Semantic Multimodal Hashing Network for scalable multimodal retrieval. In DSMHN, two sets of modality-specific hash functions are jointly learned by explicitly preserving both the inter-modality similarities and the intra-modality semantic labels. Specifically, with the assumption that the learned hash codes should be optimal for task-specific classification, two stream networks are jointly trained to learn the hash functions by embedding the semantic labels on the resultant hash codes. Different from previous deep hashing methods, which are tied to some particular forms of loss functions, the proposed deep hashing framework can be flexibly integrated with different types of loss functions. In addition, the bit balance property is investigated to generate binary codes with each bit having 50% probability to be 1 or -1. Moreover, a unified deep multimodal hashing framework is proposed to learn compact and high-quality hash codes by exploiting the feature representation learning, inter-modality similarity preserving learning, semantic label preserving learning and hash functions learning with bit balanced constraint simultaneously. We conduct extensive experiments for both unimodal and cross-modal retrieval tasks on three widely-used multimodal retrieval datasets. The experimental result demonstrates that DSMHN significantly outperforms state-of-the-art methods.