arXiv reaDer
マルチモーダルハッシュのモーダル対応機能
Modal-aware Features for Multimodal Hashing
 多くの検索アプリケーションは、複数のモダリティ、例えばウィキペディア上の画像を含むテキストから恩恵を受けることができます。そのためには、マルチモーダルデータを表現する方法が重要なコンポーネントです。ほとんどの深層マルチモーダル学習方法には、通常、2つのステップが含まれ、ジョイント表現を構築します。1)独立した深層モデルを使用して、各中間特徴がモダリティに対応する複数の中間特徴を学習2)融合戦略を使用して、中間フィーチャを結合表現にマージします。ただし、最初のステップでは、これらの中間機能は相互の事前知識がなく、他のモダリティに含まれる情報を完全に活用することはできません。この論文では、他のマルチモーダルデータの基礎となる相関構造をできるだけ早く学習できる、異種の中間機能間の非線形依存性をキャプチャするために、モーダル認識操作を汎用ビルディングブロックとして提示します。モーダル対応の操作は、カーネルネットワークとアテンションネットワークで構成されます。カーネルネットワークを使用して、他のモダリティとの非線形関係を学習します。次に、バイナリハッシュコードのより良い表現を学習するために、検索に有利なこれらのモーダル認識機能の有益な領域を見つけるアテンションネットワークを提示します。 3つの公開ベンチマークデータセットで行われた実験は、最先端のメソッドと比較して、メソッドのパフォーマンスが大幅に向上していることを示しています。
Many retrieval applications can benefit from multiple modalities, e.g., text that contains images on Wikipedia, for which how to represent multimodal data is the critical component. Most deep multimodal learning methods typically involve two steps to construct the joint representations: 1) learning of multiple intermediate features, with each intermediate feature corresponding to a modality, using separate and independent deep models; 2) merging the intermediate features into a joint representation using a fusion strategy. However, in the first step, these intermediate features do not have previous knowledge of each other and cannot fully exploit the information contained in the other modalities. In this paper, we present a modal-aware operation as a generic building block to capture the non-linear dependences among the heterogeneous intermediate features that can learn the underlying correlation structures in other multimodal data as soon as possible. The modal-aware operation consists of a kernel network and an attention network. The kernel network is utilized to learn the non-linear relationships with other modalities. Then, to learn better representations for binary hash codes, we present an attention network that finds the informative regions of these modal-aware features that are favorable for retrieval. Experiments conducted on three public benchmark datasets demonstrate significant improvements in the performance of our method relative to state-of-the-art methods.
updated: Tue Nov 19 2019 02:17:21 GMT+0000 (UTC)
published: Tue Nov 19 2019 02:17:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト