arXiv reaDer
クロスモーダル検索のためのグラフパターン損失ベースの多様な注意ネットワーク
Graph Pattern Loss based Diversified Attention Network for Cross-Modal Retrieval
クロスモーダル検索は、画像、ビデオ、テキスト、オーディオなどのマルチメディアデータを組み合わせることにより、柔軟な検索エクスペリエンスを実現することを目的としています。教師なしアプローチのコアの1つは、異なるオブジェクト表現間の相関関係を掘り下げて、高価なラベルを必要とせずに満足のいく検索パフォーマンスを完成させることです。本論文では、表現間の相関を深く分析するために、教師なしクロスモーダル検索のためのグラフパターン損失ベースの分散注意ネットワーク(GPLDAN)を提案します。まず、インスタンスの複数の表現を生成するために、異なる表現間の相互作用を考慮することにより、多様な注意機能プロジェクターを提案します。次に、新しいグラフパターン損失を設計して、さまざまな表現間の相関関係を調査します。このグラフでは、さまざまな表現間のすべての可能な距離が考慮されます。さらに、融合の前に機能の対応するモダリティを明示的に宣言し、識別能力を強化するようにネットワークをガイドするために、モダリティ分類子が追加されています。 4つの公開データセットでGPLDANをテストします。最先端のクロスモーダル検索方法と比較して、実験結果はGPLDANのパフォーマンスと競争力を示しています。
Cross-modal retrieval aims to enable flexible retrieval experience by combining multimedia data such as image, video, text, and audio. One core of unsupervised approaches is to dig the correlations among different object representations to complete satisfied retrieval performance without requiring expensive labels. In this paper, we propose a Graph Pattern Loss based Diversified Attention Network(GPLDAN) for unsupervised cross-modal retrieval to deeply analyze correlations among representations. First, we propose a diversified attention feature projector by considering the interaction between different representations to generate multiple representations of an instance. Then, we design a novel graph pattern loss to explore the correlations among different representations, in this graph all possible distances between different representations are considered. In addition, a modality classifier is added to explicitly declare the corresponding modalities of features before fusion and guide the network to enhance discrimination ability. We test GPLDAN on four public datasets. Compared with the state-of-the-art cross-modal retrieval methods, the experimental results demonstrate the performance and competitiveness of GPLDAN.
updated: Fri Jun 25 2021 10:53:07 GMT+0000 (UTC)
published: Fri Jun 25 2021 10:53:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト