大規模なインスタンスレベルの画像検索のための表現学習に取り組みます。バックボーン、トレーニングパイプライン、損失関数とは別に、一般的なアプローチでは、強力なグローバル画像表現の学習の中核となるさまざまな空間プーリングと注意メカニズムに焦点が当てられています。特徴テンソルの要素の相互作用(ローカルおよびグローバル)とそれが適用される次元(空間およびチャネル)に応じて、さまざまな形式の注意があります。残念ながら、各研究は1つまたは2つの注意の形式のみを扱い、分類、検出、検索などのさまざまな問題に適用します。バックボーンネットワークの最後に接続され、ローカルとグローバル、空間とチャネルの4つの注意形式すべてを組み込んだグローバルローカルアテンションモジュール(GLAM)を紹介します。新しい特徴テンソルを取得し、空間プーリングによって、画像検索のための強力な埋め込みを学習します。グローバル記述子に焦点を当て、あらゆる形態の注意の相互作用の経験的証拠を提供し、標準的なベンチマークで最先端技術を向上させます。
We address representation learning for large-scale instance-level image retrieval. Apart from backbone, training pipelines and loss functions, popular approaches have focused on different spatial pooling and attention mechanisms, which are at the core of learning a powerful global image representation. There are different forms of attention according to the interaction of elements of the feature tensor (local and global) and the dimensions where it is applied (spatial and channel). Unfortunately, each study addresses only one or two forms of attention and applies it to different problems like classification, detection or retrieval. We present global-local attention module (GLAM), which is attached at the end of a backbone network and incorporates all four forms of attention: local and global, spatial and channel. We obtain a new feature tensor and, by spatial pooling, we learn a powerful embedding for image retrieval. Focusing on global descriptors, we provide empirical evidence of the interaction of all forms of attention and improve the state of the art on standard benchmarks.