Deep Aggregation of Regional Convolutional Activations for Content Based Image Retrieval
  深層学習ベースの画像検索の重要な課題の1つは、畳み込み活性化を1つの非常に代表的な特徴ベクトルに集約することです。理想的には、この記述子はセマンティック、空間、低レベルの情報をエンコードする必要があります。既製の事前学習済みニューラルネットワークは、集計方法と組み合わせてすでに適切な表現を生成できますが、画像検索タスクの適切な微調整により、検索パフォーマンスが大幅に向上することが示されています。このホワイトペーパーでは、既存の地域プーリングアプローチの上に構築された、シンプルでありながら効果的な教師付き集計方法を示します。特定の地域の最大活性化に加えて、抽出された特徴マップの地域平均活性化を計算します。その後、プールされた各特徴ベクトルの重みが学習され、単一の特徴ベクトルへの重み付き集約が実行されます。さらに、ディープメトリック学習に新しく提案されたNRA損失関数を適用して、バックボーンニューラルネットワークを微調整し、集約の重みを学習します。この方法は、INRIA Holidaysデータセットの最新の結果と、Oxford BuildingsおよびParisデータセットの競争力のある結果を達成しながら、トレーニング時間を大幅に短縮します。
One of the key challenges of deep learning based image retrieval remains in aggregating convolutional activations into one highly representative feature vector. Ideally, this descriptor should encode semantic, spatial and low level information. Even though off-the-shelf pre-trained neural networks can already produce good representations in combination with aggregation methods, appropriate fine tuning for the task of image retrieval has shown to significantly boost retrieval performance. In this paper, we present a simple yet effective supervised aggregation method built on top of existing regional pooling approaches. In addition to the maximum activation of a given region, we calculate regional average activations of extracted feature maps. Subsequently, weights for each of the pooled feature vectors are learned to perform a weighted aggregation to a single feature vector. Furthermore, we apply our newly proposed NRA loss function for deep metric learning to fine tune the backbone neural network and to learn the aggregation weights. Our method achieves state-of-the-art results for the INRIA Holidays data set and competitive results for the Oxford Buildings and Paris data sets while reducing the training time significantly.
updated: Tue Sep 24 2019 06:53:16 GMT+0000 (UTC)
published: Fri Sep 20 2019 10:43:00 GMT+0000 (UTC)
