メトリック学習について多くの研究が行われており、インスタンスレベルの画像検索の優れた手法の主要な要素となっています。一方、パフォーマンスを大幅に向上させることができる前処理と後処理のトリックにはあまり注意が払われていません。さらに、以前のほとんどの研究では、処理を簡略化するために小規模なデータセットが使用されていました。ディープラーニングモデルの特徴表現の動作はドメインとデータの両方に依存するため、検索トリックを適切に組み合わせて使用した場合の大規模環境でのモデルの動作を理解することが重要です。このペーパーでは、よく知られている前処理、後処理のトリック、および大規模な画像検索のためのそれらの組み合わせの効果を広範囲に分析します。 Google Landmark Retrieval Challenge 2019で競争力のある結果を達成することで確認されたように、これらのトリックを適切に使用することで、複雑なアーキテクチャーを必要とせず、損失をもたらすことなく、モデルのパフォーマンスを大幅に改善できることがわかりました。
Many studies have been performed on metric learning, which has become a key ingredient in top-performing methods of instance-level image retrieval. Meanwhile, less attention has been paid to pre-processing and post-processing tricks that can significantly boost performance. Furthermore, we found that most previous studies used small scale datasets to simplify processing. Because the behavior of a feature representation in a deep learning model depends on both domain and data, it is important to understand how model behave in large-scale environments when a proper combination of retrieval tricks is used. In this paper, we extensively analyze the effect of well-known pre-processing, post-processing tricks, and their combination for large-scale image retrieval. We found that proper use of these tricks can significantly improve model performance without necessitating complex architecture or introducing loss, as confirmed by achieving a competitive result on the Google Landmark Retrieval Challenge 2019.