画像検索タスクの最近の研究では、さまざまなモデルを組み合わせて複数のグローバル記述子を組み合わせると、パフォーマンスが向上することが示されています。ただし、アンサンブルのさまざまなモデルのトレーニングは困難であるだけでなく、時間とメモリの点でも非効率的です。この論文では、複数のグローバル記述子を利用してアンサンブル効果を得ながら、エンドツーエンドでトレーニングできる新しいフレームワークを提案します。提案されたフレームワークは、グローバル記述子、CNNバックボーン、損失、およびデータセットによって柔軟で拡張可能です。さらに、複数のグローバル記述子を定量的および定性的分析と組み合わせることの有効性を調査します。さまざまなタイプの機能プロパティを利用できるため、私たちの広範な実験により、組み合わせた記述子が単一のグローバル記述子よりも優れていることが示されています。ベンチマーク評価では、提案されたフレームワークは、CARS196、CUB200-2011、店内洋服、およびスタンフォードオンライン製品の画像検索タスクで最先端のパフォーマンスを実現します。モデルの実装と事前トレーニング済みのモデルは公開されています。
Recent studies in image retrieval task have shown that ensembling different models and combining multiple global descriptors lead to performance improvement. However, training different models for the ensemble is not only difficult but also inefficient with respect to time and memory. In this paper, we propose a novel framework that exploits multiple global descriptors to get an ensemble effect while it can be trained in an end-to-end manner. The proposed framework is flexible and expandable by the global descriptor, CNN backbone, loss, and dataset. Moreover, we investigate the effectiveness of combining multiple global descriptors with quantitative and qualitative analysis. Our extensive experiments show that the combined descriptor outperforms a single global descriptor, as it can utilize different types of feature properties. In the benchmark evaluation, the proposed framework achieves the state-of-the-art performance on the CARS196, CUB200-2011, In-shop Clothes, and Stanford Online Products on image retrieval tasks. Our model implementations and pretrained models are publicly available.