この作業は、新しい損失関数、バッチサイズ、および新しい正則化アプローチの間の相互作用を調査することにより、検索用の深い視覚的表現モデルの学習に焦点を当てています。最急降下法による評価メトリックの直接最適化は、それが微分不可能である場合には不可能です。これは、検索でのリコールの場合です。この作業では、リコールの微分可能な代理損失が提案されています。 GPUメモリのハードウェア制約を回避する実装を使用して、メソッドは非常に大きなバッチサイズでトレーニングします。これは、取得データベース全体で計算されるメトリックに不可欠です。これは、ペアワイズスカラー類似性に基づいて動作し、実質的にバッチサイズをさらに大きくする効率的な混合正則化アプローチによって支援されます。提案された方法は、詳細なメトリック学習に使用される場合、いくつかの画像検索ベンチマークで最先端のパフォーマンスを実現します。たとえば、インスタンスレベルの認識では、この方法は、平均精度の近似を使用してトレーニングする同様のアプローチよりも優れています。
This work focuses on learning deep visual representation models for retrieval by exploring the interplay between a new loss function, the batch size, and a new regularization approach. Direct optimization, by gradient descent, of an evaluation metric, is not possible when it is non-differentiable, which is the case for recall in retrieval. A differentiable surrogate loss for the recall is proposed in this work. Using an implementation that sidesteps the hardware constraints of the GPU memory, the method trains with a very large batch size, which is essential for metrics computed on the entire retrieval database. It is assisted by an efficient mixup regularization approach that operates on pairwise scalar similarities and virtually increases the batch size further. The suggested method achieves state-of-the-art performance in several image retrieval benchmarks when used for deep metric learning. For instance-level recognition, the method outperforms similar approaches that train using an approximation of average precision.