既存のディープ メトリック ラーニング アプローチは、対照学習、平均精度 (AP) の最大化、および分類の 3 つの一般的なカテゴリに分類されます。教師なしメトリック学習の作業に触発された、新しい代替アプローチであるコンテキスト類似性最適化を提案します。文脈的類似性は、近傍集合間の関係に基づく個別の類似性尺度であり、教師なし設定で疑似教師として広く使用されています。この成功に触発されて、コンテキストとコサインの類似性の組み合わせを最適化するフレームワークを提案します。コンテキスト類似度の計算には、ヘヴィサイド関数や集合の交差など、いくつかの微分不可能な操作が含まれます。非微分可能性を回避してコンテキストの類似性を明示的に最適化する方法を示し、適切な類似性の正則化をさらに組み込んで、新しいメトリック学習損失を生成します。結果として得られる損失関数は、標準のコントラスト損失と組み合わせると、標準の教師あり画像検索ベンチマークで最先端の Recall @ 1 精度を達成します。コードはこちらで公開されています: https://github.com/Chris210634/metric-learning-using-contextual-similarity
Existing deep metric learning approaches fall into three general categories: contrastive learning, average precision (AP) maximization, and classification. We propose a novel alternative approach, contextual similarity optimization, inspired by work in unsupervised metric learning. Contextual similarity is a discrete similarity measure based on relationships between neighborhood sets, and is widely used in the unsupervised setting as pseudo-supervision. Inspired by this success, we propose a framework which optimizes a combination of contextual and cosine similarities. Contextual similarity calculation involves several non-differentiable operations, including the heaviside function and intersection of sets. We show how to circumvent non-differentiability to explicitly optimize contextual similarity, and we further incorporate appropriate similarity regularization to yield our novel metric learning loss. The resulting loss function achieves state-of-the-art Recall @ 1 accuracy on standard supervised image retrieval benchmarks when combined with the standard contrastive loss. Code is released here: https://github.com/Chris210634/metric-learning-using-contextual-similarity