ディープメトリック学習(DML)の目的は、データポイント間の意味的類似性および非類似性情報をキャプチャできる埋め込みを学習することです。 DMLで使用される既存のペアワイズまたはトリプレット損失関数は、モデルが改善されるにつれて、トリブレットペアまたはトリプレットの大部分が原因で収束が遅くなることが知られています。これを改善するために、ランキングに動機付けられた構造化損失が最近提案され、複数の例を組み込み、それらの間で構造化情報を活用しています。それらはより速く収束し、最先端のパフォーマンスを実現します。この作業では、既存のランキングに動機付けられた構造化損失の2つの制限を明らかにし、両方を解決するための新しいランク付けリスト損失を提案します。まず、クエリが与えられると、類似性構造を構築するためにデータポイントの一部のみが組み込まれます。その結果、いくつかの有用な例は無視され、構造はあまり有益ではありません。これに対処するために、ギャラリー内のすべてのインスタンスを活用して、セットベースの類似性構造を構築することを提案します。学習設定は、数ショットの取得として解釈できます。ミニバッチが与えられると、すべての例がクエリとして繰り返し使用され、残りの例は検索するギャラリー、つまり、数ショットの設定で設定されたサポートを構成します。残りの例は、正のセットと負のセットに分けられます。すべてのミニバッチについて、ランク付けされたリスト損失の学習目的は、クエリをマージンによって負のセットよりも正のセットに近づけることです。第二に、以前の方法は、埋め込みスペースで正のペアを可能な限り近づけることを目的としています。その結果、クラス内のデータ分布は極端に圧縮される傾向があります。対照的に、正規化として機能する、クラス内の有用な類似性構造を保持するために、各クラスのハイパースフィアを学習することを提案します。広範な実験は、最先端の方法と比較することにより、私たちの提案の優位性を示しています。
The objective of deep metric learning (DML) is to learn embeddings that can capture semantic similarity and dissimilarity information among data points. Existing pairwise or tripletwise loss functions used in DML are known to suffer from slow convergence due to a large proportion of trivial pairs or triplets as the model improves. To improve this, ranking-motivated structured losses are proposed recently to incorporate multiple examples and exploit the structured information among them. They converge faster and achieve state-of-the-art performance. In this work, we unveil two limitations of existing ranking-motivated structured losses and propose a novel ranked list loss to solve both of them. First, given a query, only a fraction of data points is incorporated to build the similarity structure. Consequently, some useful examples are ignored and the structure is less informative. To address this, we propose to build a set-based similarity structure by exploiting all instances in the gallery. The learning setting can be interpreted as few-shot retrieval: given a mini-batch, every example is iteratively used as a query, and the rest ones compose the gallery to search, i.e., the support set in few-shot setting. The rest examples are split into a positive set and a negative set. For every mini-batch, the learning objective of ranked list loss is to make the query closer to the positive set than to the negative set by a margin. Second, previous methods aim to pull positive pairs as close as possible in the embedding space. As a result, the intraclass data distribution tends to be extremely compressed. In contrast, we propose to learn a hypersphere for each class in order to preserve useful similarity structure inside it, which functions as regularisation. Extensive experiments demonstrate the superiority of our proposal by comparing with the state-of-the-art methods.