arXiv reaDer
双曲線ビジョントランスフォーマー:メトリック学習の改善の組み合わせ
Hyperbolic Vision Transformers: Combining Improvements in Metric Learning
メトリック学習は、類似したクラスの埋め込みが選択されたメトリックに近くなり、異なるもののために押し離されることを奨励する、非常に識別力のあるモデルを学習することを目的としています。一般的なレシピは、エンコーダーを使用して埋め込みを抽出し、距離ベースの損失関数を使用して表現を一致させることです。通常、ユークリッド距離が使用されます。双曲データの埋め込みを学習することへの新たな関心は、双曲幾何学が自然データに有益である可能性があることを示唆しています。この一連の作業に続いて、メトリック学習のための新しい双曲線ベースのモデルを提案します。私たちの方法の中核は、双曲空間にマッピングされた出力埋め込みを備えたビジョントランスです。これらの埋め込みは、修正されたペアワイズクロスエントロピー損失を使用して直接最適化されます。新しい最先端のパフォーマンスを実現する4つのデータセットで6つの異なる定式化を使用して、提案されたモデルを評価します。ソースコードはhttps://github.com/htdt/hyp_metricで入手できます。
Metric learning aims to learn a highly discriminative model encouraging the embeddings of similar classes to be close in the chosen metrics and pushed apart for dissimilar ones. The common recipe is to use an encoder to extract embeddings and a distance-based loss function to match the representations -- usually, the Euclidean distance is utilized. An emerging interest in learning hyperbolic data embeddings suggests that hyperbolic geometry can be beneficial for natural data. Following this line of work, we propose a new hyperbolic-based model for metric learning. At the core of our method is a vision transformer with output embeddings mapped to hyperbolic space. These embeddings are directly optimized using modified pairwise cross-entropy loss. We evaluate the proposed model with six different formulations on four datasets achieving the new state-of-the-art performance. The source code is available at https://github.com/htdt/hyp_metric.
updated: Tue Mar 22 2022 09:40:22 GMT+0000 (UTC)
published: Mon Mar 21 2022 09:48:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト