k-Nearest Neighbor(k-NN)分類器やk-meansクラスタリングなどの多くの機械学習アルゴリズムでは、多くの場合、その成功は異なるデータポイント間の距離の計算に使用されるメトリックに大きく依存します。このようなメトリックを定義するための効果的なソリューションは、ラベル付きのトレーニングサンプルのセットからそれを学習することです。この作業では、高速でスケーラブルなアルゴリズムを提案して、マハラノビス距離メトリックを学習します。マージン最大化の原理を使用してより優れた一般化パフォーマンスを達成することにより、このアルゴリズムはメトリック学習を凸最適化問題として定式化し、正の半正定(psd)行列は未知の変数です。特殊な勾配降下法が提案されています。私たちのアルゴリズムは、既存の方法に比べてはるかに効率的であり、スケーラビリティのパフォーマンスが優れています。ベンチマークデータセットの実験では、最先端のメトリック学習アルゴリズムと比較して、アルゴリズムが計算の複雑さを軽減し、同等の分類精度を達成できることが示唆されています。
For many machine learning algorithms such as k-Nearest Neighbor (k-NN) classifiers and k -means clustering, often their success heavily depends on the metric used to calculate distances between different data points. An effective solution for defining such a metric is to learn it from a set of labeled training samples. In this work, we propose a fast and scalable algorithm to learn a Mahalanobis distance metric. By employing the principle of margin maximization to achieve better generalization performances, this algorithm formulates the metric learning as a convex optimization problem and a positive semidefinite (psd) matrix is the unknown variable. a specialized gradient descent method is proposed. our algorithm is much more efficient and has a better performance in scalability compared with existing methods. Experiments on benchmark data sets suggest that, compared with state-of-the-art metric learning algorithms, our algorithm can achieve a comparable classification accuracy with reduced computational complexity.