arXiv reaDer
FaceNet: A Unified Embedding for Face Recognition and Clustering
顔認識の分野における最近の重要な進歩にもかかわらず、顔の検証と認識を大規模に効率的に実装することは、現在のアプローチに重大な課題を提示します。この論文では、顔画像からコンパクトなユークリッド空間へのマッピングを直接学習するFaceNetと呼ばれるシステムを提示します。この空間では、距離は顔の類似性の尺度に直接対応します。このスペースが作成されると、顔認識、検証、クラスタリングなどのタスクを、特徴ベクトルとしてFaceNet埋め込みを使用した標準的な手法を使用して簡単に実装できます。この方法では、従来のディープラーニングアプローチのような中間のボトルネックレイヤーではなく、埋め込み自体を直接最適化するようにトレーニングされたディープコンボリューショナルネットワークを使用します。トレーニングするために、新しいオンライントリプレットマイニング手法を使用して生成された、ほぼ整列したマッチング/非マッチングの顔パッチのトリプレットを使用します。このアプローチの利点は、表現効率が大幅に向上することです。顔あたり128バイトのみを使用して、最先端の顔認識パフォーマンスを実現します。広く使用されているLabeled Faces in the Wild(LFW)データセットで、システムは99.63%の新しい記録精度を達成しています。 YouTube Faces DBでは、95.12%を達成しています。私たちのシステムは、両方のデータセットで最高の公開結果と比較してエラー率を30%削減します。また、ハーモニック埋め込みの概念、およびハーモニックトリプレットロスを紹介します。これらは、互いに互換性があり、直接比較できるさまざまなバージョンの顔埋め込み(異なるネットワークで作成)を記述します。
Despite significant recent advances in the field of face recognition, implementing face verification and recognition efficiently at scale presents serious challenges to current approaches. In this paper we present a system, called FaceNet, that directly learns a mapping from face images to a compact Euclidean space where distances directly correspond to a measure of face similarity. Once this space has been produced, tasks such as face recognition, verification and clustering can be easily implemented using standard techniques with FaceNet embeddings as feature vectors. Our method uses a deep convolutional network trained to directly optimize the embedding itself, rather than an intermediate bottleneck layer as in previous deep learning approaches. To train, we use triplets of roughly aligned matching / non-matching face patches generated using a novel online triplet mining method. The benefit of our approach is much greater representational efficiency: we achieve state-of-the-art face recognition performance using only 128-bytes per face. On the widely used Labeled Faces in the Wild (LFW) dataset, our system achieves a new record accuracy of 99.63%. On YouTube Faces DB it achieves 95.12%. Our system cuts the error rate in comparison to the best published result by 30% on both datasets. We also introduce the concept of harmonic embeddings, and a harmonic triplet loss, which describe different versions of face embeddings (produced by different networks) that are compatible to each other and allow for direct comparison between each other.
updated: Wed Jun 17 2015 23:35:47 GMT+0000 (UTC)
published: Thu Mar 12 2015 18:10:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト