arXiv reaDer
StyleGANで顔認識を強化するには?
How to Boost Face Recognition with StyleGAN?
最先端の顔認識システムには、大量のラベル付きトレーニング データが必要です。顔認識アプリケーションではプライバシーが優先されるため、データは有名人の Web クロールに限定されます。これには、民族の偏った分布や ID の数の制限などの問題があります。一方、業界における自己監視型の革命は、顔認識への関連技術の適応に関する研究を動機付けています。最も一般的な実用的なトリックの 1 つは、同一性を維持しながら、高解像度で忠実度の高いモデル (たとえば、StyleGAN のようなもの) から抽出されたサンプルによってデータセットを拡張することです。 StyleGANのエンコーダーを微調整することに基づく単純なアプローチにより、最先端の顔認識を改善し、合成顔IDのトレーニングと比較してパフォーマンスが向上することを示します。また、制御可能な民族構成を持つ大規模なラベル付けされていないデータセット、AfricanFaceSet-5M (さまざまな人々 の 500 万枚の画像) と AsianFaceSet-3M (さまざまな人々の 300 万枚の画像) を収集し、それぞれの事前トレーニングにより、人種の認識が向上することを示しています。それぞれの民族性 (および他の民族性も) を考慮し、ラベル付けされていないすべてのデータセットを組み合わせると、最大のパフォーマンス向上が得られます。私たちの自己教師あり戦略は、限られた量のラベル付きトレーニング データで最も有用です。これは、よりカスタマイズされた顔認識タスクやプライバシーの問題に直面している場合に有益です。評価は、標準の RFW データセットと新しい大規模な RB-WebFace ベンチマークに基づいて提供されます。
State-of-the-art face recognition systems require huge amounts of labeled training data. Given the priority of privacy in face recognition applications, the data is limited to celebrity web crawls, which have issues such as skewed distributions of ethnicities and limited numbers of identities. On the other hand, the self-supervised revolution in the industry motivates research on adaptation of the related techniques to facial recognition. One of the most popular practical tricks is to augment the dataset by the samples drawn from the high-resolution high-fidelity models (e.g. StyleGAN-like), while preserving the identity. We show that a simple approach based on fine-tuning an encoder for StyleGAN allows to improve upon the state-of-the-art facial recognition and performs better compared to training on synthetic face identities. We also collect large-scale unlabeled datasets with controllable ethnic constitution -- AfricanFaceSet-5M (5 million images of different people) and AsianFaceSet-3M (3 million images of different people) and we show that pretraining on each of them improves recognition of the respective ethnicities (as well as also others), while combining all unlabeled datasets results in the biggest performance increase. Our self-supervised strategy is the most useful with limited amounts of labeled training data, which can be beneficial for more tailored face recognition tasks and when facing privacy concerns. Evaluation is provided based on a standard RFW dataset and a new large-scale RB-WebFace benchmark.
updated: Tue Oct 18 2022 18:41:56 GMT+0000 (UTC)
published: Tue Oct 18 2022 18:41:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト