Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face Learning
深い畳み込みニューラルネットワークと大規模なデータセットの最近の開発により、深い顔認識は目覚ましい進歩を遂げ、さまざまなアプリケーションで広く使用されています。ただし、既存の公開顔データセットとは異なり、顔認識の多くの実際のシナリオでは、トレーニングデータセットの深さが浅いため、IDごとに2つの顔画像しか使用できません。サンプルの不均一な増加に伴い、このような問題は、より一般的なケース、別名ロングテールフェイスラーニングに変換されます。これは、データの不均衡とクラス内の多様性に同時に悩まされます。これらの悪条件はトレーニングに損傷を与え、モデルのパフォーマンスを低下させます。セミシャムトレーニング(SST)に基づいて、これらの問題に対処するために、マルチエージェントセミシャムトレーニング(MASST)という名前の高度なソリューションを紹介します。 MASSTには、プローブネットワークと複数のギャラリーエージェントが含まれ、前者はプローブ機能をエンコードすることを目的とし、後者はプロトタイプ(ギャラリー機能)をエンコードするネットワークのスタックを構成します。トレーニングの反復ごとに、スタックから順番にローテーションされるギャラリーネットワークと、プローブネットワークが一対のセミシャムネットワークを形成します。ロングテール(または浅い)データとトレーニング損失が与えられると、MASSTは損失の状況を滑らかにし、複数のエージェントと更新ギャラリーキューの助けを借りてリプシッツ連続性を満たすという理論的および経験的分析を提供します。提案された方法は、余分な依存性がないため、既存の損失関数およびネットワークアーキテクチャと簡単に統合できます。トレーニングには複数のギャラリーエージェントが使用されますが、推論に必要なのはプローブネットワークのみであり、推論コストは増加しません。広範な実験と比較により、ロングテールおよび浅い顔の学習に対するMASSTの利点が実証されています。
With the recent development of deep convolutional neural networks and large-scale datasets, deep face recognition has made remarkable progress and been widely used in various applications. However, unlike the existing public face datasets, in many real-world scenarios of face recognition, the depth of training dataset is shallow, which means only two face images are available for each ID. With the non-uniform increase of samples, such issue is converted to a more general case, a.k.a long-tail face learning, which suffers from data imbalance and intra-class diversity dearth simultaneously. These adverse conditions damage the training and result in the decline of model performance. Based on the Semi-Siamese Training (SST), we introduce an advanced solution, named Multi-Agent Semi-Siamese Training (MASST), to address these problems. MASST includes a probe network and multiple gallery agents, the former aims to encode the probe features, and the latter constitutes a stack of networks that encode the prototypes (gallery features). For each training iteration, the gallery network, which is sequentially rotated from the stack, and the probe network form a pair of semi-siamese networks. We give the theoretical and empirical analysis that, given the long-tail (or shallow) data and training loss, MASST smooths the loss landscape and satisfies the Lipschitz continuity with the help of multiple agents and the updating gallery queue. The proposed method is out of extra-dependency, thus can be easily integrated with the existing loss functions and network architectures. It is worth noting that, although multiple gallery agents are employed for training, only the probe network is needed for inference, without increasing the inference cost. Extensive experiments and comparisons demonstrate the advantages of MASST for long-tail and shallow face learning.
updated: Mon Jan 24 2022 10:15:39 GMT+0000 (UTC)
published: Mon May 10 2021 04:57:32 GMT+0000 (UTC)
