深層学習は、大規模なモデルと大量のラベル付きデータのおかげで、表情認識 (FER) の成功に重要な役割を果たしてきました。ただし、ラベル付きデータを取得するには、多大な人的労力、時間、および資金が必要です。これまでの研究の中には、さまざまな教師なし手法を使用して大量のラベル付きデータの必要性を減らすことに焦点を当てたものもありますが、アクティブ ラーニングと呼ばれる別の有望なアプローチは、FER のコンテキストではほとんど検討されていません。このアプローチには、限られた「ラベル付け予算」を最大限に活用するために、ラベルなしのセットから最も代表的なサンプルを選択してラベル付けすることが含まれます。この論文では、3 つの公開 FER データセット、FER13、RAF-DB、および KDEF に対して 8 つの最新のアクティブ ラーニング手法を実装し、研究します。私たちの調査結果は、既存のアクティブ ラーニング手法が FER のコンテキストではうまく機能せず、おそらく「コールド スタート」と呼ばれる現象に悩まされていることを示しています。コールド スタートは、ラベル付きサンプルの最初のセットがデータセット全体をよく代表していない場合に発生します。この問題に対処するために、私たちは対照的な自己教師あり事前トレーニングを提案します。この事前トレーニングでは、最初にラベルのないデータセット全体に基づいて基礎となる表現を学習します。次に、これをアクティブ ラーニング手法で追跡し、2 ステップのアプローチにより、ランダム サンプリングと比較して最大 9.2% の改善が見られ、事前トレーニングなしの既存の最良のアクティブ ラーニング ベースラインと比較して最大 6.7% の改善が見られることがわかります。この研究のコードは、公開と同時に github.com/ShuvenduRoy/ActiveFER で公開します。
Deep learning has played a significant role in the success of facial expression recognition (FER), thanks to large models and vast amounts of labelled data. However, obtaining labelled data requires a tremendous amount of human effort, time, and financial resources. Even though some prior works have focused on reducing the need for large amounts of labelled data using different unsupervised methods, another promising approach called active learning is barely explored in the context of FER. This approach involves selecting and labelling the most representative samples from an unlabelled set to make the best use of a limited 'labelling budget'. In this paper, we implement and study 8 recent active learning methods on three public FER datasets, FER13, RAF-DB, and KDEF. Our findings show that existing active learning methods do not perform well in the context of FER, likely suffering from a phenomenon called 'Cold Start', which occurs when the initial set of labelled samples is not well representative of the entire dataset. To address this issue, we propose contrastive self-supervised pre-training, which first learns the underlying representations based on the entire unlabelled dataset. We then follow this with the active learning methods and observe that our 2-step approach shows up to 9.2% improvement over random sampling and up to 6.7% improvement over the best existing active learning baseline without the pre-training. We will make the code for this study public upon publication at: github.com/ShuvenduRoy/ActiveFER.