arXiv reaDer
対照的な局所ワーピングによる教師なし表情表現学習
Unsupervised Facial Expression Representation Learning with Contrastive Local Warping
この論文では、表情分析のための教師なし表現学習について調査します。 Unsupervised Face Expression Representation (UFER) は調査に値するものであり、スケーリング、アノテーション バイアス、離散ラベルと連続感情の不一致、モデルの事前トレーニングなど、表情分析におけるいくつかの重要な課題に対処する可能性があると考えています。そのような動機で、私たちは対照的なローカル ワーピング (ContraWarping) を使用した UFER メソッドを提案します。これは、感情表現が現在のグローバル変換 (アフィン変換、カラー ジッターなど) に対してロバストであるが、ランダムなローカル ワーピングによって簡単に変更できるという洞察を活用します。したがって、顔画像が与えられると、ContraWarping はいくつかのグローバル変換とローカル ワーピングを使用してそのポジティブ サンプルとネガティブ サンプルを生成し、新しい対照学習フレームワークを設定します。私たちの詳細な調査は、次のことを示しています:1)グローバル変換からのポジティブペアは、一般的な自己教師あり学習(BYOLなど)で悪用される可能性があり、すでにいくつかの有益な機能をもたらし、2)ローカルワーピングからのネガティブペアは明示的に表現を導入します-関連するバリエーションとさらに大幅な改善をもたらします。 ContraWarping に基づいて、表情認識と画像検索の 2 つの表情分析シナリオで UFER の利点を示します。たとえば、線形プロービングに ContraWarping 機能を直接使用すると、RAF-DB で 79.14% の精度が達成され、完全に監視された対応物 (事前トレーニングあり/なしで 88.92% / 84.81%) との差が大幅に縮小されます。
This paper investigates unsupervised representation learning for facial expression analysis. We think Unsupervised Facial Expression Representation (UFER) deserves exploration and has the potential to address some key challenges in facial expression analysis, such as scaling, annotation bias, the discrepancy between discrete labels and continuous emotions, and model pre-training. Such motivated, we propose a UFER method with contrastive local warping (ContraWarping), which leverages the insight that the emotional expression is robust to current global transformation (affine transformation, color jitter, etc.) but can be easily changed by random local warping. Therefore, given a facial image, ContraWarping employs some global transformations and local warping to generate its positive and negative samples and sets up a novel contrastive learning framework. Our in-depth investigation shows that: 1) the positive pairs from global transformations may be exploited with general self-supervised learning (e.g., BYOL) and already bring some informative features, and 2) the negative pairs from local warping explicitly introduce expression-related variation and further bring substantial improvement. Based on ContraWarping, we demonstrate the benefit of UFER under two facial expression analysis scenarios: facial expression recognition and image retrieval. For example, directly using ContraWarping features for linear probing achieves 79.14% accuracy on RAF-DB, significantly reducing the gap towards the full-supervised counterpart (88.92% / 84.81% with/without pre-training).
updated: Thu Mar 16 2023 02:09:47 GMT+0000 (UTC)
published: Thu Mar 16 2023 02:09:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト