arXiv reaDer
DeepFN:深い顔の正規化による一般化可能な顔のアクションユニットの認識に向けて
DeepFN: Towards Generalizable Facial Action Unit Recognition with Deep Face Normalization
顔のアクションユニットの認識には、市場調査から心理療法、画像のキャプションからエンターテインメントまで、多くの用途があります。最近の進歩にもかかわらず、これらのモデルの展開は、目に見えない人々や人口統計への一般化が限られているために妨げられてきました。この作業では、個人(40人の被験者)、性別(男性と女性)、肌のタイプ(暗い色と明るい色)、データベース(BP4DとDISFA)などのいくつかの側面にわたるパフォーマンスの詳細な分析を行います。データの分散を抑えるために、自己監視型ノイズ除去オートエンコーダの概念を使用して、さまざまな人の表情を共通の顔テンプレートに転送し、顔のトレーニングと評価に使用する深顔正規化(DeepFN)の方法を設計します。アクション認識モデル。個人に依存しないモデルは、個人に依存するモデル(60.3%)よりも大幅に低いパフォーマンス(55%の平均F1と40人の被験者の精度)をもたらし、5.3%の一般化ギャップにつながることを示します。ただし、新しく導入されたDeepFNを使用してデータを正規化すると、個人に依存しないモデルのパフォーマンスが大幅に向上し(59.6%)、ギャップが効果的に減少しました。同様に、性別(2.4%)、肌のタイプ(5.3%)、データセット(9.4%)を考慮すると、一般化のギャップが観察されました。これらは、DeepFNを使用することで大幅に減少しました。これらの調査結果は、より一般化可能な顔のアクションユニット認識システムの作成に向けた重要なステップを表しています。
Facial action unit recognition has many applications from market research to psychotherapy and from image captioning to entertainment. Despite its recent progress, deployment of these models has been impeded due to their limited generalization to unseen people and demographics. This work conducts an in-depth analysis of performance across several dimensions: individuals(40 subjects), genders (male and female), skin types (darker and lighter), and databases (BP4D and DISFA). To help suppress the variance in data, we use the notion of self-supervised denoising autoencoders to design a method for deep face normalization(DeepFN) that transfers facial expressions of different people onto a common facial template which is then used to train and evaluate facial action recognition models. We show that person-independent models yield significantly lower performance (55% average F1 and accuracy across 40 subjects) than person-dependent models (60.3%), leading to a generalization gap of 5.3%. However, normalizing the data with the newly introduced DeepFN significantly increased the performance of person-independent models (59.6%), effectively reducing the gap. Similarly, we observed generalization gaps when considering gender (2.4%), skin type (5.3%), and dataset (9.4%), which were significantly reduced with the use of DeepFN. These findings represent an important step towards the creation of more generalizable facial action unit recognition systems.
updated: Wed Mar 03 2021 15:50:51 GMT+0000 (UTC)
published: Wed Mar 03 2021 15:50:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト