arXiv reaDer
顔射を伴う事前訓練されたモデルを使用した感情行動分析
Affective Behaviour Analysis Using Pretrained Model with Facial Priori
感情行動分析は、その幅広い用途のために研究者の注目を集めています。ただし、大規模な顔画像の正確な注釈を取得するのは手間がかかります。したがって、ラベルのない顔画像で事前トレーニングされたマスクオートエンコーダ(MAE)を介して以前の顔情報を利用することを提案します。さらに、MAEの事前トレーニング済みVision Transformer(ViT)とAffectNetの事前トレーニング済みCNNを組み合わせて、マルチタスクの感情認識を実行します。表現とアクションユニット(AU)スコアは、価数覚醒(VA)回帰の純粋で無傷の機能であることがわかります。その結果、AffectNetの事前トレーニング済みCNNを利用して、ViTから式およびAUスコアと連結する式スコアを抽出し、最終的なVA機能を取得します。さらに、式認識タスク用に2つの並列MAE事前トレーニング済みViTを使用した共同トレーニングフレームワークも提案します。 2つのビューを独立させるために、トレーニングプロセス中にほとんどのパッチをランダムにマスクします。次に、JS発散が実行され、2つのビューの予測が可能な限り一貫したものになります。 ABAW4の結果は、私たちの方法が効果的であることを示しています。
Affective behaviour analysis has aroused researchers' attention due to its broad applications. However, it is labor exhaustive to obtain accurate annotations for massive face images. Thus, we propose to utilize the prior facial information via Masked Auto-Encoder (MAE) pretrained on unlabeled face images. Furthermore, we combine MAE pretrained Vision Transformer (ViT) and AffectNet pretrained CNN to perform multi-task emotion recognition. We notice that expression and action unit (AU) scores are pure and intact features for valence-arousal (VA) regression. As a result, we utilize AffectNet pretrained CNN to extract expression scores concatenating with expression and AU scores from ViT to obtain the final VA features. Moreover, we also propose a co-training framework with two parallel MAE pretrained ViT for expression recognition tasks. In order to make the two views independent, we random mask most patches during the training process. Then, JS divergence is performed to make the predictions of the two views as consistent as possible. The results on ABAW4 show that our methods are effective.
updated: Sun Jul 24 2022 07:28:08 GMT+0000 (UTC)
published: Sun Jul 24 2022 07:28:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト