arXiv reaDer
畳み込みニューラルネットワークを使用したオクルードされた顔の表情の認識
Recognizing Facial Expressions of Occluded Faces using Convolutional Neural Networks
 この論文では、重度の閉塞を伴う困難な設定での表情認識のための畳み込みニューラルネットワーク(CNN)に基づくアプローチを提示します。具体的には、仮想現実(VR)ヘッドセットを着用している人の顔の表情を認識して、顔の上部を本質的に塞いでいます。顔がひどく隠されているこの設定に対してニューラルネットワークを正確に訓練するために、顔の上半分を意図的に隠して訓練例を修正します。これにより、ニューラルネットワークは顔の下部に焦点を合わせ、顔全体でトレーニングされたモデルよりも高い精度を得ることができます。 FER +とAffectNetの2つのベンチマークデータセットに関する実証結果は、下半分の顔でのCNNモデルの予測が、顔全体で訓練されたベースラインCNNモデルよりも最大13%高いことを示しており、VR設定への適合性を証明していますさらに、下半分の顔のモデルの予測は、顔全体のベースラインモデルの予測よりも10%以下であり、顔の表情を正確に予測するのに十分な手がかりが顔の下部にあることを証明しています。
In this paper, we present an approach based on convolutional neural networks (CNNs) for facial expression recognition in a difficult setting with severe occlusions. More specifically, our task is to recognize the facial expression of a person wearing a virtual reality (VR) headset which essentially occludes the upper part of the face. In order to accurately train neural networks for this setting, in which faces are severely occluded, we modify the training examples by intentionally occluding the upper half of the face. This forces the neural networks to focus on the lower part of the face and to obtain better accuracy rates than models trained on the entire faces. Our empirical results on two benchmark data sets, FER+ and AffectNet, show that our CNN models' predictions on lower-half faces are up to 13% higher than the baseline CNN models trained on entire faces, proving their suitability for the VR setting. Furthermore, our models' predictions on lower-half faces are no more than 10% under the baseline models' predictions on full faces, proving that there are enough clues in the lower part of the face to accurately predict facial expressions.
updated: Tue Nov 12 2019 13:53:56 GMT+0000 (UTC)
published: Tue Nov 12 2019 13:53:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト