arXiv reaDer
実世界環境での深い残余ネットワークを使用した顔の感情認識
Facial Emotion Recognition using Deep Residual Networks in Real-World Environments
視覚的な手がかりを使用した自動影響認識は、人間と機械の間の完全な相互作用に向けた重要なタスクです。アプリケーションは、個別指導システムと人間のコンピューターの相互作用で見つけることができます。その方向に向けた重要なステップは、顔の特徴抽出です。この論文では、RealEyes社が提供する、実際に大量に収集されたビデオデータセットでトレーニングされた顔の特徴抽出モデルを提案します。データセットは、100万のラベル付きフレームと2,616千のサブジェクトで構成されています。時間情報は感情認識ドメインにとって重要であるため、LSTMセルを使用してデータの時間ダイナミクスをキャプチャします。顔の感情のモデリングに関する事前トレーニング済みモデルの好ましい特性を示すために、RECOLAデータベースを使用して、現在の最先端のアプローチと比較します。私たちのモデルは、一致相関係数に関して最良の結果を提供します。
Automatic affect recognition using visual cues is an important task towards a complete interaction between humans and machines. Applications can be found in tutoring systems and human computer interaction. A critical step towards that direction is facial feature extraction. In this paper, we propose a facial feature extractor model trained on an in-the-wild and massively collected video dataset provided by the RealEyes company. The dataset consists of a million labelled frames and 2,616 thousand subjects. As temporal information is important to the emotion recognition domain, we utilise LSTM cells to capture the temporal dynamics in the data. To show the favourable properties of our pre-trained model on modelling facial affect, we use the RECOLA database, and compare with the current state-of-the-art approach. Our model provides the best results in terms of concordance correlation coefficient.
updated: Thu Nov 04 2021 10:08:22 GMT+0000 (UTC)
published: Thu Nov 04 2021 10:08:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト