arXiv reaDer
時空間畳み込みニューラルネットワークによる継続的な感情認識
Continuous Emotion Recognition with Spatiotemporal Convolutional Neural Networks
感情コンピューティングと感情認識への注目は、過去10年間で高まっています。顔の表情は、人間の行動の特定のパターンを描写し、人間の感情状態を説明するための最も強力な方法の1つです。それにもかかわらず、人間でさえ、顔の表情を識別することは困難であり、顔の表情認識(FER)のための自動ビデオベースのシステムは、しばしば個人間の表情のばらつき、および多様で異文化間のトレーニングデータセットの欠如に悩まされてきました。ただし、実際にキャプチャされたビデオシーケンスや、次元モデルなどのより複雑な感情表現を使用すると、ディープFERシステムにはより識別力のある特徴表現を学習する機能があります。この論文では、価数と覚醒の連続的な感情空間を考慮して、野生の設定で記録された長いビデオシーケンスの畳み込みニューラルネットワーク(CNN)に基づく最先端のアプローチの調査を提示します。 FERシステムと感情の次元表現に3D-CNNを使用した研究はほとんどないため、ビデオに不可欠な伝達学習を操作するために、事前にトレーニングされた2D-CNNモデルの重みの膨張を可能にする膨張3D-CNNアーキテクチャを提案します。ベースのアプリケーション。ベースラインとして、長短期記憶ネットワークを備えた2D-CNNアーキテクチャカスケードネットワークも検討しました。したがって、顔の特徴の時空間表現と、感情予測。 RAF-DBおよびSEWA-DBデータセットの実験結果は、これらの微調整されたアーキテクチャにより、生のピクセル画像から時空間情報を効果的にエンコードでき、現在の最先端技術よりもはるかに優れた結果を達成できることを示しています。
The attention in affect computing and emotion recognition has increased in the last decade. Facial expressions are one of the most powerful ways for depicting specific patterns in human behavior and describing human emotional state. Nevertheless, even for humans, identifying facial expressions is difficult, and automatic video-based systems for facial expression recognition (FER) have often suffered from variations in expressions among individuals, and from a lack of diverse and cross-culture training datasets. However, with video sequences captured in-the-wild and more complex emotion representation such as dimensional models, deep FER systems have the ability to learn more discriminative feature representations. In this paper, we present a survey of the state-of-the-art approaches based on convolutional neural networks (CNNs) for long video sequences recorded with in-the-wild settings, by considering the continuous emotion space of valence and arousal. Since few studies have used 3D-CNN for FER systems and dimensional representation of emotions, we propose an inflated 3D-CNN architecture, allowing for weight inflation of pre-trained 2D-CNN model, in order to operate the essential transfer learning for our video-based application. As a baseline, we also considered a 2D-CNN architecture cascaded network with a long short term memory network, therefore we could finally conclude with a model comparison over two approaches for spatiotemporal representation of facial features and performing the regression of valence/arousal values for emotion prediction. The experimental results on RAF-DB and SEWA-DB datasets have shown that these fine-tuned architectures allow to effectively encode the spatiotemporal information from raw pixel images, and achieved far better results than the current state-of-the-art.
updated: Wed Nov 18 2020 13:42:05 GMT+0000 (UTC)
published: Wed Nov 18 2020 13:42:05 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト