ビデオベースの感情認識は、感情を表す人間の顔の小さな変形を区別する必要がある一方で、異なるアイデンティティによる強い視覚的差異には不変であるため、困難なタスクです。最先端の方法では通常、リカレントニューラルネットワーク(RNN、LSTM、GRU)、畳み込みニューラルネットワーク(CNN、C3D、残差ネットワーク)およびそれらの組み合わせなどの複雑な深層学習モデルを使用します。この論文では、顔画像の公開データセットで事前に訓練されたCNNを(1)空間的注意メカニズムと組み合わせて、特定の感情に対する顔の最も重要な領域をローカライズする、より簡単なアプローチを提案します。一時的なソフトマックスプーリング。指定されたビデオの最も重要なフレームを選択します。困難なEmotiWデータセットの結果は、このアプローチがより複雑なアプローチよりも高い精度を達成できることを示しています。
Video-based emotion recognition is a challenging task because it requires to distinguish the small deformations of the human face that represent emotions, while being invariant to stronger visual differences due to different identities. State-of-the-art methods normally use complex deep learning models such as recurrent neural networks (RNNs, LSTMs, GRUs), convolutional neural networks (CNNs, C3D, residual networks) and their combination. In this paper, we propose a simpler approach that combines a CNN pre-trained on a public dataset of facial images with (1) a spatial attention mechanism, to localize the most important regions of the face for a given emotion, and (2) temporal softmax pooling, to select the most important frames of the given video. Results on the challenging EmotiW dataset show that this approach can achieve higher accuracy than more complex approaches.