Frame attention networks for facial expression recognition in videos
  ビデオベースの表情認識は、特定のビデオをいくつかの基本的な感情に分類することを目的としています。このタスクには、個々のフレームの顔の特徴を統合する方法が重要です。この論文では、フレームアテンションネットワーク(FAN)を提案し、エンドツーエンドフレームワークでいくつかの識別フレームを自動的に強調表示します。ネットワークは、入力としてさまざまな数の顔画像を含むビデオを取り、固定寸法の表現を生成します。ネットワーク全体は2つのモジュールで構成されています。特徴埋め込みモジュールは、顔画像を特徴ベクトルに埋め込む深い畳み込みニューラルネットワーク(CNN)です。フレームアテンションモジュールは、特徴ベクトルを適応的に集約して単一の識別ビデオ表現を形成するために使用される複数のアテンションウェイトを学習します。 CK +およびAFEW8.0データセットで広範な実験を実施しています。提案されたFANは、他のCNNベースの方法と比較して優れたパフォーマンスを示し、CK +で最先端のパフォーマンスを達成します。
The video-based facial expression recognition aims to classify a given video into several basic emotions. How to integrate facial features of individual frames is crucial for this task. In this paper, we propose the Frame Attention Networks (FAN), to automatically highlight some discriminative frames in an end-to-end framework. The network takes a video with a variable number of face images as its input and produces a fixed-dimension representation. The whole network is composed of two modules. The feature embedding module is a deep Convolutional Neural Network (CNN) which embeds face images into feature vectors. The frame attention module learns multiple attention weights which are used to adaptively aggregate the feature vectors to form a single discriminative video representation. We conduct extensive experiments on CK+ and AFEW8.0 datasets. Our proposed FAN shows superior performance compared to other CNN based methods and achieves state-of-the-art performance on CK+.
updated: Thu Sep 12 2019 07:21:44 GMT+0000 (UTC)
published: Sat Jun 29 2019 12:11:44 GMT+0000 (UTC)
