表情認識の最新の結果を達成するために、畳み込みニューラルネットワーク(CNN)によって学習された機械的特徴とbag-of-visual-words(BOVW)モデルによって計算された手作りの特徴を組み合わせたアプローチを提示します。機械的特徴を取得するために、複数のCNNアーキテクチャ、事前にトレーニングされたモデル、およびトレーニング手順を試します。例えば密-疎-密のように。 2種類の特徴を融合した後、ローカルテストフレームワークを使用して、各テストイメージのクラスラベルを予測します。ローカル学習フレームワークは3つのステップに基づいています。最初に、入力テスト画像に最も近いトレーニングサンプルを選択するために、k最近傍モデルが適用されます。次に、1対すべてのサポートベクターマシン(SVM)分類器が、選択したトレーニングサンプルでトレーニングされます。最後に、SVM分類器を使用して、トレーニングされたテストイメージのクラスラベルのみを予測します。私たちの以前の仕事では、ローカル学習を手作りの特徴と組み合わせて使用しましたが、私たちの知る限り、ローカル学習は深層特徴と組み合わせて使用されたことはありません。 2013年の表情認識(FER)チャレンジデータセット、FER+データセット、およびAffectNetデータセットに関する実験は、このアプローチが最先端の結果を達成することを示しています。 FER 2013で75.42%、FER+で87.76%、AffectNet 8ウェイ分類で59.58%、AffectNet 7ウェイ分類で63.31%の最高精度で、すべてのデータセットにおいて最新の方法を1%以上超えています。
We present an approach that combines automatic features learned by convolutional neural networks (CNN) and handcrafted features computed by the bag-of-visual-words (BOVW) model in order to achieve state-of-the-art results in facial expression recognition. To obtain automatic features, we experiment with multiple CNN architectures, pre-trained models and training procedures, e.g. Dense-Sparse-Dense. After fusing the two types of features, we employ a local learning framework to predict the class label for each test image. The local learning framework is based on three steps. First, a k-nearest neighbors model is applied in order to select the nearest training samples for an input test image. Second, a one-versus-all Support Vector Machines (SVM) classifier is trained on the selected training samples. Finally, the SVM classifier is used to predict the class label only for the test image it was trained for. Although we have used local learning in combination with handcrafted features in our previous work, to the best of our knowledge, local learning has never been employed in combination with deep features. The experiments on the 2013 Facial Expression Recognition (FER) Challenge data set, the FER+ data set and the AffectNet data set demonstrate that our approach achieves state-of-the-art results. With a top accuracy of 75.42% on FER 2013, 87.76% on the FER+, 59.58% on AffectNet 8-way classification and 63.31% on AffectNet 7-way classification, we surpass the state-of-the-art methods by more than 1% on all data sets.