Aff-Wild Database and AffWildNet
 HCIのコンテキストでは、実際の状態で人間の表情の影響を認識する自動システムを構築することは、機械を自然に人間と相互作用させるために非常に重要です。ただし、既存の顔の感情データベースには、通常、十分に制御された条件下での限られたシナリオでの表現が含まれています。 Aff-Wildは現在、自然界の自然な表情と価数と覚醒からなる最大のデータベースです。このプロジェクトの最初の貢献は、Aff-Wildデータベースの拡張の完了です。このデータベースは、YouTubeからビデオを収集することによって実現されます。 FFLD2検出器を使用してフレーム内の顔を検出し、527056、94223、および135145フレームを使用して、データセット全体をトレイン、検証、およびテストセットに分割します。多様性は、年齢、民族性、価数および覚醒の価値に関して保証されています。男性と女性の比率は1に近い。自動システムを構築するために使用される技術に関しては、感情課題のほとんどすべての勝利方法がDNN技術を採用しているため、ディープラーニングが優れています。このプロジェクトの2番目の貢献は、エンドツーエンドのDNNがCNNとRNNのジョイントブロックを持つように構築され、シーケンシャルデータの各フレームの価と覚醒の推定を提供することです。 VGGFace、ResNet、DenseNet、および対応するCNNブロックの事前トレーニングモデル、およびLSTM、GRU、IndRNN、RNNブロックのアテンションメカニズムは、最適な組み合わせを見つけることを目指して実験されています。微調整と転移学習技術も試されています。テストデータのCCC評価値を比較すると、最適なモデルは、注意メカニズムを備えた2層GRUに接続された事前トレーニング済みのVGGFaceであることがわかります。モデルのテストパフォーマンスは、シーケンス長80の原子価では0.555 CCC、シーケンス長70の覚醒では0.499 CCCです。
In the context of HCI, building an automatic system to recognize affect of human facial expression in real-world condition is very crucial to make machine interact naturallisticaly with a man. However, existing facial emotion databases usually contain expression in the limited scenario under well-controlled condition. Aff-Wild is currently the largest database consisting of spontaneous facial expression in the wild annotated with valence and arousal. The first contribution of this project is the completion of extending Aff-Wild database which is fulfilled by collecting videos from YouTube on which the videos have spontaneous facial expressions in the wild, annotating videos with valence and arousal ranging in [-1,1], detecting faces in frames using FFLD2 detector and partitioning the whole data set into train, validate and test set, with 527056, 94223 and 135145 frames. The diversity is guaranteed regarding age, ethnicity and values of valence and arousal. The ratio of male to female is close to 1. Regarding the techniques used to build the automatic system, deep learning is outstanding since almost all winning methods in emotion challenges adopt DNN techniques. The second contribution of this project is that an end-to-end DNN is constructed to have joint CNN and RNN block and gives the estimation on valence and arousal for each frame in sequential data. VGGFace, ResNet, DenseNet with the corresponding pre-trained model for CNN block and LSTM, GRU, IndRNN, Attention mechanism for RNN block are experimented aiming to find the best combination. Fine tuning and transfer learning techniques are also tried out. By comparing the CCC evaluation value on test data, the best model is found to be pre-trained VGGFace connected with 2 layers GRU with attention mechanism. The models test performance is 0.555 CCC for valence with sequence length 80 and 0.499 CCC for arousal with sequence length 70.
