A Multi-Task Learning & Generation Framework: Valence-Arousal, Action Units & Primary Expressions
 過去数年にわたって、影響分析の分野に多くの研究努力が注がれてきました。さまざまなアプローチが提案されています。i)主要な表情の観点からの離散的な感情認識。 ii)表情の強さを固定した場合の、顔のアクションユニット(AU)に関する感情分析。 iii)原子価および覚醒(VA)の観点からの次元感情分析。これらのアプローチは、適切に注釈が付けられた大規模なデータベースを使用して開発され、野生の人々、つまり制御されていない環境での行動を示す場合にのみ有効です。 Aff-Wildは、VAの観点から注釈が付けられた最初の大規模な野外データベース(300ビデオの約1,200,000フレームを含む)です。既存の感情データベースの大部分では、注釈は一次表現、価感覚醒、またはアクションユニットに限定されています。このペーパーでは、最初にAff-Wildデータベースの一部(約234,000フレーム)に8 AUの注釈を付け、別の部分(約288,000フレーム)に7つの基本的な感情カテゴリの注釈を付けて、このデータベースの一部に注釈を付けますVA、AU、またはプライマリ式の観点から。次に、感情認識と顔画像生成のためのマルチタスク学習を設定して取り組みます。マルチタスク学習は、次を使用して実行されます。i)相互依存関係を活用して感情的な属性を学習する共有の隠れ層を持つディープニューラルネットワーク。 ii)生成的敵対ネットワーク(GAN)の弁別器。一方、画像生成はGANのジェネレーターによって実装されます。これら2つのタスクについて、検討したセットアップに適合する損失関数を慎重に設計します。 Aff-Wildデータベースの新しい注釈付き部分に適用した場合の提案アプローチの優れたパフォーマンスを示す実験が提示されます。
Over the past few years many research efforts have been devoted to the field of affect analysis. Various approaches have been proposed for: i) discrete emotion recognition in terms of the primary facial expressions; ii) emotion analysis in terms of facial Action Units (AUs), assuming a fixed expression intensity; iii) dimensional emotion analysis, in terms of valence and arousal (VA). These approaches can only be effective, if they are developed using large, appropriately annotated databases, showing behaviors of people in-the-wild, i.e., in uncontrolled environments. Aff-Wild has been the first, large-scale, in-the-wild database (including around 1,200,000 frames of 300 videos), annotated in terms of VA. In the vast majority of existing emotion databases, their annotation is limited to either primary expressions, or valence-arousal, or action units. In this paper, we first annotate a part (around 234,000 frames) of the Aff-Wild database in terms of 8 AUs and another part (around 288,000 frames) in terms of the 7 basic emotion categories, so that parts of this database are annotated in terms of VA, as well as AUs, or primary expressions. Then, we set up and tackle multi-task learning for emotion recognition, as well as for facial image generation. Multi-task learning is performed using: i) a deep neural network with shared hidden layers, which learns emotional attributes by exploiting their inter-dependencies; ii) a discriminator of a generative adversarial network (GAN). On the other hand, image generation is implemented through the generator of the GAN. For these two tasks, we carefully design loss functions that fit the examined set-up. Experiments are presented which illustrate the good performance of the proposed approach when applied to the new annotated parts of the Aff-Wild database.
