LoRRaL: Facial Action Unit Detection Based on Local Region Relation Learning
エンドツーエンドの畳み込み表現学習は、顔のアクションユニット(AU)の検出に非常に効果的であることが証明されています。顔のAU間の共起と相互排除を考慮して、この論文では、局所領域関係学習(LoRRaL)を備えた畳み込みニューラルネットワークを提案します。これは、顔のAU発生検出のエンドツーエンドアプローチのためにAU間の潜在的な関係を組み合わせることができます。 。 LoRRaLは、1)双方向の長期短期メモリ(BiLSTM)を使用して、ローカルAU機能マップを動的かつ順次にエンコードします。2)自己注意メカニズムを使用して、ローカルの顔領域から対応を動的に計算し、AU機能マップを再集計します。 AU共起と相互排除を考慮して、3)連続状態の最新のホップフィールドネットワークを使用して、ローカルの顔の特徴をエンコードしてより特徴的なAU特徴マップにマッピングします。これらのネットワークはすべて、顔の画像を入力として取り、AUの出現にマッピングします。外部データまたは事前トレーニングされたモデルを使用せずに、挑戦的なBP4DおよびDISFAベンチマークに関する実験を行った結果、それぞれ63.5%および61.4%のF1スコアが得られました。これは、提案されたネットワークがAU検出タスクのパフォーマンス向上につながることを示しています。
End-to-end convolution representation learning has been proved to be very effective in facial action unit (AU) detection. Considering the co-occurrence and mutual exclusion between facial AUs, in this paper, we propose convolution neural networks with Local Region Relation Learning (LoRRaL), which can combine latent relationships among AUs for an end-to-end approach to facial AU occurrence detection. LoRRaL consists of 1) use bi-directional long short-term memory (BiLSTM) to dynamically and sequentially encode local AU feature maps, 2) use self-attention mechanism to dynamically compute correspondences from local facial regions and to re-aggregate AU feature maps considering AU co-occurrences and mutual exclusions, 3) use a continuous-state modern Hopfield network to encode and map local facial features to more discriminative AU feature maps, that all these networks take the facial image as input and map it to AU occurrences. Our experiments on the challenging BP4D and DISFA Benchmarks without any external data or pre-trained models results in F1-scores of 63.5% and 61.4% respectively, which shows our proposed networks can lead to performance improvement on the AU detection task.
updated: Wed Apr 14 2021 00:47:58 GMT+0000 (UTC)
published: Wed Sep 23 2020 01:49:56 GMT+0000 (UTC)
