フェイシャルアクションユニット(AU)の認識は、感情分析に不可欠であり、精神状態分析に広く適用されています。 AU認識に関する既存の作業には、通常、AUラベルの付いた大きな顔のデータセットが必要です。ただし、手動のAUアノテーションは専門知識を必要とし、時間がかかる場合があります。この作業では、AUラベルのない多数のWeb顔画像と、共同トレーニング法に触発されたAUアノテーション付きの比較的小さな顔データセットを利用して、AU認識の半教師付きアプローチを提案します。提供されたマルチビュー機能とモデルの再トレーニングを必要とする従来の共同トレーニング方法とは異なり、半教師付き顔AU認識のための新しい共同トレーニング方法、つまりマルチラベル共同正規化を提案します。 2つのディープニューラルネットワークを使用して、ラベル付きとラベルなしの両方の顔画像のマルチビュー機能を生成します。マルチビュー損失は、2つの機能ジェネレーターに条件付きの独立表現を強制するように設計されています。 2つのビューの予測の一貫性を制約するために、2つのビューの予測されたAU確率分布の距離を最小化することにより、マルチラベル共正則化損失をさらに提案します。さらに、個々のAU間の関係の事前知識は、ラベルの付いていない大きなデータセットからの有用な情報を活用するためのグラフ畳み込みネットワーク(GCN)を通じて埋め込まれます。いくつかのベンチマークでの実験は、提案されたアプローチがAUラベルなしで顔画像の大規模なデータセットを効果的に活用して、AU認識精度を改善し、最先端の半教師付きAU認識方法よりも優れていることを示しています。
Facial action units (AUs) recognition is essential for emotion analysis and has been widely applied in mental state analysis. Existing work on AU recognition usually requires big face dataset with AU labels; however, manual AU annotation requires expertise and can be time-consuming. In this work, we propose a semi-supervised approach for AU recognition utilizing a large number of web face images without AU labels and a relatively small face dataset with AU annotations inspired by the co-training methods. Unlike traditional co-training methods that require provided multi-view features and model re-training, we propose a novel co-training method, namely multi-label co-regularization, for semi-supervised facial AU recognition. Two deep neural networks are utilized to generate multi-view features for both labeled and unlabeled face images, and a multi-view loss is designed to enforce the two feature generators to get conditional independent representations. In order to constrain the prediction consistency of the two views, we further propose a multi-label co-regularization loss by minimizing the distance of the predicted AU probability distributions of two views. In addition, prior knowledge of the relationship between individual AUs is embedded through a graph convolutional network (GCN) for exploiting useful information from the big unlabeled dataset. Experiments on several benchmarks show that the proposed approach can effectively leverage large datasets of face images without AU labels to improve the AU recognition accuracy and outperform the state-of-the-art semi-supervised AU recognition methods.