本論文では、協調的クロスドメイン動的画像ネットワーク(CCDN)を使用した新しい4D顔表情認識(FER)手法を提案します。顔スキャンの4Dデータが与えられると、まずその幾何学的画像を計算し、次にそれらの相関情報を提案されたクロスドメイン画像表現に結合します。次に、取得したセットを使用して、単一の画像の観点から経時的な顔の変形をカプセル化するランクプーリングを介して、クロスドメイン動的画像(CDI)を生成します。トレーニングフェーズでは、これらのCDIがエンドツーエンドのディープラーニングモデルに入力され、結果の予測が式の分類でパフォーマンスを向上させるためにマルチビューで連携します。さらに、トレーニングデータスケールを拡張するだけでなく、FERのパフォーマンスを向上させるために重要な顔の筋肉の動きパターンを導入する4D拡張スキームを提案します。広く採用されている設定の下で一般的に使用されるBU-4DFEデータセットに関する広範な実験の結果は、提案された方法がその有効性を示す96.5%の精度を達成することにより、最先端の4D FER方法よりも優れていることを示しています。
This paper proposes a novel 4D Facial Expression Recognition (FER) method using Collaborative Cross-domain Dynamic Image Network (CCDN). Given a 4D data of face scans, we first compute its geometrical images, and then combine their correlated information in the proposed cross-domain image representations. The acquired set is then used to generate cross-domain dynamic images (CDI) via rank pooling that encapsulates facial deformations over time in terms of a single image. For the training phase, these CDIs are fed into an end-to-end deep learning model, and the resultant predictions collaborate over multi-views for performance gain in expression classification. Furthermore, we propose a 4D augmentation scheme that not only expands the training data scale but also introduces significant facial muscle movement patterns to improve the FER performance. Results from extensive experiments on the commonly used BU-4DFE dataset under widely adopted settings show that our proposed method outperforms the state-of-the-art 4D FER methods by achieving an accuracy of 96.5% indicating its effectiveness.