Landmarks-assisted Collaborative Deep Framework for Automatic 4D Facial Expression Recognition
 私たちは、自動4D FERのための新しいランドマーク支援型の協調的なエンドツーエンドのディープフレームワークを提案します。 4D顔スキャンデータを使用して、さまざまな幾何学的画像を計算し、その後、ランクプーリングを使用して、経時的な重要な顔の筋肉の動きをカプセル化した動的画像を生成します。同様に、指定された3Dランドマークは、バイナリイメージとして2D平面に投影され、畳み込み層を使用して、すべてのランドマークビデオの特徴ベクトルのシーケンスを抽出します。トレーニング段階では、動的画像を使用してエンドツーエンドのディープネットワークをトレーニングし、ランドマーク画像の特徴ベクトルを使用して長期短期記憶(LSTM)ネットワークをトレーニングします。動的およびランドマーク画像が、提案されたディープフレームワークを使用してマルチビューで連携する場合、最終的に改善された一連の式予測が得られます。グローバルに使用される設定の下で広く採用されているBU-4DFEデータベースでの広範な実験から得られたパフォーマンス結果は、提案された共同フレームワークが最先端の4D FERメソッドよりも優れており、その有効性を実証する96.7%の有望な分類精度に達していることを証明しています。
We propose a novel landmarks-assisted collaborative end-to-end deep framework for automatic 4D FER. Using 4D face scan data, we calculate its various geometrical images, and afterwards use rank pooling to generate their dynamic images encapsulating important facial muscle movements over time. As well, the given 3D landmarks are projected on a 2D plane as binary images and convolutional layers are used to extract sequences of feature vectors for every landmark video. During the training stage, the dynamic images are used to train an end-to-end deep network, while the feature vectors of landmark images are used train a long short-term memory (LSTM) network. The finally improved set of expression predictions are obtained when the dynamic and landmark images collaborate over multi-views using the proposed deep framework. Performance results obtained from extensive experimentation on the widely-adopted BU-4DFE database under globally used settings prove that our proposed collaborative framework outperforms the state-of-the-art 4D FER methods and reach a promising classification accuracy of 96.7% demonstrating its effectiveness.
updated: Fri Feb 07 2020 09:34:25 GMT+0000 (UTC)
published: Fri Oct 11 2019 23:50:57 GMT+0000 (UTC)
