相互情報量の正則化 アイデンティティを意識した顔の表情 圧縮されたビデオでの認識
Mutual Information Regularized Identity-aware Facial ExpressionRecognition in Compressed Video
アイデンティティ固有の属性に不変である効果的な表現表現を抽出する方法は、顔の表情認識 (FER) の長期にわたる問題です。以前の方法のほとんどはシーケンスの RGB 画像を処理しますが、既成の貴重な表現に関連する筋肉の動きは圧縮形式に既に組み込まれていると主張しています。この論文では、圧縮ビデオ ドメインで顔の表情表現を排除した被験者間の変動を調査することを目的としています。 2 桁まで圧縮されたドメインでは、残差フレームから式を明示的に推測し、事前トレーニング済みの顔認識ネットワークを使用して I フレームからアイデンティティ要素を抽出することができます。それらの限界的な独立性を強制することにより、表現の特徴は表現に対してより純粋になり、アイデンティティのシフトに対して堅牢であることが期待されます。具体的には、潜在空間における相互情報量 (MI) を最小化するための新しい協調的ミニ ミン ゲームを提案します。 ID ラベルや同一人物からの複数の発現サンプルは、ID の削除には必要ありません。さらに、データセットで頂点フレームに注釈が付けられている場合、補足的な制約をさらに追加して、機能レベルのゲームを規則化することができます。テストでは、式の予測を達成するために圧縮された残差フレームのみが必要です。私たちのソリューションは、典型的な FER ベンチマークでの最近のデコードされた画像ベースの方法と同等またはそれ以上のパフォーマンスを達成し、約 3 倍高速な推論を実現できます。
How to extract effective expression representations that invariant to the identity-specific attributes is a long-lasting problem for facial expression recognition (FER). Most of the previous methods process the RGB images of a sequence, while we argue that the off-the-shelf and valuable expression-related muscle movement is already embedded in the compression format. In this paper, we target to explore the inter-subject variations eliminated facial expression representation in the compressed video domain. In the up to two orders of magnitude compressed domain, we can explicitly infer the expression from the residual frames and possibly extract identity factors from the I frame with a pre-trained face recognition network. By enforcing the marginal independence of them, the expression feature is expected to be purer for the expression and be robust to identity shifts. Specifically, we propose a novel collaborative min-min game for mutual information (MI) minimization in latent space. We do not need the identity label or multiple expression samples from the same person for identity elimination. Moreover, when the apex frame is annotated in the dataset, the complementary constraint can be further added to regularize the feature-level game. In testing, only the compressed residual frames are required to achieve expression prediction. Our solution can achieve comparable or better performance than the recent decoded image-based methods on the typical FER benchmarks with about 3 times faster inference.
updated: Sat Jun 05 2021 15:09:55 GMT+0000 (UTC)
published: Tue Oct 20 2020 21:42:18 GMT+0000 (UTC)
