COVID-19 パンデミックは間違いなく基準を変え、私たちの生活、特に社会生活のあらゆる側面に影響を与えました。感染を防ぐために、人々は医療用フェイスマスクを広範囲に着用することを余儀なくされました。この顔の閉塞は、顔からの感情的な読み取りを強く刺激する可能性があり、補完的な性質にもかかわらず、より大きな役割を果たす必要があるため、感情認識のために全身を組み込むように促します.このホワイトペーパーでは、感情認識のパフォーマンスに対する顔の遮蔽の影響について洞察に満ちた研究を行い、単純なマスクされた顔に対する全身入力の優位性を紹介したいと考えています。私たちは、Temporal Segment Network フレームワークに基づくディープ ラーニング モデルを利用し、フェイス マスクの影響を完全に克服することを目指しています。単一の RGB ストリーム モデルは顔と身体の両方の特徴に適応して学習できますが、これは無関係な情報の混乱につながる可能性があります。これらの特徴を個別に処理し、それらの予備予測スコアを後期融合スキームと融合することで、両方のモダリティをより効果的に活用しています。このアーキテクチャは、隣接するセグメント フレーム間で情報を混合することにより、時間モデリングも自然にサポートできます。実験結果は、時間構造が補完的である一方で、空間構造が感情表現にとってより重要な役割を果たすことを示唆しています。
The COVID-19 pandemic has undoubtedly changed the standards and affected all aspects of our lives, especially social life. It has forced people to extensively wear medical face masks, in order to prevent transmission. This face occlusion can strongly irritate emotional reading from the face and urges us to incorporate the whole body for emotion recognition, as it needs to play a more major role, despite its complementary nature. In this paper, we want to conduct insightful studies about the effect of face occlusion on emotion recognition performance, and showcase the superiority of full body input over plain masked face. We utilize a deep learning model based on the Temporal Segment Network framework and aspire to fully overcome the consequences of the face mask. Although single RGB stream models can adapt and learn both facial and bodily features, this may lead to irrelevant information confusion. By processing those features separately and fusing their preliminary prediction scores with a late fusion scheme, we are more effectively taking advantage of both modalities. This architecture can also naturally support temporal modeling, by mingling information among neighboring segment frames. Experimental results suggest that spatial structure plays a more important role for an emotional expression, while temporal structure is complementary.