新型コロナウイルス感染症のパンデミックは間違いなく基準を変え、私たちの生活のあらゆる側面、特に社会的コミュニケーションに影響を与えています。感染を防ぐために人々は医療用マスクを広範囲に着用することが義務付けられている。この顔の閉塞は、顔から感情を読み取ることを強く刺激し、全身を感情の合図として組み込むよう促します。この論文では、顔のオクルージョンが感情認識パフォーマンスに及ぼす影響について洞察力に富んだ研究を実施し、マスクされた顔よりも全身入力の方が優れていることを示します。私たちは、Temporal Segment Network フレームワークに基づく深層学習モデルを利用し、フェイスマスクによる影響を完全に克服することを目指しています。顔と身体の特徴は 1 回の入力から学習できますが、これにより無関係な情報の混乱が生じる可能性があります。これらの特徴を個別に処理し、それらの予測スコアを融合することで、両方のモダリティをより効果的に活用しています。このフレームワークは、隣接するフレーム間の情報を混合することにより、時間モデリングも当然サポートします。これらの技術を組み合わせることで、重要な領域に適用される安全プロトコルによって引き起こされる感情認識の困難に対処できる効果的なシステムが形成されます。
The COVID-19 pandemic has undoubtedly changed the standards and affected all aspects of our lives, especially social communication. It has forced people to extensively wear medical face masks, in order to prevent transmission. This face occlusion can strongly irritate emotional reading from the face and urges us to incorporate the whole body as an emotional cue. In this paper, we conduct insightful studies about the effect of face occlusion on emotion recognition performance, and showcase the superiority of full body input over the plain masked face. We utilize a deep learning model based on the Temporal Segment Network framework, and aspire to fully overcome the face mask consequences. Although facial and bodily features can be learned from a single input, this may lead to irrelevant information confusion. By processing those features separately and fusing their prediction scores, we are more effectively taking advantage of both modalities. This framework also naturally supports temporal modeling, by mingling information among neighboring frames. In combination, these techniques form an effective system capable of tackling emotion recognition difficulties, caused by safety protocols applied in crucial areas.