arXiv reaDer
PERI: 野生の部分認識感情認識
PERI: Part Aware Emotion Recognition In The Wild
感情認識は、音声、視覚、およびテキストの手がかりを含むさまざまな入力に基づいて、人の感情状態を解釈することを目的としています。この論文では、視覚的特徴を使用した感情認識に焦点を当てています。顔の表情と人の感情状態との相関関係を利用するために、先駆的な方法は主に顔の特徴に依存しています。ただし、顔にはピクセル解像度がなく、オクルージョンやブラーによるアーティファクトが含まれているため、混雑したシーンなどの自然な制約のないシナリオでは、顔の特徴は信頼できないことがよくあります。これに対処するために、野生の感情認識では、全身の人物クロップと周囲のシーン コンテキストを利用します。感情認識のために体のポーズを使用しようとする試みにおいて、そのような方法は、顔の表情が提供する可能性を認識できません。このように、本書の目的は 2 つあります。最初に、体のポーズと顔のランドマークの両方を活用する方法、PERI を示します。体のポーズと顔のランドマークの両方から生成されたマスクを使用して、入力画像からキー領域を抽出することにより、パーツ認識空間 (PAS) 画像を作成します。これにより、利用可能な場合はいつでも、顔のコンテキストに加えて体のポーズを利用できます。次に、PAS 画像から推論するために、コンテキスト注入 (Cont-In) ブロックを導入します。これらのブロックは、パーツ固有の情報に注意を払い、感情認識ネットワークの中間機能に渡します。私たちのアプローチは概念的に単純で、既存の感情認識方法に適用できます。野生の EMOTIC データセットで公開されている結果を提供します。既存の方法と比較して、PERI は優れたパフォーマンスを達成し、感情カテゴリの mAP を大幅に改善すると同時に、価、覚醒、支配のエラーを減少させます。重要なことは、顔が完全に見える画像と、顔が遮られているかぼやけている画像の両方で、この方法がパフォーマンスを向上させることです。
Emotion recognition aims to interpret the emotional states of a person based on various inputs including audio, visual, and textual cues. This paper focuses on emotion recognition using visual features. To leverage the correlation between facial expression and the emotional state of a person, pioneering methods rely primarily on facial features. However, facial features are often unreliable in natural unconstrained scenarios, such as in crowded scenes, as the face lacks pixel resolution and contains artifacts due to occlusion and blur. To address this, in the wild emotion recognition exploits full-body person crops as well as the surrounding scene context. In a bid to use body pose for emotion recognition, such methods fail to realize the potential that facial expressions, when available, offer. Thus, the aim of this paper is two-fold. First, we demonstrate our method, PERI, to leverage both body pose and facial landmarks. We create part aware spatial (PAS) images by extracting key regions from the input image using a mask generated from both body pose and facial landmarks. This allows us to exploit body pose in addition to facial context whenever available. Second, to reason from the PAS images, we introduce context infusion (Cont-In) blocks. These blocks attend to part-specific information, and pass them onto the intermediate features of an emotion recognition network. Our approach is conceptually simple and can be applied to any existing emotion recognition method. We provide our results on the publicly available in the wild EMOTIC dataset. Compared to existing methods, PERI achieves superior performance and leads to significant improvements in the mAP of emotion categories, while decreasing Valence, Arousal and Dominance errors. Importantly, we observe that our method improves performance in both images with fully visible faces as well as in images with occluded or blurred faces.
updated: Tue Oct 18 2022 20:01:40 GMT+0000 (UTC)
published: Tue Oct 18 2022 20:01:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト