感情認識は、人々の知覚された感情を分類するタスクです。以前の作品は、画像から特徴を抽出し、それらを感情に関連付けるために、さまざまな非言語的手がかりを利用してきました。これらの手がかりのうち、状況の文脈は人の感情に直接影響を与える可能性があるため、感情の知覚において特に重要です。この論文では、画像から高レベルのコンテキスト表現を抽出するためのアプローチを提案します。このモデルは、単一のキューと単一のエンコード ストリームに依存して、この表現を感情と関連付けます。私たちのモデルは最先端のモデルと競合し、EMOTIC データセットで 0.3002 の mAP を達成しながら、コンシューマー グレードのハードウェアで約 90 フレーム/秒で実行することもできます。全体として、私たちのアプローチは以前のモデルよりも効率的であり、感情認識に関連する現実世界の問題に対処するために簡単に展開できます。
Emotion recognition is the task of classifying perceived emotions in people. Previous works have utilized various nonverbal cues to extract features from images and correlate them to emotions. Of these cues, situational context is particularly crucial in emotion perception since it can directly influence the emotion of a person. In this paper, we propose an approach for high-level context representation extraction from images. The model relies on a single cue and a single encoding stream to correlate this representation with emotions. Our model competes with the state-of-the-art, achieving an mAP of 0.3002 on the EMOTIC dataset while also being capable of execution on consumer-grade hardware at approximately 90 frames per second. Overall, our approach is more efficient than previous models and can be easily deployed to address real-world problems related to emotion recognition.