この作品では、野生のビデオベースの視覚的感情認識のタスクに取り組んでいます。身体および顔の特徴の抽出のみに依存する標準的な方法論は、頭/体の向き、低解像度、および不十分な照明のために前述の感情情報のソースにアクセスできない場合、正確な感情予測に達しないことがよくあります。私たちは、より広範な感情認識フレームワークの一部として、シーンの特性と属性の形で視覚的なコンテキストを活用することにより、この問題を軽減することを目指しています。時間セグメントネットワーク(TSN)は、提案されたモデルのバックボーンを構成します。 RGB入力モダリティとは別に、モーションのより効果的なエンコードのための直感的なマルチストリームアプローチに従って、高密度オプティカルフローを利用します。さらに、スケルトンベースの学習に注意を移し、感情認識のタスクのために時空間グラフ畳み込みネットワーク(ST-GCN)を事前トレーニングする手段として、アクション中心のデータを活用します。挑戦的なボディランゲージデータセット(BoLD)に関する広範な実験により、既存のアプローチに対する手法の優位性が検証され、前述のすべてのモジュールをネットワークアンサンブルに適切に組み込むことで、以前に公開された最高の認識スコアを大幅に上回りました。マージン。
In this work we tackle the task of video-based visual emotion recognition in the wild. Standard methodologies that rely solely on the extraction of bodily and facial features often fall short of accurate emotion prediction in cases where the aforementioned sources of affective information are inaccessible due to head/body orientation, low resolution and poor illumination. We aspire to alleviate this problem by leveraging visual context in the form of scene characteristics and attributes, as part of a broader emotion recognition framework. Temporal Segment Networks (TSN) constitute the backbone of our proposed model. Apart from the RGB input modality, we make use of dense Optical Flow, following an intuitive multi-stream approach for a more effective encoding of motion. Furthermore, we shift our attention towards skeleton-based learning and leverage action-centric data as means of pre-training a Spatial-Temporal Graph Convolutional Network (ST-GCN) for the task of emotion recognition. Our extensive experiments on the challenging Body Language Dataset (BoLD) verify the superiority of our methods over existing approaches, while by properly incorporating all of the aforementioned modules in a network ensemble, we manage to surpass the previous best published recognition scores, by a large margin.