arXiv reaDer
STEP: Spatial Temporal Graph Convolutional Networks for Emotion Perception from Gaits
空間時間グラフ畳み込みネットワーク(ST-GCN)アーキテクチャに基づいて、歩行から知覚された人間の感情を分類するために、STEPと呼ばれる新しい分類器ネットワークを提示します。個々の歩行のRGBビデオを考えると、私たちの定式化は、歩行機能を暗黙的に利用して、人間の感情状態を4つの感情(幸せ、悲しみ、怒り、中立)のいずれかに分類します。数百の注釈付き実世界歩行ビデオを使用し、ST-GCNベースの条件付き変分オートエンコーダ(CVAE)上に構築されたSTEP-Genと呼ばれる新しい生成ネットワークを使用して生成された数千の注釈付き合成歩行でそれらを補強します。 STEP-GenのCVAE定式化に新しいプッシュプル正則化損失を組み込んで、現実的な歩行を生成し、STEPの分類精度を向上させます。また、知覚された感情で注釈が付けられた2,177の人間の歩行と、数千の合成歩行で構成される新しいデータセット(E-Gait)もリリースします。実際には、STEPは感情的な特徴を学習でき、E-Gaitで89%の分類精度を示します。これは、以前の方法よりも14〜30%正確です。
We present a novel classifier network called STEP, to classify perceived human emotion from gaits, based on a Spatial Temporal Graph Convolutional Network (ST-GCN) architecture. Given an RGB video of an individual walking, our formulation implicitly exploits the gait features to classify the emotional state of the human into one of four emotions: happy, sad, angry, or neutral. We use hundreds of annotated real-world gait videos and augment them with thousands of annotated synthetic gaits generated using a novel generative network called STEP-Gen, built on an ST-GCN based Conditional Variational Autoencoder (CVAE). We incorporate a novel push-pull regularization loss in the CVAE formulation of STEP-Gen to generate realistic gaits and improve the classification accuracy of STEP. We also release a novel dataset (E-Gait), which consists of 2,177 human gaits annotated with perceived emotions along with thousands of synthetic gaits. In practice, STEP can learn the affective features and exhibits classification accuracy of 89% on E-Gait, which is 14 - 30% more accurate over prior methods.
updated: Sat Jul 31 2021 16:00:51 GMT+0000 (UTC)
published: Mon Oct 28 2019 18:43:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト