arXiv reaDer
野生における時空間的顔面感情推定のための潜在的特徴を組み合わせた強化された敵対的ネットワーク
An Enhanced Adversarial Network with Combined Latent Features for Spatio-Temporal Facial Affect Estimation in the Wild
感情コンピューティングは、さまざまな分野で数多くのアプリケーションが使用されているため、最近、研究コミュニティの注目を集めています。このコンテキストでは、ビデオベースのデータの出現により、時間情報を含めることで、広く使用されている空間機能を充実させることができます。ただし、このような時空間モデリングでは、非常に高次元の特徴空間と大量のデータが生成されることが多く、トレーニングが困難で時間がかかります。この論文は、潜在的特徴に基づく強化された時間的モデリングによってデータの空間的特徴と時間的特徴の両方を効率的に抽出する新しいモデルを提案することによって、これらの欠点に対処します。私たちが提案するモデルは、3つの主要なネットワーク、造られたジェネレーター、ディスクリミネーター、コンバイナーで構成されています。私たちの実験では、AFEW-VAデータセットとSEWAデータセットの両方で競合結果を報告することにより、アプローチの有効性を示しています。これは、時間的モデリングが定性的および定量的の両方で感情推定を改善することを示唆しています。さらに、注意メカニズムを含めると、その重みが時間的位置特定と強度の両方の点で顔の動きの外観とよく相関しているように見えるため、最高の精度の向上につながることがわかります。最後に、約160 msのシーケンス長が時間モデリングに最適であることがわかります。これは、同様の長さを使用する他の関連する調査結果と一致しています。
Affective Computing has recently attracted the attention of the research community, due to its numerous applications in diverse areas. In this context, the emergence of video-based data allows to enrich the widely used spatial features with the inclusion of temporal information. However, such spatio-temporal modelling often results in very high-dimensional feature spaces and large volumes of data, making training difficult and time consuming. This paper addresses these shortcomings by proposing a novel model that efficiently extracts both spatial and temporal features of the data by means of its enhanced temporal modelling based on latent features. Our proposed model consists of three major networks, coined Generator, Discriminator, and Combiner, which are trained in an adversarial setting combined with curriculum learning to enable our adaptive attention modules. In our experiments, we show the effectiveness of our approach by reporting our competitive results on both the AFEW-VA and SEWA datasets, suggesting that temporal modelling improves the affect estimates both in qualitative and quantitative terms. Furthermore, we find that the inclusion of attention mechanisms leads to the highest accuracy improvements, as its weights seem to correlate well with the appearance of facial movements, both in terms of temporal localisation and intensity. Finally, we observe the sequence length of around 160 ms to be the optimum one for temporal modelling, which is consistent with other relevant findings utilising similar lengths.
updated: Thu Feb 18 2021 04:10:12 GMT+0000 (UTC)
published: Thu Feb 18 2021 04:10:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト