arXiv reaDer
Aff-Wild2: Extending the Aff-Wild Database for Affect Recognition
 視覚信号を使用した人間の影響の自動理解は、過去20年にわたって大きな関心を集めてきた問題です。しかし、人間の感情状態は非常に複雑です。現実世界の設定で表示されるこのような状態を評価するには、この複雑さをキャプチャして説明できる表現力豊かな感情記述子が必要です。この目的のために、価の観点(すなわち、ポジティブまたはネガティブが感情である方法)および覚醒(すなわち、感情の活性化の力)の観点から説明される、感情のサーカムプレックスモデルを使用できます。感情認識ドメインの最近の進歩は、ディープニューラルアーキテクチャの開発と非常に大規模なトレーニングデータベースの可用性によって達成されました。そのため、Aff-Wildは約1,200,000フレームを含む最初の大規模な「インザワイルド」データベースです。このホワイトペーパーでは、このデータベースに基づいて、さらに260の主題と1,413,000の新しいビデオフレームでデータベースを拡張します。追加データAff-Wild2でAff-Wildの結合を呼び出します。ビデオはYoutubeからダウンロードされ、ポーズ、年齢、照明条件、民族性、職業に大きなバリエーションがあります。 RECOLAデータベースとともにAff-Wild2を使用することにより、データベース固有の実験とデータベース間の実験の両方がこのペーパーで実行されます。開発されたディープニューラルアーキテクチャは、アテンションメカニズムを備えた最新の畳み込みニューラルネットワークとリカレントニューラルネットワークの共同トレーニングに基づいています。したがって、畳み込み機能の不変の特性の両方を活用しながら、再帰層を介して人間の行動で発生する時間的ダイナミクスをモデリングします。得られた結果は、拡張されたAff-Wildの利用の前提と、連続的な感情次元の観点から人間の行動を視覚的に分析するための開発されたディープニューラルアーキテクチャの前提を示しています。
Automatic understanding of human affect using visual signals is a problem that has attracted significant interest over the past 20 years. However, human emotional states are quite complex. To appraise such states displayed in real-world settings, we need expressive emotional descriptors that are capable of capturing and describing this complexity. The circumplex model of affect, which is described in terms of valence (i.e., how positive or negative is an emotion) and arousal (i.e., power of the activation of the emotion), can be used for this purpose. Recent progress in the emotion recognition domain has been achieved through the development of deep neural architectures and the availability of very large training databases. To this end, Aff-Wild has been the first large-scale "in-the-wild" database, containing around 1,200,000 frames. In this paper, we build upon this database, extending it with 260 more subjects and 1,413,000 new video frames. We call the union of Aff-Wild with the additional data, Aff-Wild2. The videos are downloaded from Youtube and have large variations in pose, age, illumination conditions, ethnicity and profession. Both database-specific as well as cross-database experiments are performed in this paper, by utilizing the Aff-Wild2, along with the RECOLA database. The developed deep neural architectures are based on the joint training of state-of-the-art convolutional and recurrent neural networks with attention mechanism; thus exploiting both the invariant properties of convolutional features, while modeling temporal dynamics that arise in human behaviour via the recurrent layers. The obtained results show premise for utilization of the extended Aff-Wild, as well as of the developed deep neural architectures for visual analysis of human behaviour in terms of continuous emotion dimensions.
updated: Fri Dec 13 2019 23:44:20 GMT+0000 (UTC)
published: Sun Nov 11 2018 01:57:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト