arXiv reaDer
顔の感情認識のためのマルチブランチディープラジアル基底関数ネットワーク
Multi-Branch Deep Radial Basis Function Networks for Facial Emotion Recognition
顔画像からの感情認識(ER)は、過去10年間の主要な開発により、感情コンピューティングにおける画期的なタスクの1つです。 ERの最初の取り組みは、顔の画像を特徴付けるために使用され、標準の予測モデルにフィードされる手作りの機能に依存していました。最近の方法論は、機能と予測モデルの両方を同時に学習する、エンドツーエンドのトレーニング可能な深層学習方法で構成されています。おそらく最も成功したモデルは、畳み込みニューラルネットワーク(CNN)に基づいています。これらのモデルはこのタスクに優れていますが、学習プロセスで出現する可能性のあるローカルパターンをキャプチャすることはできません。これらのパターンは、局所的に重み付けされた学習に基づくバリアントによってキャプチャされる可能性があると仮定します。具体的には、この論文では、学習プロセスの最終段階でローカル情報を活用することを目的とした、放射基底関数(RBF)ユニットによって形成された複数のブランチで強化されたCNNベースのアーキテクチャを提案します。直感的に、これらのRBFユニットは、中間表現を使用して同様のインスタンスによって共有されるローカルパターンをキャプチャし、RBFの出力は、モデルの予測パフォーマンスを向上させるためにこの情報を活用するソフトマックス層に供給されます。この機能は、文化的/民族的な違いが地域単位によって識別される可能性があるため、ERで特に有利である可能性があります。いくつかのERデータセットで提案された方法を評価し、事前にトレーニングされたVGG-Faceモデルをバックボーンとして採用した場合でも、提案された方法論がそれらのいくつかで最先端を達成することを示します。提案されたモデルを競争力のあるものにしているのは、地域の情報を取り入れていることを示しています。
Emotion recognition (ER) from facial images is one of the landmark tasks in affective computing with major developments in the last decade. Initial efforts on ER relied on handcrafted features that were used to characterize facial images and then feed to standard predictive models. Recent methodologies comprise end-to-end trainable deep learning methods that simultaneously learn both, features and predictive model. Perhaps the most successful models are based on convolutional neural networks (CNNs). While these models have excelled at this task, they still fail at capturing local patterns that could emerge in the learning process. We hypothesize these patterns could be captured by variants based on locally weighted learning. Specifically, in this paper we propose a CNN based architecture enhanced with multiple branches formed by radial basis function (RBF) units that aims at exploiting local information at the final stage of the learning process. Intuitively, these RBF units capture local patterns shared by similar instances using an intermediate representation, then the outputs of the RBFs are feed to a softmax layer that exploits this information to improve the predictive performance of the model. This feature could be particularly advantageous in ER as cultural / ethnicity differences may be identified by the local units. We evaluate the proposed method in several ER datasets and show the proposed methodology achieves state-of-the-art in some of them, even when we adopt a pre-trained VGG-Face model as backbone. We show it is the incorporation of local information what makes the proposed model competitive.
updated: Tue Sep 07 2021 21:05:56 GMT+0000 (UTC)
published: Tue Sep 07 2021 21:05:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト