arXiv reaDer
AffWild NetおよびAff-Wildデータベース
AffWild Net and Aff-Wild Database
 感情認識は、人々の感情を認識するタスクです。通常、それは人々の顔の表情を分析することによって達成されます。感情を表現する方法は2つあります:原子価と覚醒値を使用したカテゴリカルアプローチと次元アプローチです。 Valenceは感情がどれほど否定的または肯定的であるかを示し、覚醒は感情がどれだけ活性化されるかを示します。感情認識に関係する最近のディープラーニングモデルは、2番目のアプローチである価感と覚醒を使用しています。さらに、実生活で役立つより興味深い概念は、「野生の」感情認識です。 「インザワイルド」とは、認識タスクのために分析された画像が、段階的な実験からではなく、実際のソース(オンラインビデオ、オンライン写真など)からのものであることを意味します。そのため、モデル内で予測できない状況が画像に導入されます。このプロジェクトの目的は、「インザワイルド」感情認識のコンセプトのために行われた以前の研究を研究し、「Aff-wild」データベースを標準として持つ新しいデータセットを設計し、新しいディープラーニングモデルを実装し、結果。最初に、既存のデータベースと深層学習モデルが提示されます。次に、それらに触発されて、オンラインソースから収集された106個のビデオから合計507.208フレームを含む新しいデータベースが作成されます。次に、CNN-Mアーキテクチャに基づいたCNNモデルでデータをテストし、使いやすさを確認します。次に、このプロジェクトのメインモデルが実装されます。これは、教師なし学習と教師あり学習を同時に実行できる回帰GANです。具体的には、GANの主な機能を維持します。GANは、実際の画像と同じように見える偽の画像を生成すると同時に、実際の画像と偽の画像の両方の価数と覚醒値を予測できます。最後に、以前に作成されたデータベースがこのモデルに適用され、結果が表示および評価されます。
Emotions recognition is the task of recognizing people's emotions. Usually it is achieved by analyzing expression of peoples faces. There are two ways for representing emotions: The categorical approach and the dimensional approach by using valence and arousal values. Valence shows how negative or positive an emotion is and arousal shows how much it is activated. Recent deep learning models, that have to do with emotions recognition, are using the second approach, valence and arousal. Moreover, a more interesting concept, which is useful in real life is the "in the wild" emotions recognition. "In the wild" means that the images analyzed for the recognition task, come from from real life sources(online videos, online photos, etc.) and not from staged experiments. So, they introduce unpredictable situations in the images, that have to be modeled. The purpose of this project is to study the previous work that was done for the "in the wild" emotions recognition concept, design a new dataset which has as a standard the "Aff-wild" database, implement new deep learning models and evaluate the results. First, already existing databases and deep learning models are presented. Then, inspired by them a new database is created which includes 507.208 frames in total from 106 videos, which were gathered from online sources. Then, the data are tested in a CNN model based on CNN-M architecture, in order to be sure about their usability. Next, the main model of this project is implemented. That is a Regression GAN which can execute unsupervised and supervised learning at the same time. More specifically, it keeps the main functionality of GANs, which is to produce fake images that look as good as the real ones, while it can also predict valence and arousal values for both real and fake images. Finally, the database created earlier is applied to this model and the results are presented and evaluated.
updated: Fri Dec 13 2019 22:58:20 GMT+0000 (UTC)
published: Fri Oct 11 2019 18:57:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト