人の感情状態の自動認識は、人工知能、コンピュータービジョン、心理学などのさまざまな分野を専門とする科学者が関与する非常に活発な研究分野になっています。この作業の主な目的は、永続的なエントロピーとニューラルネットワークを主なツールとして使用して、話す顔のビデオから感情を認識して分類する新しいアプローチを開発することです。具体的には、オーディオ信号と画像シーケンスの情報を組み合わせて、各ビデオのトポロジシグネチャ(9次元ベクトル)を計算します。ビデオの小さな変更が署名の小さな変更を生み出すことを証明します。これらのトポロジーシグネチャは、ニューラルネットワークにフィードして、中立、落ち着き、幸せ、悲しみ、怒り、恐れ、嫌悪感、驚きの感情を区別するために使用されます。達成された結果は有望で競争力があり、文献に見られる他の最先端の作品で達成されたパフォーマンスを上回っています。
The automatic recognition of a person's emotional state has become a very active research field that involves scientists specialized in different areas such as artificial intelligence, computer vision or psychology, among others. Our main objective in this work is to develop a novel approach, using persistent entropy and neural networks as main tools, to recognise and classify emotions from talking-face videos. Specifically, we combine audio-signal and image-sequence information to compute a topology signature(a 9-dimensional vector) for each video. We prove that small changes in the video produce small changes in the signature. These topological signatures are used to feed a neural network to distinguish between the following emotions: neutral, calm, happy, sad, angry, fearful, disgust, and surprised. The results reached are promising and competitive, beating the performance reached in other state-of-the-art works found in the literature.