うつ病は、世界中の精神衛生疾患の主な原因となっています。大うつ病性障害(MDD)は、精神的および身体的の両方に影響を与える一般的なメンタルヘルス障害であり、生命の損失につながる可能性があります。うつ病の検出に関与する診断テストと主観性がないため、うつ病の診断と病期予測を自動化するために行動の手がかりを使用することに関心が高まっています。そのような問題に対するラベル付きの行動データセットが存在しないこと、および行動で可能な膨大な量の変動により、問題はより困難になります。この論文は、イントラおよびインターモダリティの関連性を学習しながら、オーディオ、ビデオ、およびテキストのモダリティからの特徴を融合するマルチモーダルうつ病予測のための新しいマルチレベル注意ベースのネットワークを提示します。マルチレベルの注意は、意思決定のために各モダリティ内で最も影響力のある機能を選択することにより、全体的な学習を強化します。徹底的な実験を行い、オーディオ、ビデオ、テキストのモダリティのさまざまな回帰モデルを作成します。各機能とモダリティの影響を理解するために、異なる構成のいくつかの融合モデルが構築されています。二乗平均平方根誤差に関して、現在のベースラインより17.52%優れています。
Depression has been the leading cause of mental-health illness worldwide. Major depressive disorder (MDD), is a common mental health disorder that affects both psychologically as well as physically which could lead to loss of lives. Due to the lack of diagnostic tests and subjectivity involved in detecting depression, there is a growing interest in using behavioural cues to automate depression diagnosis and stage prediction. The absence of labelled behavioural datasets for such problems and the huge amount of variations possible in behaviour makes the problem more challenging. This paper presents a novel multi-level attention based network for multi-modal depression prediction that fuses features from audio, video and text modalities while learning the intra and inter modality relevance. The multi-level attention reinforces overall learning by selecting the most influential features within each modality for the decision making. We perform exhaustive experimentation to create different regression models for audio, video and text modalities. Several fusions models with different configurations are constructed to understand the impact of each feature and modality. We outperform the current baseline by 17.52% in terms of root mean squared error.