arXiv reaDer
感情認識のための事前に訓練された視聴覚トランスフォーマー
A Pre-trained Audio-Visual Transformer for Emotion Recognition
このホワイトペーパーでは、人間の行動を理解するために、VoxCeleb2データセットの4000人近くの有名人からの500k以上の発話でトレーニングされた事前トレーニング済みのオーディオビジュアルトランスフォーマーを紹介します。このモデルは、感情認識に適用して、人間の顔と聴覚の行動間の相互作用から有用な情報を取得して抽出することを目的としています。 2つのデータセット、つまりCREMAD-D(感情分類)とMSP-IMPROV(連続感情回帰)でモデルのパフォーマンスを評価します。実験結果は、事前にトレーニングされたモデルを微調整すると、最初からトレーニングされた同じモデルと比較して、感情分類の精度が5〜7%向上し、継続的な感情認識の一致相関係数(CCC)が0.03〜0.09向上することを示しています。また、低リソース設定で事前トレーニング済みモデルを微調整することの堅牢性も示します。提供された元のトレーニングセットのわずか10%で、事前トレーニングされたモデルを微調整すると、感情認識の精度が少なくとも10%向上し、継続的な感情認識のCCCスコアが少なくとも0.1向上します。
In this paper, we introduce a pretrained audio-visual Transformer trained on more than 500k utterances from nearly 4000 celebrities from the VoxCeleb2 dataset for human behavior understanding. The model aims to capture and extract useful information from the interactions between human facial and auditory behaviors, with application in emotion recognition. We evaluate the model performance on two datasets, namely CREMAD-D (emotion classification) and MSP-IMPROV (continuous emotion regression). Experimental results show that fine-tuning the pre-trained model helps improving emotion classification accuracy by 5-7% and Concordance Correlation Coefficients (CCC) in continuous emotion recognition by 0.03-0.09 compared to the same model trained from scratch. We also demonstrate the robustness of finetuning the pre-trained model in a low-resource setting. With only 10% of the original training set provided, fine-tuning the pre-trained model can lead to at least 10% better emotion recognition accuracy and a CCC score improvement by at least 0.1 for continuous emotion recognition.
updated: Sun Jan 23 2022 03:09:16 GMT+0000 (UTC)
published: Sun Jan 23 2022 03:09:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト