arXiv reaDer
Audio-visual Attentive Fusion for Continuous Emotion Recognition
視聴覚時空間ディープニューラルネットワークを提案します。(1)事前にトレーニングされた2D-CNNとそれに続く時間畳み込みネットワーク(TCN)を含むビジュアルブロック。 (2)複数の並列TCNを含む聴覚ブロック。 (3)視聴覚情報を組み合わせたリーダーフォロワーの注意深い融合ブロック。履歴カバレッジが大きいTCNを使用すると、モデルは、ベースラインおよび最先端の方法(36または48)よりもはるかに長いウィンドウ長(300)内で時空間情報を活用できます。融合ブロックは、モダリティ間注意メカニズムを使用してノイズの多い聴覚モダリティを活用しながら、視覚モダリティを強調します。データを最大限に活用し、過剰適合を軽減するために、トレーニングと検証のセットに対して相互検証が実行されます。一致相関係数(CCC)のセンタリングは、各フォールドからの結果をマージするために使用されます。開発セットでは、達成されたCCCは価数が0.469、覚醒が0.649であり、ベースライン法を大幅に上回っており、対応するCCCは価数と覚醒がそれぞれ0.210と0.230です。コードはで入手できます。
We propose an audio-visual spatial-temporal deep neural network with: (1) a visual block containing a pretrained 2D-CNN followed by a temporal convolutional network (TCN); (2) an aural block containing several parallel TCNs; and (3) a leader-follower attentive fusion block combining the audio-visual information. The TCN with large history coverage enables our model to exploit spatial-temporal information within a much larger window length (i.e., 300) than that from the baseline and state-of-the-art methods (i.e., 36 or 48). The fusion block emphasizes the visual modality while exploits the noisy aural modality using the inter-modality attention mechanism. To make full use of the data and alleviate over-fitting, cross-validation is carried out on the training and validation set. The concordance correlation coefficient (CCC) centering is used to merge the results from each fold. On the development set, the achieved CCC is 0.469 for valence and 0.649 for arousal, which significantly outperforms the baseline method with the corresponding CCC of 0.210 and 0.230 for valence and arousal, respectively. The code is available at
updated: Fri Jul 09 2021 09:07:34 GMT+0000 (UTC)
published: Fri Jul 02 2021 16:28:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト