arXiv reaDer
視覚的自己監視は、感情認識のための音声表現の学習を改善しますか?
Does Visual Self-Supervision Improve Learning of Speech Representations for Emotion Recognition?
自己教師あり学習は、最近の研究の関心をたくさん集めています。ただし、音声の自己監視のためのほとんどの作業は、通常、単峰性であり、クロスモーダル自己監視のためのオーディオとビジュアルのモダリティ間の相互作用を研究する作業は限られています。この作品(1)は、音声表現の学習を導くために、顔の再構成を介して視覚的な自己監視を調査します。 (2)音声表現学習のための音声のみの自己監視アプローチを提案します。 (3)提案された視覚と音声の自己監視のマルチタスクの組み合わせは、ノイズの多い条件でより堅牢なより豊富な機能を学習するのに有益であることを示しています。 (4)は、自己教師あり事前トレーニングが完全教師ありトレーニングよりも優れている可能性があり、小さいサイズのデータセットでの過剰適合を防ぐのに特に役立つことを示しています。学習した音声表現を、個別の感情認識、継続的な影響認識、および自動音声認識について評価します。テストされたすべてのダウンストリームタスクについて、既存の自己監視方式よりも優れています。私たちの結果は、音声特徴学習のための視覚的自己監視の可能性を示しており、視覚と音声の共同自己監視が、音声と感情の認識のためのより有益な音声表現につながることを示唆しています。
Self-supervised learning has attracted plenty of recent research interest. However, most works for self-supervision in speech are typically unimodal and there has been limited work that studies the interaction between audio and visual modalities for cross-modal self-supervision. This work (1) investigates visual self-supervision via face reconstruction to guide the learning of audio representations; (2) proposes an audio-only self-supervision approach for speech representation learning; (3) shows that a multi-task combination of the proposed visual and audio self-supervision is beneficial for learning richer features that are more robust in noisy conditions; (4) shows that self-supervised pretraining can outperform fully supervised training and is especially useful to prevent overfitting on smaller sized datasets. We evaluate our learned audio representations for discrete emotion recognition, continuous affect recognition and automatic speech recognition. We outperform existing self-supervised methods for all tested downstream tasks. Our results demonstrate the potential of visual self-supervision for audio feature learning and suggest that joint visual and audio self-supervision leads to more informative audio representations for speech and emotion recognition.
updated: Thu Mar 18 2021 11:35:38 GMT+0000 (UTC)
published: Mon May 04 2020 11:33:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト