この論文では、視覚データと音響画像、新しい音声データモダリティから音声分類のための豊富で堅牢な特徴表現を学習する方法を調査します。以前のモデルは、単一のマイクで取得した生信号またはスペクトルデータから音声表現を学習し、分類および検索で顕著な結果をもたらしました。ただし、このような表現は、さまざまな環境音条件に対してそれほど堅牢ではありません。 RGBビデオ、生のオーディオ信号、および音響画像としても知られる空間音響データを提供するハイブリッドオーディオビジュアルセンサーによって取得される新しいマルチモーダルラベル付きアクション認識データセットを活用することで、この欠点に対処します。スペースと時間の同期。このより豊富な情報を使用して、教師と生徒の方法でオーディオディープラーニングモデルをトレーニングします。特に、視覚と音響の両方の画像教師から知識を音声ネットワークに抽出します。私たちの実験は、単一のマイクの音声データを使用して訓練されたモデルから学習した特徴よりも、学習した表現がより強力であり、より一般化能力があることを示唆しています。
In this paper, we investigate how to learn rich and robust feature representations for audio classification from visual data and acoustic images, a novel audio data modality. Former models learn audio representations from raw signals or spectral data acquired by a single microphone, with remarkable results in classification and retrieval. However, such representations are not so robust towards variable environmental sound conditions. We tackle this drawback by exploiting a new multimodal labeled action recognition dataset acquired by a hybrid audio-visual sensor that provides RGB video, raw audio signals, and spatialized acoustic data, also known as acoustic images, where the visual and acoustic images are aligned in space and synchronized in time. Using this richer information, we train audio deep learning models in a teacher-student fashion. In particular, we distill knowledge into audio networks from both visual and acoustic image teachers. Our experiments suggest that the learned representations are more powerful and have better generalization capabilities than the features learned from models trained using just single-microphone audio data.