arXiv reaDer
Cross-modal supervised learning for better acoustic representations
 音響表現モデルを訓練するために大規模な人間ラベル付きデータセットを取得することは、非常に困難な作業です。それどころか、機械生成のラベルを使用してデータを簡単に収集できます。この作業では、視覚と音声の同期に基づいて、機械生成ラベルを活用してより良い音響表現を学習することを提案します。まず、1500万個のサンプルを含む大規模なビデオデータセットを収集します。これは完全に16,320時間続きます。各ビデオの長さは3〜5秒で、公開されている視覚および音声分類モデルによって自動的に注釈が付けられます。次に、VGGish、ResNet 50、Mobilenet v2を含むさまざまな古典的な畳み込みニューラルネットワーク(CNN)をトレーニングします。また、VGGishにいくつかの改善を加え、より良い結果を達成しています。最後に、オーディオ分類タスクの3つの外部標準ベンチマークでモデルを転送し、最新の結果よりも大幅にパフォーマンスを向上させます。モデルとコードは、で入手できます。
Obtaining large-scale human-labeled datasets to train acoustic representation models is a very challenging task. On the contrary, we can easily collect data with machine-generated labels. In this work, we propose to exploit machine-generated labels to learn better acoustic representations, based on the synchronization between vision and audio. Firstly, we collect a large-scale video dataset with 15 million samples, which totally last 16,320 hours. Each video is 3 to 5 seconds in length and annotated automatically by publicly available visual and audio classification models. Secondly, we train various classical convolutional neural networks (CNNs) including VGGish, ResNet 50 and Mobilenet v2. We also make several improvements to VGGish and achieve better results. Finally, we transfer our models on three external standard benchmarks for audio classification task, and achieve significant performance boost over the state-of-the-art results. Models and codes are available at:
updated: Wed Jan 01 2020 06:22:39 GMT+0000 (UTC)
published: Fri Nov 15 2019 02:23:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト