arXiv reaDer
オーディオイベント分類のための教師なしの音の識別学習
Unsupervised Discriminative Learning of Sounds for Audio Event Classification
ネットワークベースのオーディオイベント分類の最近の進歩は、ImageNetなどのビジュアルデータでモデルを事前トレーニングすることの利点を示しています。このプロセスでは、さまざまなドメイン間で知識を伝達できますが、大規模なビジュアルデータセットでモデルをトレーニングするには時間がかかります。いくつかのオーディオイベント分類ベンチマークで、教師なしでモデルを事前トレーニングし、オーディオデータのみで、ImageNet事前トレーニングと同等のパフォーマンスを提供する高速で効果的な代替案を示します。さらに、識別可能な音声学習を使用して、音声データセット間で知識を転送し、オプションでImageNet事前トレーニングを含めることができることを示します。
Recent progress in network-based audio event classification has shown the benefit of pre-training models on visual data such as ImageNet. While this process allows knowledge transfer across different domains, training a model on large-scale visual datasets is time consuming. On several audio event classification benchmarks, we show a fast and effective alternative that pre-trains the model unsupervised, only on audio data and yet delivers on-par performance with ImageNet pre-training. Furthermore, we show that our discriminative audio learning can be used to transfer knowledge across audio datasets and optionally include ImageNet pre-training.
updated: Thu May 20 2021 10:51:57 GMT+0000 (UTC)
published: Wed May 19 2021 17:42:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト