arXiv reaDer
エッジでの環境音の分類:非常にリソースに制約のあるデバイスでの深部音響ネットワークのパイプライン
Environmental Sound Classification on the Edge: A Pipeline for Deep Acoustic Networks on Extremely Resource-Constrained Devices
極端なリソース制約(メモリ、速度、GPUサポートの欠如)があるエッジデバイスに最先端の分類と認識をもたらすために、多大な努力が払われています。ここでは、市販のマイクロクロコントローラーとしては十分に小さいが、標準ベンチマークで最先端のパフォーマンスを実現する、音響認識用の最初のディープネットワークを示します。一度限りのソリューションを手作りするのではなく、圧縮と量子化を介して大規模な深い畳み込みネットワークをリソース不足のエッジデバイス用のネットワークに自動的に変換するユニバーサルパイプラインを紹介します。 ESC-10(96.65%)およびESC-50(87.1%)で最先端の精度を実現するACDNetを導入した後、圧縮パイプラインについて説明し、97.22%のサイズ削減と最先端の精度に近い状態を維持しながら、97.28%のFLOP削減(ESC-50では83.65%)。標準の既製のマイクロコントローラーでの実装の成功について説明し、実験室のベンチマークを超えて、実際のデータセットでのテストの成功を報告します。
Significant efforts are being invested to bring state-of-the-art classification and recognition to edge devices with extreme resource constraints (memory, speed and lack of GPU support). Here, we demonstrate the first deep network for acoustic recognition that is small enough for an off-the-shelf microcrocontroller, yet achieves state-of-the-art performance on standard benchmarks. Rather than handcrafting a once-off solution, we present a universal pipeline that converts a large deep convolutional network automatically via compression and quantization into a network for resource-impoverished edge devices. After introducing ACDNet, which produces above state-of-the-art accuracy on ESC-10 (96.65%) and ESC-50 (87.1%), we describe the compression pipeline and show that it allows us to achieve 97.22% size reduction and 97.28% FLOP reduction while maintaining close to state-of-the-art accuracy (83.65% on ESC-50). We describe a successful implementation on a standard off-the-shelf microcontroller and, beyond laboratory benchmarks, report successful tests on real-world data sets.
updated: Tue Apr 06 2021 05:06:47 GMT+0000 (UTC)
published: Fri Mar 05 2021 05:52:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト