arXiv reaDer
Arm Cortex-ACPUでのDNNの最適化された展開のための自動設計スペース探索
Automated Design Space Exploration for optimised Deployment of DNN on Arm Cortex-A CPUs
組み込みデバイスでのディープラーニングの普及により、ディープニューラルネットワーク(DNN)の展開を最適化するための多数の方法の開発が促されました。作業の主な焦点は、i)効率的なDNNアーキテクチャ、ii)プルーニングや量子化などのネットワーク最適化手法、iii)最も計算量の多いレイヤーの実行を高速化する最適化されたアルゴリズム、iv)データフローを高速化する専用ハードウェア、計算。ただし、アプローチのスペースが大きくなりすぎて、グローバルに最適化されたソリューションをテストして取得できないため、クロスレベルの最適化に関する研究が不足しています。したがって、遅延、精度、およびメモリの点で最適ではない展開につながります。この作業では、最初に、さまざまなレベルのソフトウェア最適化全体でDNNの展開を改善する方法を詳細に分析します。この知識に基づいて、DNNの展開を容易にする自動探索フレームワークを提示します。このフレームワークは、深層学習推論フレームワークと組み合わせて、設計空間を自動的に探索し、パフォーマンスを高速化し、組み込みCPUプラットフォームのメモリを削減する最適化されたソリューションを学習する強化学習検索に依存しています。したがって、一連のArm Cortex-A CPUプラットフォームでの最先端のDNNの一連の結果を示し、BLASと比較して、精度の低下を無視して、パフォーマンスを最大4倍、メモリを2倍以上削減します。浮動小数点の実装。
The spread of deep learning on embedded devices has prompted the development of numerous methods to optimise the deployment of deep neural networks (DNN). Works have mainly focused on: i) efficient DNN architectures, ii) network optimisation techniques such as pruning and quantisation, iii) optimised algorithms to speed up the execution of the most computational intensive layers and, iv) dedicated hardware to accelerate the data flow and computation. However, there is a lack of research on cross-level optimisation as the space of approaches becomes too large to test and obtain a globally optimised solution. Thus, leading to suboptimal deployment in terms of latency, accuracy, and memory. In this work, we first detail and analyse the methods to improve the deployment of DNNs across the different levels of software optimisation. Building on this knowledge, we present an automated exploration framework to ease the deployment of DNNs. The framework relies on a Reinforcement Learning search that, combined with a deep learning inference framework, automatically explores the design space and learns an optimised solution that speeds up the performance and reduces the memory on embedded CPU platforms. Thus, we present a set of results for state-of-the-art DNNs on a range of Arm Cortex-A CPU platforms achieving up to 4x improvement in performance and over 2x reduction in memory with negligible loss in accuracy with respect to the BLAS floating-point implementation.
updated: Tue Dec 15 2020 19:30:11 GMT+0000 (UTC)
published: Tue Jun 09 2020 11:00:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト