arXiv reaDer
異種組み込みプラットフォームでのランタイムDNNパフォーマンススケーリングのためのインクリメンタルトレーニングとグループ畳み込みプルーニング
Incremental Training and Group Convolution Pruning for Runtime DNN Performance Scaling on Heterogeneous Embedded Platforms
ディープニューラルネットワークの推論は、遅延、プライバシー、接続性の利点により、モバイルおよび組み込みプラットフォームでローカルに実行されることが増えています。最新のシステムオンチップは通常、異なる動的ワークロードの組み合わせを同時に実行するため、DNNで使用できるローカルコンピューティングリソースが大幅に異なるため、実行時に推論時間/エネルギーバジェットを一貫して満たすのは困難です。この課題に対処するために、さまざまな動的DNNが提案されました。ただし、これらの作業には、かなりのメモリオーバーヘッド、制限された実行時の回復可能な圧縮率、およびパフォーマンススケーリングの狭いダイナミックレンジがあります。この論文では、インクリメンタルトレーニングとグループ畳み込み剪定を使用した動的DNNを紹介します。 DNN畳み込み層のチャネルはグループに分割され、グループは段階的にトレーニングされます。実行時に、次のグループを削除して推論時間/エネルギーを削減したり、モデルを再トレーニングせずに精度を回復するために追加したりできます。さらに、タスクマッピングと動的電圧周波数スケーリング(DVFS)を動的DNNと組み合わせて、より広いダイナミックレンジで精度と時間/電力/エネルギーの間のより細かいトレードオフを実現します。 CIFAR10画像データセット用にAlexNetを変更することでアプローチを説明し、Odroid XU3(ARM big.LITTLE CPU)とNvidia Jetson Nano(CPUとGPU)の2つの異種ハードウェアプラットフォームでの作業を評価します。既存の作業と比較して、私たちのアプローチは、同じ圧縮率で最大2.36倍(エネルギー)および2.73倍(時間)広いダイナミックレンジを2.4倍小さいメモリフットプリントで提供できます。タスクマッピングとDVFSを組み合わせることで、10.6倍(エネルギー)と41.6倍(時間)の広いダイナミックレンジを実現しました。
Inference for Deep Neural Networks is increasingly being executed locally on mobile and embedded platforms due to its advantages in latency, privacy and connectivity. Since modern System on Chips typically execute a combination of different and dynamic workloads concurrently, it is challenging to consistently meet inference time/energy budget at runtime because of the local computing resources available to the DNNs vary considerably. To address this challenge, a variety of dynamic DNNs were proposed. However, these works have significant memory overhead, limited runtime recoverable compression rate and narrow dynamic ranges of performance scaling. In this paper, we present a dynamic DNN using incremental training and group convolution pruning. The channels of the DNN convolution layer are divided into groups, which are then trained incrementally. At runtime, following groups can be pruned for inference time/energy reduction or added back for accuracy recovery without model retraining. In addition, we combine task mapping and Dynamic Voltage Frequency Scaling (DVFS) with our dynamic DNN to deliver finer trade-off between accuracy and time/power/energy over a wider dynamic range. We illustrate the approach by modifying AlexNet for the CIFAR10 image dataset and evaluate our work on two heterogeneous hardware platforms: Odroid XU3 (ARM big.LITTLE CPUs) and Nvidia Jetson Nano (CPU and GPU). Compared to the existing works, our approach can provide up to 2.36x (energy) and 2.73x (time) wider dynamic range with a 2.4x smaller memory footprint at the same compression rate. It achieved 10.6x (energy) and 41.6x (time) wider dynamic range by combining with task mapping and DVFS.
updated: Sat May 08 2021 05:38:01 GMT+0000 (UTC)
published: Sat May 08 2021 05:38:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト