arXiv reaDer
Tensor Yard: One-Shot Algorithm of Hardware-Friendly Tensor-Train Decomposition for Convolutional Neural Networks
今日、ディープラーニングは、人間が関心を持つ多くの経済的、技術的、科学的分野で広く使用されるようになりました。ディープニューラルネットワークに基づくソリューションの効率は、ターゲットタスクの品質メトリックだけでなく、ターゲットプラットフォーム設計の遅延と制約も考慮に入れる必要があることは明らかです。この論文では、畳み込みニューラルネットワーク用の新しいハードウェアフレンドリーなTensor-Train分解実装を、ネットワーク層の分解順序を最適化するワンショットトレーニングアルゴリズムであるTensorYardとともに紹介します。これらのアイデアにより、精度を大幅に損なうことなく、Ascend 310NPUデバイスでResNetモデルを高速化できます。たとえば、ResNet-101を14.6%加速し、トップ1のImageNet精度を0.5低下させます。
Nowadays Deep Learning became widely used in many economic, technical and scientific areas of human interest. It is clear that efficiency of solutions based on Deep Neural Networks should consider not only quality metric for the target task, but also latency and constraints of target platform design should be taken into account. In this paper we present novel hardware-friendly Tensor-Train decomposition implementation for Convolutional Neural Networks together with Tensor Yard - one-shot training algorithm which optimizes an order of decomposition of network layers. These ideas allow to accelerate ResNet models on Ascend 310 NPU devices without significant loss of accuracy. For example we accelerate ResNet-101 by 14.6% with drop by 0.5 of top-1 ImageNet accuracy.
updated: Mon Aug 09 2021 13:31:04 GMT+0000 (UTC)
published: Mon Aug 09 2021 13:31:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト