畳み込みニューラルネットワークは、モバイルアプリケーションに広く使用されています。ただし、GPUコンボリューションアルゴリズムはミニバッチニューラルネットワークトレーニング用に設計されており、モバイルGPU上の単一画像コンボリューションニューラルネットワーク推論アルゴリズムは十分に研究されていません。使用法の違いについて議論し、既存の畳み込みアルゴリズムを調べた後、HNTMP畳み込みアルゴリズムを提案しました。 HNTMP畳み込みアルゴリズムは、最もよく知られている\ textit {im2col畳み込みアルゴリズムよりも$ 14.6 \ times $高速化を実現し、既存の最速の畳み込みアルゴリズム(直接畳み込み)より$ 2.30 \ times $高速化を実現しています。
Convolution neural networks are widely used for mobile applications. However, GPU convolution algorithms are designed for mini-batch neural network training, the single-image convolution neural network inference algorithm on mobile GPUs is not well-studied. After discussing the usage difference and examining the existing convolution algorithms, we proposed the HNTMP convolution algorithm. The HNTMP convolution algorithm achieves $14.6 \times$ speedup than the most popular \textit{im2col convolution algorithm, and $2.30 \times$ speedup than the fastest existing convolution algorithm (direct convolution) as far as we know.