フィールドプログラマブルゲートアレイ(FPGA)の深層学習アプリケーションを高速化する低精度の算術演算は、シリコン面積を節約したりスループットを向上させる可能性があるため、広く研究されています。ただし、これらの利点には、精度の低下という犠牲が伴います。この記事では、再構成可能な定数係数乗算器(RCCM)が、低精度の演算を利用するよりも、シリコン面積を節約するための優れた代替手段を提供することを示します。 RCCMは、加算器、減算器、ビットシフト、マルチプレクサー(MUX)のみを使用して、制限された係数の選択で入力値を乗算します。つまり、FPGA用に大幅に最適化できます。 FPGAロジックエレメントに合わせて調整されたRCCMファミリを提案して、それらの効率的な利用を保証します。量子化による情報損失を最小限に抑えるために、RCCMの可能な係数表現をニューラルネットワークの重みパラメーター分布にマッピングする新しいトレーニング手法を開発します。これにより、高い精度を維持しながら、ハードウェアでRCCMを使用できます。 AlexNet、ResNet-18、およびResNet-50ネットワークを使用して、これらの手法の利点を実証します。その結果、実装により、従来の8ビットの量子化ネットワークと比較して最大50%のリソースが節約され、大幅な高速化と省電力化が実現します。リソース要件が最も低い当社のRCCMは6ビット固定小数点精度を上回りますが、RCCMを備えた他のすべての実装は、8ビットの均一量子化設計と少なくとも同等の精度を達成し、リソースを大幅に節約します。
Low-precision arithmetic operations to accelerate deep-learning applications on field-programmable gate arrays (FPGAs) have been studied extensively, because they offer the potential to save silicon area or increase throughput. However, these benefits come at the cost of a decrease in accuracy. In this article, we demonstrate that reconfigurable constant coefficient multipliers (RCCMs) offer a better alternative for saving the silicon area than utilizing low-precision arithmetic. RCCMs multiply input values by a restricted choice of coefficients using only adders, subtractors, bit shifts, and multiplexers (MUXes), meaning that they can be heavily optimized for FPGAs. We propose a family of RCCMs tailored to FPGA logic elements to ensure their efficient utilization. To minimize information loss from quantization, we then develop novel training techniques that map the possible coefficient representations of the RCCMs to neural network weight parameter distributions. This enables the usage of the RCCMs in hardware, while maintaining high accuracy. We demonstrate the benefits of these techniques using AlexNet, ResNet-18, and ResNet-50 networks. The resulting implementations achieve up to 50% resource savings over traditional 8-bit quantized networks, translating to significant speedups and power savings. Our RCCM with the lowest resource requirements exceeds 6-bit fixed point accuracy, while all other implementations with RCCMs achieve at least similar accuracy to an 8-bit uniformly quantized design, while achieving significant resource savings.