Synetgy: Algorithm-hardware Co-design for ConvNet Accelerators on Embedded FPGAs
 FPGAを使用してConvNetを高速化することは、近年大きな注目を集めています。ただし、FPGAアクセラレータの設計では、ConvNetの最新の進歩を活用していません。その結果、フレーム/秒(FPS)などの主要なアプリケーション特性は無視され、GOPを単純にカウントするため、アプリケーションの成功に不可欠な精度に関する結果は報告されないこともよくあります。この作業では、アルゴリズムハードウェアの共同設計アプローチを採用して、Synetgyと呼ばれるConvNetアクセラレータと、DiracDeltaNet ^ \ daggerと呼ばれる新しいConvNetモデルを開発します。アクセラレータとConvNetはどちらもFPGA要件に合わせて調整されています。名前が示すように、DiracDeltaNetはたった1×1のたたみ込みを持つConvNetであり、空間たたみ込みはより効率的なシフト演算に置き換えられます。 DiracDeltaNetはImageNetで競争力のある精度(88.7%top-5)を達成していますが、VGG16に比べてパラメーターが42倍、OPが48倍少なくなっています。さらに、DiracDeltaNetの重みを4ビットに量子化し、アクティベーションを4ビットに量子化します。精度の損失は1%未満です。これらの量子化は、FPGAハードウェアの性質をうまく利用しています。つまり、DiracDeltaNetはモデルサイズが小さく、計算OP数が少なく、精度が低く、演算子が簡素化されているため、FPGA向けに高度にカスタマイズされた計算ユニットを共同設計できます。高レベルの合成により、Ultra96 SoCシステムにDiracDeltaNetのコンピューティングユニットを実装します。 ImageNetでのアクセラレータの最終的な上位5の精度88.1%は、以前に報告されたすべての組み込みFPGAアクセラレータよりも高いです。さらに、アクセラレータはImageNet分類タスクで66.3 FPSの推論速度に達し、同様の精度で以前の作業を少なくとも11.6倍上回ります。
Using FPGAs to accelerate ConvNets has attracted significant attention in recent years. However, FPGA accelerator design has not leveraged the latest progress of ConvNets. As a result, the key application characteristics such as frames-per-second (FPS) are ignored in favor of simply counting GOPs, and results on accuracy, which is critical to application success, are often not even reported. In this work, we adopt an algorithm-hardware co-design approach to develop a ConvNet accelerator called Synetgy and a novel ConvNet model called DiracDeltaNet^\dagger. Both the accelerator and ConvNet are tailored to FPGA requirements. DiracDeltaNet, as the name suggests, is a ConvNet with only 1×1 convolutions while spatial convolutions are replaced by more efficient shift operations. DiracDeltaNet achieves competitive accuracy on ImageNet (88.7% top-5), but with 42× fewer parameters and 48× fewer OPs than VGG16. We further quantize DiracDeltaNet's weights to 4-bit and activations to 4-bits, with less than 1% accuracy loss. These quantizations exploit well the nature of FPGA hardware. In short, DiracDeltaNet's small model size, low computational OP count, low precision and simplified operators allow us to co-design a highly customized computing unit for an FPGA. We implement the computing units for DiracDeltaNet on an Ultra96 SoC system through high-level synthesis. Our accelerator's final top-5 accuracy of 88.1% on ImageNet, is higher than all the previously reported embedded FPGA accelerators. In addition, the accelerator reaches an inference speed of 66.3 FPS on the ImageNet classification task, surpassing prior works with similar accuracy by at least 11.6×.
updated: Mon May 11 2020 01:45:12 GMT+0000 (UTC)
published: Wed Nov 21 2018 08:42:30 GMT+0000 (UTC)
