ディープニューラルネットワーク(DNN)は、オブジェクト検出の基盤として、完全な自律性を備えた将来の自律システムの開発において重要な役割を果たします。自律システムには、電力に制約のあるシステムでのDNNのリアルタイムでエネルギー効率の良い実装という特別な要件があります。 DNNの推論フェーズのパフォーマンスとエネルギー効率の向上に専念する2つの研究があります。 1つ目はモデル圧縮技術で、2つ目は効率的なハードウェア実装です。バイナリニューラルネットワーク(BNN)やXNOR-Netなどの超低ビットCNNに関する最近の研究は、従来の浮動小数点演算をバイナリビット演算に置き換え、メモリ帯域幅とストレージ要件を大幅に削減します。ただし、無視できないほどの精度損失と、FPGAの十分に活用されていないデジタル信号処理(DSP)ブロックの影響を受けます。これらの制限を克服するために、このペーパーでは、オブジェクト検出のアルゴリズムとハードウェアリソースの両方の側面を考慮して、オブジェクト検出のためのリソース認識、体系的な重み量子化フレームワークREQ-YOLOを提案します。ブロック循環行列法を採用し、乗数の交互方向法(ADMM)、一般的な非凸最適化問題の効果的な最適化手法を使用して、異種の重み量子化を提案します。 FPGAでリアルタイムで非常に効率的な実装を実現するために、CONVレイヤー上のブロック循環行列の詳細なハードウェア実装を提示し、異種の重量量子化、CONVデータフローおよびパイプライン技術、設計最適化をサポートする効率的な処理要素(PE)構造を開発します、ハードウェアリソースを最適に活用するためのテンプレートベースの自動合成フレームワーク。実験結果は、提案されたREQ-YOLOフレームワークが、非常に小さな精度の低下をもたらしながら、YOLOモデルを大幅に圧縮できることを示しています。
Deep neural networks (DNNs), as the basis of object detection, will play a key role in the development of future autonomous systems with full autonomy. The autonomous systems have special requirements of real-time, energy-efficient implementations of DNNs on a power-constrained system. Two research thrusts are dedicated to performance and energy efficiency enhancement of the inference phase of DNNs. The first one is model compression techniques while the second is efficient hardware implementation. Recent works on extremely-low-bit CNNs such as the binary neural network (BNN) and XNOR-Net replace the traditional floating-point operations with binary bit operations which significantly reduces the memory bandwidth and storage requirement. However, it suffers from non-negligible accuracy loss and underutilized digital signal processing (DSP) blocks of FPGAs. To overcome these limitations, this paper proposes REQ-YOLO, a resource-aware, systematic weight quantization framework for object detection, considering both algorithm and hardware resource aspects in object detection. We adopt the block-circulant matrix method and propose a heterogeneous weight quantization using the Alternating Direction Method of Multipliers (ADMM), an effective optimization technique for general, non-convex optimization problems. To achieve real-time, highly-efficient implementations on FPGA, we present the detailed hardware implementation of block circulant matrices on CONV layers and develop an efficient processing element (PE) structure supporting the heterogeneous weight quantization, CONV dataflow and pipelining techniques, design optimization, and a template-based automatic synthesis framework to optimally exploit hardware resource. Experimental results show that our proposed REQ-YOLO framework can significantly compress the YOLO model while introducing very small accuracy degradation.