arXiv reaDer
Auto-ViT-Acc: 混合スキーム量子化によるビジョン トランスフォーマー向けの FPGA 対応自動アクセラレーション フレームワーク
Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision Transformer with Mixed-Scheme Quantization
コンピューター ビジョン タスクの精度が大幅に向上したビジョン トランスフォーマー (ViT) が登場しています。しかし、それらの複雑なアーキテクチャと莫大な計算/ストレージの需要により、新しいハードウェア アクセラレータの設計方法論が緊急に必要とされています。この作業では、提案された混合方式の量子化に基づく FPGA 対応の自動 ViT アクセラレーション フレームワークを提案します。私たちの知る限り、これはモデルの量子化を調査する最初の FPGA ベースの ViT アクセラレーション フレームワークです。最先端の ViT 量子化作業 (ハードウェア アクセラレーションなしのアルゴリズム アプローチのみ) と比較して、当社の量子化は、同じビット幅で 0.47% から 1.36% 高いトップ 1 精度を実現します。 32 ビット浮動小数点ベースライン FPGA アクセラレータと比較すると、当社のアクセラレータはフレーム レートで約 5.6 倍の向上 (つまり、56.8 FPS 対 10.0 FPS) を達成し、DeiT ベースの ImageNet データセットで 0.71% の精度低下を達成しました。
Vision transformers (ViTs) are emerging with significantly improved accuracy in computer vision tasks. However, their complex architecture and enormous computation/storage demand impose urgent needs for new hardware accelerator design methodology. This work proposes an FPGA-aware automatic ViT acceleration framework based on the proposed mixed-scheme quantization. To the best of our knowledge, this is the first FPGA-based ViT acceleration framework exploring model quantization. Compared with state-of-the-art ViT quantization work (algorithmic approach only without hardware acceleration), our quantization achieves 0.47% to 1.36% higher Top-1 accuracy under the same bit-width. Compared with the 32-bit floating-point baseline FPGA accelerator, our accelerator achieves around 5.6x improvement on the frame rate (i.e., 56.8 FPS vs. 10.0 FPS) with 0.71% accuracy drop on ImageNet dataset for DeiT-base.
updated: Wed Aug 10 2022 05:54:46 GMT+0000 (UTC)
published: Wed Aug 10 2022 05:54:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト