arXiv reaDer
FireSimでのNVIDIA Deep Learning Accelerator(NVDLA)とRISC-V SoCの統合
Integrating NVIDIA Deep Learning Accelerator (NVDLA) with RISC-V SoC on FireSim
 NVDLAはオープンソースのディープニューラルネットワーク(DNN)アクセラレータであり、Nvidiaが導入されて以来、コミュニティから多くの注目を集めています。これはフル機能のハードウェアIPであり、アクセラレーターが統合されたSoCの研究開発を行うための優れたリファレンスとして機能します。ただし、実際のSoCでこのIPを使用して実験を行うには、高価なFPGAボードが必要です。さらに、NVDLAはFPGAでより低い周波数でクロックされるため、このようなセットアップで正確なパフォーマンス解析を行うことは困難です。これらの制限を克服するために、サイクル正確なFPGAアクセラレーションシミュレーターであるFireSimを使用して、AmazonクラウドFPGA上の実際のRISC-V SoCにNVDLAを統合します。次に、YOLOv3オブジェクト検出アルゴリズムを実行してNVDLAのパフォーマンスを評価します。私たちの結果は、YOLOv3を実行するとNVDLAが7.5 fpsを維持できることを示しています。さらに、最終レベルのキャッシュをNVDLAと共有すると、最大1.56倍高速化されることを示して、パフォーマンスを分析します。次に、メモリシステムをアクセラレータと共有すると、このプラットフォームで実行されるリアルタイムタスクの実行時間が予測不能になる可能性があることを特定します。これは、オンチップDNNアクセラレータをリアルタイムの組み込みシステムに組み込むために対処する必要がある重要な問題であると考えています。
NVDLA is an open-source deep neural network (DNN) accelerator which has received a lot of attention by the community since its introduction by Nvidia. It is a full-featured hardware IP and can serve as a good reference for conducting research and development of SoCs with integrated accelerators. However, an expensive FPGA board is required to do experiments with this IP in a real SoC. Moreover, since NVDLA is clocked at a lower frequency on an FPGA, it would be hard to do accurate performance analysis with such a setup. To overcome these limitations, we integrate NVDLA into a real RISC-V SoC on the Amazon cloud FPGA using FireSim, a cycle-exact FPGA-accelerated simulator. We then evaluate the performance of NVDLA by running YOLOv3 object-detection algorithm. Our results show that NVDLA can sustain 7.5 fps when running YOLOv3. We further analyze the performance by showing that sharing the last-level cache with NVDLA can result in up to 1.56x speedup. We then identify that sharing the memory system with the accelerator can result in unpredictable execution time for the real-time tasks running on this platform. We believe this is an important issue that must be addressed in order for on-chip DNN accelerators to be incorporated in real-time embedded systems.
updated: Fri Dec 06 2019 21:52:55 GMT+0000 (UTC)
published: Tue Mar 05 2019 01:35:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト