ディープニューラルネットワークアーキテクチャの設計とハードウェア固有のアクセラレーションに関するフォームと機能のきめ細かい関係は、研究文献では十分に研究されていない領域の1つであり、フォームはハードウェア機能ではなく精度によって決定されることがよくあります。この研究では、ハードウェア固有のアクセラレーションを介して達成できる推論の高速化の程度に対するディープニューラルネットワークアーキテクチャの設計の影響を調査するために、包括的な経験的調査が実施されます。より具体的には、OpenVINOマイクロプロセッサ固有およびGPU固有のアクセラレーションのレンズを通して、さまざまなアーキテクチャの深さにわたって一般的に使用されるさまざまなマクロアーキテクチャデザインパターンの影響を経験的に研究します。実験結果によると、ハードウェア固有の加速を利用すると、平均380%の推論速度向上が達成されましたが、推論速度向上の程度は、マクロアーキテクチャの設計パターンによって大幅に異なり、深さ方向のボトルネック畳み込み設計で最大の高速化が達成されました。 550%のパターン。さらに、FLOP要件、レベル3のキャッシュ効率、およびアーキテクチャの深さと幅の増加に伴うネットワーク遅延の間の相関関係について詳細な調査を行います。最後に、ハードウェア固有のアクセラレーションを使用して、さまざまな手作りの深層畳み込みニューラルネットワークアーキテクチャ設計およびニューラルアーキテクチャ検索戦略で見つかったものと比較した場合の推論時間の短縮を分析します。 DARTSから派生したアーキテクチャは、ハードウェア固有のソフトウェアアクセラレーション(1200%)による最大の改善の恩恵を受け、深さ方向のボトルネック畳み込みベースのMobileNet-V2は、全体的な推論時間が約2.4ミリ秒と最も短いことがわかりました。
The fine-grained relationship between form and function with respect to deep neural network architecture design and hardware-specific acceleration is one area that is not well studied in the research literature, with form often dictated by accuracy as opposed to hardware function. In this study, a comprehensive empirical exploration is conducted to investigate the impact of deep neural network architecture design on the degree of inference speedup that can be achieved via hardware-specific acceleration. More specifically, we empirically study the impact of a variety of commonly used macro-architecture design patterns across different architectural depths through the lens of OpenVINO microprocessor-specific and GPU-specific acceleration. Experimental results showed that while leveraging hardware-specific acceleration achieved an average inference speed-up of 380%, the degree of inference speed-up varied drastically depending on the macro-architecture design pattern, with the greatest speedup achieved on the depthwise bottleneck convolution design pattern at 550%. Furthermore, we conduct an in-depth exploration of the correlation between FLOPs requirement, level 3 cache efficacy, and network latency with increasing architectural depth and width. Finally, we analyze the inference time reductions using hardware-specific acceleration when compared to native deep learning frameworks across a wide variety of hand-crafted deep convolutional neural network architecture designs as well as ones found via neural architecture search strategies. We found that the DARTS-derived architecture to benefit from the greatest improvement from hardware-specific software acceleration (1200%) while the depthwise bottleneck convolution-based MobileNet-V2 to have the lowest overall inference time of around 2.4 ms.