畳み込みニューラルネットワーク(CNN)は、最近、計算イメージングアプリケーションの優れた品質を実証しました。したがって、彼らはカメラとディスプレイの画像パイプラインに革命を起こす大きな可能性を秘めています。ただし、従来のCNNアクセラレータでは、DRAM帯域幅と消費電力が大きいため、エッジで超高解像度ビデオをサポートすることは困難です。したがって、今後の革命を加速するには、メモリおよび計算効率の高いマイクロアーキテクチャをさらに見つけることが重要です。このホワイトペーパーでは、推論フロー、ネットワークモデル、命令セット、およびプロセッサ設計を共同で検討して、ハードウェアのパフォーマンスと画質を最適化することにより、この目標に取り組みます。機能マップのすべてのDRAM帯域幅を排除できるブロックベースの推論フローを適用し、それに応じてハードウェア制約に基づいて画質を最適化するハードウェア指向のネットワークモデルERNetを提案します。次に、大規模な並列処理による消費電力の多い畳み込みをサポートするために、粗粒度の命令セットアーキテクチャFBISAを考案します。最後に、柔軟な処理アーキテクチャを備えたERNetおよびFBISAに対応する組み込みプロセッサ(eCNN)を実装します。レイアウト結果は、DDR-400のみを使用し、平均で6.94Wを消費しながら、最大4K Ultra-HD 30 fpsで超解像とノイズ除去のための高品質ERNetをサポートできることを示しています。比較すると、最先端のDiffyはデュアルチャネルDDR3-2133を使用し、54.3Wを消費して、Full HD 30 fpsで低品質のVDSRをサポートします。最後に、eCNNの柔軟性を示すために、高性能スタイル転送とオブジェクト認識のアプリケーション例も紹介します。
Convolutional neural networks (CNNs) have recently demonstrated superior quality for computational imaging applications. Therefore, they have great potential to revolutionize the image pipelines on cameras and displays. However, it is difficult for conventional CNN accelerators to support ultra-high-resolution videos at the edge due to their considerable DRAM bandwidth and power consumption. Therefore, finding a further memory- and computation-efficient microarchitecture is crucial to speed up this coming revolution. In this paper, we approach this goal by considering the inference flow, network model, instruction set, and processor design jointly to optimize hardware performance and image quality. We apply a block-based inference flow which can eliminate all the DRAM bandwidth for feature maps and accordingly propose a hardware-oriented network model, ERNet, to optimize image quality based on hardware constraints. Then we devise a coarse-grained instruction set architecture, FBISA, to support power-hungry convolution by massive parallelism. Finally,we implement an embedded processor---eCNN---which accommodates to ERNet and FBISA with a flexible processing architecture. Layout results show that it can support high-quality ERNets for super-resolution and denoising at up to 4K Ultra-HD 30 fps while using only DDR-400 and consuming 6.94W on average. By comparison, the state-of-the-art Diffy uses dual-channel DDR3-2133 and consumes 54.3W to support lower-quality VDSR at Full HD 30 fps. Lastly, we will also present application examples of high-performance style transfer and object recognition to demonstrate the flexibility of eCNN.