arXiv reaDer
完全たたみ込みネットワークを使用したリソース効率の良い組み込み虹彩認識システム
A Resource-Efficient Embedded Iris Recognition System Using Fully Convolutional Networks
  虹彩セグメンテーションにおける完全畳み込みネットワーク(FCN)のアプリケーションは、有望な進歩を示しています。モバイルシステムおよび組み込みシステムの場合、提案されているFCNアーキテクチャは非常に計算負荷が高いという大きな課題があります。この記事では、リソース効率の高いエンドツーエンドの虹彩認識フローを提案します。これは、FCNベースのセグメンテーション、輪郭フィッティング、Daugman正規化およびエンコードで構成されています。正確で効率的なFCNモデルを実現するために、FCNアーキテクチャの調査、精密な量子化、ハードウェアアクセラレーションで構成される3ステップのSW / HW共同設計手法を提案します。探索では、複数のFCNモデルを提案します。以前の作品と比較して、最高のパフォーマンスを発揮するモデルでは、推論ごとに50倍少ないFLOPを必要とし、新しい最先端のセグメンテーション精度を実現します。次に、最も効率的なモデルのセットを選択し、8ビットの動的固定小数点(DFP)形式を使用した重みとアクティベーションの量子化により、計算の複雑さをさらに軽減します。各モデルは、真の認識パフォーマンス評価のためにエンドツーエンドのフローに組み込まれます。エンドツーエンドのパイプラインのいくつかは、評価された2つのデータセットで以前の最新技術よりも優れています。最後に、新しいDFPアクセラレータを提案し、組み込みFPGAプラットフォームでのフローのSW / HW共同設計実現を完全に実証します。組み込みCPUと比較して、当社のハードウェアアクセラレーションは、利用可能なFPGAリソースの15%未満を使用しながら、パイプライン全体で最大8.3倍の高速化を実現します。また、2つのプラットフォームのさまざまな利点と欠点を示すFPGAシステムと組み込みGPUの比較も提供します。
Applications of Fully Convolutional Networks (FCN) in iris segmentation have shown promising advances. For mobile and embedded systems, a significant challenge is that the proposed FCN architectures are extremely computationally demanding. In this article, we propose a resource-efficient, end-to-end iris recognition flow, which consists of FCN-based segmentation, contour fitting, followed by Daugman normalization and encoding. To attain accurate and efficient FCN models, we propose a three-step SW/HW co-design methodology consisting of FCN architectural exploration, precision quantization, and hardware acceleration. In our exploration, we propose multiple FCN models, and in comparison to previous works, our best-performing model requires 50X less FLOPs per inference while achieving a new state-of-the-art segmentation accuracy. Next, we select the most efficient set of models and further reduce their computational complexity through weights and activations quantization using 8-bit dynamic fixed-point (DFP) format. Each model is then incorporated into an end-to-end flow for true recognition performance evaluation. A few of our end-to-end pipelines outperform the previous state-of-the-art on two datasets evaluated. Finally, we propose a novel DFP accelerator and fully demonstrate the SW/HW co-design realization of our flow on an embedded FPGA platform. In comparison with the embedded CPU, our hardware acceleration achieves up to 8.3X speedup for the overall pipeline while using less than 15% of the available FPGA resources. We also provide comparisons between the FPGA system and an embedded GPU showing different benefits and drawbacks for the two platforms.
updated: Sun Sep 08 2019 04:21:10 GMT+0000 (UTC)
published: Sun Sep 08 2019 04:21:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト