ASV: Accelerated Stereo Vision System
 ステレオビジョンカメラからの深度、つまり「ステレオからの深さ」の推定は、拡張現実ヘッドセットやモバイル自律ロボットなどのエネルギーおよびパフォーマンスに制約のあるデバイスに展開される新しいインテリジェントアプリケーションにとって重要です。既存のステレオビジョンシステムは、精度、パフォーマンス、エネルギー効率の間でトレードオフを行いますが、パフォーマンスとエネルギー効率の両方を同時に向上させながら高い精度を実現する加速ステレオビジョンシステムであるASVについて説明します。 ASVの鍵は、ステレオビジョンに固有の固有の特性を活用し、アルゴリズムと計算の両方でステレオ固有の最適化を適用することです。 2つの貢献をしています。まず、新しいステレオアルゴリズム、不変式ベースのステレオマッチング(ISM)を提案します。これは、高い精度を維持しながら大幅な高速化を実現します。このアルゴリズムは、ステレオビジョンシステムに固有の対応不変式を活用することにより、古典的な「手作りの」ステレオアルゴリズムとディープニューラルネットワーク(DNN)の最近の開発を組み合わせています。次に、ISMアルゴリズムのボトルネックはDNN推論であり、特に大量の計算の非効率性をもたらすデコンボリューション操作であることがわかります。これらの非効率性を軽減する一連のソフトウェア最適化を提案します。 0.5%未満のハードウェアエリアオーバーヘッドで、これらのアルゴリズムと計算の最適化を従来のDNNアクセラレータに効果的に統合できることを示します。全体として、ASVは、今日のDNNベースのステレオビジョンシステムと比較して、0.02%の精度低下で5倍の高速化と85%の省エネを実現しています。
Estimating depth from stereo vision cameras, i.e., "depth from stereo", is critical to emerging intelligent applications deployed in energy- and performance-constrained devices, such as augmented reality headsets and mobile autonomous robots. While existing stereo vision systems make trade-offs between accuracy, performance and energy-efficiency, we describe ASV, an accelerated stereo vision system that simultaneously improves both performance and energy-efficiency while achieving high accuracy. The key to ASV is to exploit unique characteristics inherent to stereo vision, and apply stereo-specific optimizations, both algorithmically and computationally. We make two contributions. Firstly, we propose a new stereo algorithm, invariant-based stereo matching (ISM), that achieves significant speedup while retaining high accuracy. The algorithm combines classic "hand-crafted" stereo algorithms with recent developments in Deep Neural Networks (DNNs), by leveraging the correspondence invariant unique to stereo vision systems. Secondly, we observe that the bottleneck of the ISM algorithm is the DNN inference, and in particular the deconvolution operations that introduce massive compute-inefficiencies. We propose a set of software optimizations that mitigate these inefficiencies. We show that with less than 0.5% hardware area overhead, these algorithmic and computational optimizations can be effectively integrated within a conventional DNN accelerator. Overall, ASV achieves 5x speedup and 85% energy saving with 0.02% accuracy loss compared to today DNN-based stereo vision systems.
updated: Fri Nov 15 2019 18:44:25 GMT+0000 (UTC)
published: Fri Nov 15 2019 18:44:25 GMT+0000 (UTC)
