この調査では、ビジョンおよび音声アプリケーションにおける最新のディープニューラルネットワークアーキテクチャ、アルゴリズム、およびシステムのレビューを紹介します。ディープ人工ニューラルネットワークアルゴリズムとアーキテクチャの最近の進歩により、インテリジェントビジョンと音声システムの急速な革新と開発が促進されました。ディープニューラルネットワークの処理とトレーニングのための膨大な量のセンサーデータとクラウドコンピューティングの可用性、およびモバイルと組み込み技術の高度化により、次世代のインテリジェントシステムはパーソナルコンピューティングと商用コンピューティングに革命を起こす態勢を整えています。この調査は、インテリジェントビジョンおよび音声システムのこれまでで最も成功したいくつかのディープラーニングモデルの背景と進化を提供することから始まります。大規模な産業研究開発の取り組みの概要は、知的ビジョンと音声システムの将来の傾向と展望を強調するために提供されています。堅牢で効率的なインテリジェントシステムには、モバイルデバイス、ロボット、自動車などのリソースに制約のあるハードウェアプラットフォームでの低遅延と高忠実度が必要です。したがって、この調査では、ハードウェア制限のあるプラットフォーム、つまり限られたメモリ、バッテリー寿命、処理能力内でディープニューラルネットワークを実行する際の主要な課題と最近の成功の概要も示しています。最後に、情動コンピューティング、インテリジェント輸送、精密医療などの分野にわたる視覚と音声の新しいアプリケーションについて説明します。私たちの知る限り、このペーパーは、ソフトウェアとハードウェアの両方のシステムの観点から、インテリジェントビジョンおよび音声アプリケーションの最新の開発に関する最も包括的な調査の1つを提供します。ディープニューラルネットワークを使用したこれらの新興技術の多くは、将来のビジョンおよび音声システムの研究開発に革命をもたらすという大きな期待を示しています。
This survey presents a review of state-of-the-art deep neural network architectures, algorithms, and systems in vision and speech applications. Recent advances in deep artificial neural network algorithms and architectures have spurred rapid innovation and development of intelligent vision and speech systems. With availability of vast amounts of sensor data and cloud computing for processing and training of deep neural networks, and with increased sophistication in mobile and embedded technology, the next-generation intelligent systems are poised to revolutionize personal and commercial computing. This survey begins by providing background and evolution of some of the most successful deep learning models for intelligent vision and speech systems to date. An overview of large-scale industrial research and development efforts is provided to emphasize future trends and prospects of intelligent vision and speech systems. Robust and efficient intelligent systems demand low-latency and high fidelity in resource-constrained hardware platforms such as mobile devices, robots, and automobiles. Therefore, this survey also provides a summary of key challenges and recent successes in running deep neural networks on hardware-restricted platforms, i.e. within limited memory, battery life, and processing capabilities. Finally, emerging applications of vision and speech across disciplines such as affective computing, intelligent transportation, and precision medicine are discussed. To our knowledge, this paper provides one of the most comprehensive surveys on the latest developments in intelligent vision and speech applications from the perspectives of both software and hardware systems. Many of these emerging technologies using deep neural networks show tremendous promise to revolutionize research and development for future vision and speech systems.