ここ数年、ディープラーニングは、視覚認識、音声認識、自然言語処理などの様々な問題に対して非常に優れた性能を発揮するようになった。様々な種類のディープニューラルネットワークの中でも、畳み込みニューラルネットワークが最も広く研究されている。アノテーションデータ量の急速な増加とグラフィックスプロセッサの性能の大幅な向上を利用して、畳み込みニューラルネットワークの研究が急速に台頭し、様々な課題において最先端の成果を上げてきた。本論文では、畳み込みニューラルネットワークの最近の進歩を幅広く概観する。層設計、活性化関数、損失関数、正則化、最適化、高速計算など、さまざまな観点からCNNの改良点を詳述する。また、畳み込みニューラルネットワークのコンピュータビジョン、音声処理、自然言語処理などへの応用についても紹介する。
In the last few years, deep learning has led to very good performance on a variety of problems, such as visual recognition, speech recognition and natural language processing. Among different types of deep neural networks, convolutional neural networks have been most extensively studied. Leveraging on the rapid growth in the amount of the annotated data and the great improvements in the strengths of graphics processor units, the research on convolutional neural networks has been emerged swiftly and achieved state-of-the-art results on various tasks. In this paper, we provide a broad survey of the recent advances in convolutional neural networks. We detailize the improvements of CNN on different aspects, including layer design, activation function, loss function, regularization, optimization and fast computation. Besides, we also introduce various applications of convolutional neural networks in computer vision, speech and natural language processing.