非常に深い畳み込みニューラルネットワーク(CNN)は、多くのコンピュータービジョンタスクの主要な方法として確立されています。ただし、最新のCNNのほとんどはサイズが大きいため、推論の待ち時間が長くなります。最近、深さ方向に分離可能な畳み込みが、ロボット工学や自動運転車などの計算的に制限されたプラットフォーム上の画像認識タスクに対して提案されています。同等の通常の畳み込みよりもはるかに高速ですが、精度は犠牲になります。本論文では、SVDに基づく新しい分解アプローチ、つまり、深さ方向の分解を提案し、高精度を維持しながら規則的な畳み込みを深さ方向に分離可能な畳み込みに拡張します。 Generalized Singular Value Decomposition(GSVD)[59]に基づいて、アプローチをマルチチャネルおよびマルチレイヤーのケースにさらに一般化できることを示します。ランダム合成データセットと大規模画像認識データセットImageNet [10]の両方で、最新のShuffleNet V2モデル[47]で徹底的な実験を行います。このアプローチは、すべてのデータセットでチャネル分解[73]よりも優れています。さらに重要なことは、このアプローチにより、ShuffleNet V2のTop-1精度が最大2%向上することです。
Very deep convolutional neural networks (CNNs) have been firmly established as the primary methods for many computer vision tasks. However, most state-of-the-art CNNs are large, which results in high inference latency. Recently, depth-wise separable convolution has been proposed for image recognition tasks on computationally limited platforms such as robotics and self-driving cars. Though it is much faster than its counterpart, regular convolution, accuracy is sacrificed. In this paper, we propose a novel decomposition approach based on SVD, namely depth-wise decomposition, for expanding regular convolutions into depthwise separable convolutions while maintaining high accuracy. We show our approach can be further generalized to the multi-channel and multi-layer cases, based on Generalized Singular Value Decomposition (GSVD) [59]. We conduct thorough experiments with the latest ShuffleNet V2 model [47] on both random synthesized dataset and a large-scale image recognition dataset: ImageNet [10]. Our approach outperforms channel decomposition [73] on all datasets. More importantly, our approach improves the Top-1 accuracy of ShuffleNet V2 by ~2%.