深い畳み込みニューラルネットワークは、コンピュータービジョンで顕著な成功を収めています。ただし、ディープニューラルネットワークでは、高いパフォーマンスを実現するために大きなコンピューティングリソースが必要です。深さ方向に分離可能な畳み込みは、標準的な畳み込みに近い効率的なモジュールになりますが、多くの場合、ネットワークの表現力が低下します。この論文では、計算コスト(MAdds)やパラメーターカウントなどの予算の制約の下で、新しい基本的なアーキテクチャブロックであるANTBlockを提案します。高次元空間で、ANTBlocksの奥行き方向の畳み込み層と投影層の間のチャネルの相互依存性をモデリングすることにより、表現力を高めます。私たちの実験は、一連のANTBlocksによって構築されたANTNetが、複数のデータセットにわたって常に最先端の低コストのモバイル畳み込みニューラルネットワークを上回ることを示しています。 CIFAR100では、モデルのトップ1精度が75.7%に達し、これはMobileNetV2よりも1.5%高く、パラメーターは8.3%少なく、計算コストは19.6%少なくなります。 ImageNetで、このモデルはMobileNetV2よりもiPhone 5sで157.7ms(20%高速)で、0.8%の改善である72.8%のトップ1精度を達成します。
Deep convolutional neural networks have achieved remarkable success in computer vision. However, deep neural networks require large computing resources to achieve high performance. Although depthwise separable convolution can be an efficient module to approximate a standard convolution, it often leads to reduced representational power of networks. In this paper, under budget constraints such as computational cost (MAdds) and the parameter count, we propose a novel basic architectural block, ANTBlock. It boosts the representational power by modeling, in a high dimensional space, interdependency of channels between a depthwise convolution layer and a projection layer in the ANTBlocks. Our experiments show that ANTNet built by a sequence of ANTBlocks, consistently outperforms state-of-the-art low-cost mobile convolutional neural networks across multiple datasets. On CIFAR100, our model achieves 75.7% top-1 accuracy, which is 1.5% higher than MobileNetV2 with 8.3% fewer parameters and 19.6% less computational cost. On ImageNet, our model achieves 72.8% top-1 accuracy, which is 0.8% improvement, with 157.7ms (20% faster) on iPhone 5s over MobileNetV2.