PSDNetおよびDPDNet:効率的なチャネル拡張、Depthwise-Pointwise-Depthwise Inverted Bottleneck Block
PSDNet and DPDNet: Efficient channel expansion, Depthwise-Pointwise-Depthwise Inverted Bottleneck Block
 多くのリアルタイムアプリケーションでは、ディープニューラルネットワークの展開は高い計算コストに制約され、効率的な軽量ニューラルネットワークが広く懸念されています。本論文では、ボトルネックブロック内のチャネル数を拡張するために、深さ方向の畳み込み(DWC)を使用することを提案します。これは、1 x 1の畳み込みよりも効率的です。 DWCを使用したチャネル拡張に基づく提案されたPointwise-Standard-Depthwiseネットワーク(PSDNet)は、CIFARデータセット上の対応するResNetよりもパラメーター数が少なく、計算コストが低く、精度が高くなっています。より効率的な軽量の畳み込みニューラルネットワークを設計するために、Depthwise-Pointwise-Depthwise反転ボトルネックブロック(DPDブロック)が提案され、DPDNetはDPDブロックを積み重ねて設計されています。一方、DPDNetのパラメーターの数は、同じレイヤー数のネットワークのMobileNetV2のパラメーターの約60%にすぎませんが、おおよその精度を達成できます。さらに、DPDNetの2つのハイパーパラメーターにより、精度と計算コストのトレードオフが可能になり、DPDNetはさまざまなタスクに適したものになります。さらに、より多くのDWCレイヤーを持つネットワークは、より多くの1x1畳み込みレイヤーを持つネットワークよりも優れていることがわかります。これは、チャネル情報を組み合わせるよりも空間情報を抽出することが重要であることを示します。
In many real-time applications, the deployment of deep neural networks is constrained by high computational cost and efficient lightweight neural networks are widely concerned. In this paper, we propose that depthwise convolution (DWC) is used to expand the number of channels in a bottleneck block, which is more efficient than 1 x 1 convolution. The proposed Pointwise-Standard-Depthwise network (PSDNet) based on channel expansion with DWC has fewer number of parameters, less computational cost and higher accuracy than corresponding ResNet on CIFAR datasets. To design more efficient lightweight concolutional neural netwok, Depthwise-Pointwise-Depthwise inverted bottleneck block (DPD block) is proposed and DPDNet is designed by stacking DPD block. Meanwhile, the number of parameters of DPDNet is only about 60% of that of MobileNetV2 for networks with the same number of layers, but can achieve approximated accuracy. Additionally, two hyperparameters of DPDNet can make the trade-off between accuracy and computational cost, which makes DPDNet suitable for diverse tasks. Furthermore, we find the networks with more DWC layers outperform the networks with more 1x1 convolution layers, which indicates that extracting spatial information is more important than combining channel information.
updated: Sat Dec 07 2019 08:53:02 GMT+0000 (UTC)
published: Tue Sep 03 2019 09:53:31 GMT+0000 (UTC)
