arXiv reaDer
GMConv: 畳み込みカーネルの有効受容野の変調
GMConv: Modulating Effective Receptive Fields for Convolutional Kernels
畳み込みニューラル ネットワークでは、畳み込みは通常、N × N の受容野 (RF) が固定された正方形のカーネルを使用して実行されます。ただし、ネットワークにとって最も重要なのは、入力ピクセルが出力ピクセルに寄与する範囲を示す実効受容野 (ERF) です。 ERF が通常ガウス分布を示すという特性に着想を得て、この作業でガウス マスク畳み込みカーネル (GMConv) を提案します。具体的には、GMConv はガウス関数を利用して、RF を調整するためにカーネル上に配置される同心対称マスクを生成します。当社の GMConv は、既存の CNN の標準的な畳み込みを直接置き換えることができ、標準的な逆伝播によってエンドツーエンドで簡単にトレーニングできます。画像分類とオブジェクト検出タスクに関する広範な実験を通じて、アプローチを評価します。いくつかのタスクと標準の基本モデルにわたって、私たちのアプローチは標準の畳み込みと比較して有利です。たとえば、AlexNet と ResNet-50 に GMConv を使用すると、ImageNet 分類の上位 1 位の精度がそれぞれ 0.98% と 0.85% 向上します。
In convolutional neural networks, the convolutions are conventionally performed using a square kernel with a fixed N × N receptive field (RF). However, what matters most to the network is the effective receptive field (ERF) that indicates the extent with which input pixels contribute to an output pixel. Inspired by the property that ERFs typically exhibit a Gaussian distribution, we propose a Gaussian Mask convolutional kernel (GMConv) in this work. Specifically, GMConv utilizes the Gaussian function to generate a concentric symmetry mask that is placed over the kernel to refine the RF. Our GMConv can directly replace the standard convolutions in existing CNNs and can be easily trained end-to-end by standard back-propagation. We evaluate our approach through extensive experiments on image classification and object detection tasks. Over several tasks and standard base models, our approach compares favorably against the standard convolution. For instance, using GMConv for AlexNet and ResNet-50, the top-1 accuracy on ImageNet classification is boosted by 0.98% and 0.85%, respectively.
updated: Wed Apr 19 2023 15:48:26 GMT+0000 (UTC)
published: Thu Feb 09 2023 10:17:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト