Deep Green Function Convolution for Improving Saliency in Convolutional Neural Networks
 現在の顕著性法では、小さな畳み込みカーネルを使用して大規模な地域特徴を学習する必要がありますが、これは単純なフィードフォワードネットワークでは不可能です。スーパーピクセルへのセグメンテーションを使用してこの問題を解決する方法もあれば、ネットワークを介して画像を縮小し、元のサイズに再縮小する方法もあります。この論文の目的は、グリーン関数畳み込み(GFC)を使用してエッジフィーチャを顕著な領域に外挿することにより、顕著性畳み込みニューラルネットワーク(CNN)を改善できることを示すことです。 GFCは勾配積分器として機能し、CNN内の細いエッジを直接埋めることで顕著性の特徴を生成できます。したがって、エッジフィーチャと顕著性フィーチャを結合する勾配統合および合計(GIS)レイヤーを提案します。 HEDおよびDSSアーキテクチャを使用して、ネットワークの出力の近くにGISレイヤーを追加すると、パラメーターの初期化に対する感度を下げ、オーバーフィッティングを減らし、トレーニングの再現性を改善できることを実証しました。 GISレイヤーを最新のDSSモデルに追加するだけで、DUT-OMRONデータセットのFメジャーの絶対的な増加が1.6%になり、計算時間がわずか10ミリ秒になります。さらに、GISレイヤーを使用すると、ノイズの多い画像や低輝度画像の場合に、ネットワークのパフォーマンスが大幅に向上します。実際、ノイズがデータセットに追加されたときのF尺度の改善は5.2%で、輝度が減少したときの2.8%でした。 GISレイヤーはモデルに依存しないため、さまざまな完全な畳み込みネットワークに実装できます。現在の作業の主な貢献は、ニューラルネットワーク内でのグリーンの関数畳み込みの最初の実装です。これにより、ネットワークが特徴領域と勾配領域で同時に動作できるようになり、エッジフィリングを介して領域表現が改善されます。
Current saliency methods require to learn large scale regional features using small convolutional kernels, which is not possible with a simple feed-forward network. Some methods solve this problem by using segmentation into superpixels while others downscale the image through the network and rescale it back to its original size. The objective of this paper is to show that saliency convolutional neural networks (CNN) can be improved by using a Green's function convolution (GFC) to extrapolate edges features into salient regions. The GFC acts as a gradient integrator, allowing to produce saliency features by filling thin edges directly inside the CNN. Hence, we propose the gradient integration and sum (GIS) layer that combines the edges features with the saliency features. Using the HED and DSS architecture, we demonstrated that adding a GIS layer near the network's output allows to reduce the sensitivity to the parameter initialization, to reduce the overfitting and to improve the repeatability of the training. By simply adding a GIS layer to the state-of-the-art DSS model, there is an absolute increase of 1.6% for the F-measure on the DUT-OMRON dataset, with only 10ms of additional computation time. The GIS layer further allows the network to perform significantly better in the case of highly noisy images or low-brightness images. In fact, we observed an F-measure improvement of 5.2% when noise was added to the dataset and 2.8% when the brightness was reduced. Since the GIS layer is model agnostic, it can be implemented into different fully convolutional networks. A major contribution of the current work is the first implementation of Green's function convolution inside a neural network, which allows the network to operate in the feature domain and in the gradient domain at the same time, thus improving the regional representation via edge filling.
