ディープニューラルネットワークで微分可能な画像変換のための新しい画像サンプリング方法を提案します。現在、空間変換ネットワークなどのディープラーニングで使用されているサンプリングスキームは、双線形補間に依存しています。これは、深刻なスケール変更でパフォーマンスが低下し、さらに重要なこととして、勾配伝搬が不十分になります。これは、直接の隣人に厳密に依存しているためです。代わりに、サンプリングされた画像の各ピクセルの近傍でランダムな補助サンプルを生成し、それらの強度値で線形近似を作成することを提案します。次に、この近似を、変換された画像の微分可能な式として使用します。私たちのアプローチは、画像アライメントのための収束のより広い盆地を持つより代表的な勾配を生成し、分類タスクのためにネットワークを訓練する際にかなりのパフォーマンスの改善につながることを実証します。これは、大規模なダウンサンプリングだけでなく、スケールの変更がない場合にも当てはまります。アプローチをマルチスケールサンプリングと比較し、それを上回ることを示します。次に、サンプラーの改善がSpatial Transformer Networksの他の接線の改善と互換性があり、パフォーマンスがさらに改善されることを示します。
We propose a novel image sampling method for differentiable image transformation in deep neural networks. The sampling schemes currently used in deep learning, such as Spatial Transformer Networks, rely on bilinear interpolation, which performs poorly under severe scale changes, and more importantly, results in poor gradient propagation. This is due to their strict reliance on direct neighbors. Instead, we propose to generate random auxiliary samples in the vicinity of each pixel in the sampled image, and create a linear approximation with their intensity values. We then use this approximation as a differentiable formula for the transformed image. We demonstrate that our approach produces more representative gradients with a wider basin of convergence for image alignment, which leads to considerable performance improvements when training networks for classification tasks. This is not only true under large downsampling, but also when there are no scale changes. We compare our approach with multi-scale sampling and show that we outperform it. We then demonstrate that our improvements to the sampler are compatible with other tangential improvements to Spatial Transformer Networks and that it further improves their performance.