ConvNets(LS-DFN)の大きなサンプリングフィールドを使用して、位置固有のカーネルが同一の位置だけでなく、複数のサンプリングされた隣接領域からも学習する動的フィルタリング戦略を提案します。サンプリング中に、トレーニングを容易にするために残差学習が導入され、異なるサンプルの特徴を融合するために注意メカニズムが適用されます。このような複数のサンプルは、追加のパラメーターを必要とせずに、カーネルの受容野を大幅に拡大します。 LS-DFNはDFNの利点を継承します。つまり、位置不変のカーネルによる機能マップの不鮮明化を回避しながら、変換の不変性を保ちますが、通常のCNNよりもはるかに多くのパラメーターによって引き起こされるオーバーフィットの問題も効率的に軽減します。私たちのモデルは効率的で、標準的な逆伝播を介してエンドツーエンドでトレーニングできます。オブジェクト検出、セマンティックセグメンテーション、およびフロー推定を含む疎および密予測タスクの両方で、LS-DFNのメリットを示します。 LS-DFNは、強力なベースラインと比較して、VOCベンチマークでのオブジェクト検出およびセマンティックセグメンテーションタスクでの認識能力が向上し、FlyingChairsデータセットでのフロー推定での応答が鋭くなりました。
We propose a dynamic filtering strategy with large sampling field for ConvNets (LS-DFN), where the position-specific kernels learn from not only the identical position but also multiple sampled neighbor regions. During sampling, residual learning is introduced to ease training and an attention mechanism is applied to fuse features from different samples. Such multiple samples enlarge the kernels' receptive fields significantly without requiring more parameters. While LS-DFN inherits the advantages of DFN, namely avoiding feature map blurring by position-wise kernels while keeping translation invariance, it also efficiently alleviates the overfitting issue caused by much more parameters than normal CNNs. Our model is efficient and can be trained end-to-end via standard back-propagation. We demonstrate the merits of our LS-DFN on both sparse and dense prediction tasks involving object detection, semantic segmentation, and flow estimation. Our results show LS-DFN enjoys stronger recognition abilities in object detection and semantic segmentation tasks on VOC benchmark and sharper responses in flow estimation on FlyingChairs dataset compared to strong baselines.