ジョイント画像フィルターは、空間解像度の向上やノイズの抑制などのタスクで、ターゲット画像の前に使用されたガイダンス画像から構造の詳細を転送するために使用されます。畳み込みニューラルネットワーク(CNN)に基づく以前の方法は、空間的に不変なカーネルの非線形活性化を組み合わせて、構造の詳細を推定し、フィルタリング結果を回帰します。このペーパーでは、代わりに、スパースで空間的に変化するカーネルを明示的に学習します。 CNNアーキテクチャと、変形可能なカーネルネットワーク(DKN)と呼ばれる効率的な実装を提案します。これは、近傍のセットと各ピクセルに対応する重みを適応的に出力します。次に、フィルタリング結果が加重平均として計算されます。また、サイズ640 x 480の画像に対して約17倍速く実行されるDKNの高速バージョンを提案します。深度マップアップサンプリング、顕著性マップアップサンプリング、クロスモダリティ画像復元のタスクにおけるモデルの有効性と柔軟性を示します。テクスチャの削除、セマンティックセグメンテーション。特に、まばらにサンプリングされた3 x 3カーネルを使用した加重平均化プロセスは、すべての場合において、最新のパフォーマンスよりも大幅に優れていることを示しています。
Joint image filters are used to transfer structural details from a guidance picture used as a prior to a target image, in tasks such as enhancing spatial resolution and suppressing noise. Previous methods based on convolutional neural networks (CNNs) combine nonlinear activations of spatially-invariant kernels to estimate structural details and regress the filtering result. In this paper, we instead learn explicitly sparse and spatially-variant kernels. We propose a CNN architecture and its efficient implementation, called the deformable kernel network (DKN), that outputs sets of neighbors and the corresponding weights adaptively for each pixel. The filtering result is then computed as a weighted average. We also propose a fast version of DKN that runs about seventeen times faster for an image of size 640 x 480. We demonstrate the effectiveness and flexibility of our models on the tasks of depth map upsampling, saliency map upsampling, cross-modality image restoration, texture removal, and semantic segmentation. In particular, we show that the weighted averaging process with sparsely sampled 3 x 3 kernels outperforms the state of the art by a significant margin in all cases.