畳み込みニューラルネットワーク(CNN)は広く普及しているだけでなく、画像の分類、復元、生成など、さまざまなアプリケーションで顕著な結果を達成しています。畳み込みの重み共有特性により、畳み込みはさまざまなタスクで広く採用されていますが、その内容にとらわれない特性も大きな欠点と見なすことができます。この問題を解決するために、本論文では、ピクセル適応カーネル注意(PAKA)と呼ばれる新しい操作を提案します。 PAKAは、学習可能な特徴から空間的に変化する注意を乗算することにより、フィルターの重みに指向性を提供します。提案された方法は、より少ないパラメータで分解されたモデルに対処するために、チャネルおよび空間方向に沿ったピクセル適応注意マップを別々に推測します。私たちの方法は、エンドツーエンドの方法でトレーニング可能であり、CNNベースのモデルに適用できます。さらに、階層型PAKAモジュール(HPM)と呼ばれる、PAKAを使用した改良された情報集約モジュールを提案します。従来の情報集約モジュールと比較して、セマンティックセグメンテーションに関する最先端のパフォーマンスを提示することにより、HPMの優位性を示します。追加のアブレーション研究と畳み込みの重みに指向性を提供するPAKAの効果を視覚化することにより、提案された方法を検証します。また、マルチモーダルタスク、特にカラーガイド深度マップの超解像に適用することにより、提案された方法の一般化可能性を示します。
Convolutional neural networks (CNNs) have been not only widespread but also achieved noticeable results on numerous applications including image classification, restoration, and generation. Although the weight-sharing property of convolutions makes them widely adopted in various tasks, its content-agnostic characteristic can also be considered a major drawback. To solve this problem, in this paper, we propose a novel operation, called pixel adaptive kernel attention (PAKA). PAKA provides directivity to the filter weights by multiplying spatially varying attention from learnable features. The proposed method infers pixel-adaptive attention maps along the channel and spatial directions separately to address the decomposed model with fewer parameters. Our method is trainable in an end-to-end manner and applicable to any CNN-based models. In addition, we propose an improved information aggregation module with PAKA, called the hierarchical PAKA module (HPM). We demonstrate the superiority of our HPM by presenting state-of-the-art performance on semantic segmentation compared to the conventional information aggregation modules. We validate the proposed method through additional ablation studies and visualizing the effect of PAKA providing directivity to the weights of convolutions. We also show the generalizability of the proposed method by applying it to multi-modal tasks especially color-guided depth map super-resolution.