クラスアクティベーションマッピング(CAM)メソッドは、最近、弱教師ありオブジェクトローカリゼーション(WSOL)タスクで大きな注目を集めています。これらは、完全に注釈が付けられた画像データセットのトレーニングなしで、CNNの視覚化と解釈を可能にします。 CAMメソッドは通常、ResNet50などの既製のCNNバックボーンに統合されています。畳み込みおよびプーリング操作により、これらのバックボーンは最大32のダウンスケーリング係数を持つ低解像度CAMを生成し、不正確なローカリゼーションに寄与します。フルサイズのCAMを復元するには補間が必要ですが、色やテクスチャなどのオブジェクトの統計的プロパティは考慮されないため、境界が一貫せず、ローカリゼーションが不正確になります。別の方法として、正確なフル解像度CAM(F-CAM)の構築を可能にするCAMのパラメトリックアップスケーリングの一般的な方法を紹介します。特に、任意のCNN分類器に接続して高精度のCAMローカリゼーションを生成できるトレーニング可能なデコードアーキテクチャを提案します。元の低解像度CAMが与えられると、前景と背景のピクセルがランダムにサンプリングされ、デコーダーが微調整されます。画像統計やサイズ制約などの追加の事前設定も、オブジェクトの境界を拡張および調整するために考慮されます。 CUB-200-2011およびOpenImagesデータセットでの3つのCNNバックボーンと6つのWSOLベースラインにわたる広範な実験は、F-CAMメソッドがCAMローカリゼーションの精度を大幅に向上させることを示しています。 F-CAMのパフォーマンスは、最先端のWSOLメソッドと競合しますが、推論中に必要な計算は少なくなります。
Class Activation Mapping (CAM) methods have recently gained much attention for weakly-supervised object localization (WSOL) tasks. They allow for CNN visualization and interpretation without training on fully annotated image datasets. CAM methods are typically integrated within off-the-shelf CNN backbones, such as ResNet50. Due to convolution and pooling operations, these backbones yield low resolution CAMs with a down-scaling factor of up to 32, contributing to inaccurate localizations. Interpolation is required to restore full size CAMs, yet it does not consider the statistical properties of objects, such as color and texture, leading to activations with inconsistent boundaries, and inaccurate localizations. As an alternative, we introduce a generic method for parametric upscaling of CAMs that allows constructing accurate full resolution CAMs (F-CAMs). In particular, we propose a trainable decoding architecture that can be connected to any CNN classifier to produce highly accurate CAM localizations. Given an original low resolution CAM, foreground and background pixels are randomly sampled to fine-tune the decoder. Additional priors such as image statistics and size constraints are also considered to expand and refine object boundaries. Extensive experiments, over three CNN backbones and six WSOL baselines on the CUB-200-2011 and OpenImages datasets, indicate that our F-CAM method yields a significant improvement in CAM localization accuracy. F-CAM performance is competitive with state-of-art WSOL methods, yet it requires fewer computations during inference.