arXiv reaDer
F-CAM:ガイド付きパラメトリックアップスケーリングによるフル解像度CAM
F-CAM: Full Resolution CAM via Guided Parametric Upscaling
クラスアクティベーションマッピング(CAM)メソッドは、弱教師ありオブジェクトローカリゼーション(WSOL)タスクで最近大きな注目を集めており、完全に注釈が付けられた画像データセットのトレーニングなしでCNNの視覚化と解釈が可能です。 CAMメソッドは通常、ResNet50などの既製のCNNバックボーンに統合されています。畳み込みおよびダウンサンプリング/プーリング操作により、これらのバックボーンは最大32のダウンスケーリング係数を持つ低解像度CAMを生成し、正確なローカリゼーションをより困難にします。フルサイズのCAMを復元するには補間が必要ですが、オブジェクトの統計的プロパティを考慮しないため、境界が一貫せず、ローカリゼーションが不正確になります。別の方法として、正確なフル解像度CAM(F-CAM)の構築を可能にするCAMのパラメトリックアップスケーリングの一般的な方法を紹介します。特に、より正確なCAMを生成するために、任意のCNN分類器に接続できるトレーニング可能なデコードアーキテクチャを提案します。元の(低解像度)CAMが与えられると、デコーダーを微調整するために前景と背景のピクセルがランダムにサンプリングされます。画像統計やサイズ制約などの追加の事前確率も、オブジェクトの境界を拡張および調整するために考慮されます。 CUB-200-2011およびOpenImagesデータセットで3つのCNNバックボーンと6つのWSOLベースラインを使用した広範な実験は、F-CAMメソッドがCAMローカリゼーションの精度を大幅に向上させることを示しています。 F-CAMのパフォーマンスは、最先端のWSOLメソッドと競合しますが、推論中に必要な計算リソースは少なくて済みます。
Class Activation Mapping (CAM) methods have recently gained much attention for weakly-supervised object localization (WSOL) tasks, allowing for CNN visualization and interpretation without training on fully annotated image datasets. CAM methods are typically integrated within off-the-shelf CNN backbones, such as ResNet50. Due to convolution and downsampling/pooling operations, these backbones yield low resolution CAMs with a down-scaling factor of up to 32, making accurate localization more difficult. Interpolation is required to restore a full size CAMs, but without considering the statistical properties of the objects, leading to activations with inconsistent boundaries and inaccurate localizations. As an alternative, we introduce a generic method for parametric upscaling of CAMs that allows constructing accurate full resolution CAMs (F-CAMs). In particular, we propose a trainable decoding architecture that can be connected to any CNN classifier to produce more accurate CAMs. Given an original (low resolution) CAM, foreground and background pixels are randomly sampled for fine-tuning the decoder. Additional priors such as image statistics, and size constraints are also considered to expand and refine object boundaries. Extensive experiments using three CNN backbones and six WSOL baselines on the CUB-200-2011 and OpenImages datasets, indicate that our F-CAM method yields a significant improvement in CAM localization accuracy. F-CAM performance is competitive with state-of-art WSOL methods, yet it requires fewer computational resources during inference.
updated: Wed Sep 15 2021 04:45:20 GMT+0000 (UTC)
published: Wed Sep 15 2021 04:45:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト