arXiv reaDer
弱く監視されたオブジェクトのローカリゼーションのための浅い機能の問題
Shallow Feature Matters for Weakly Supervised Object Localization
弱教師ありオブジェクトローカリゼーション(WSOL)は、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としています。クラスアクティベーションマップ(CAM)は、WSOLを実現するために一般的に使用される機能です。ただし、以前のCAMベースの方法は、WSOLにとって重要であるにもかかわらず、浅い機能を十分に活用していませんでした。浅い特徴は、従来の融合によってバックグラウンドノイズに簡単に埋もれてしまうからです。この論文では、浅い層に埋め込まれた低レベルの特徴を最大限に活用する、正確なWSOLのためのシンプルで効果的な浅い特徴を意識した疑似教師ありオブジェクトローカリゼーション(SPOL)モデルを提案します。実際には、SPOLモデルは最初に、浅い特徴マップと深い特徴マップの新しい要素ごとの乗算によってCAMを生成します。これにより、バックグラウンドノイズがフィルタリングされ、よりシャープな境界が確実に生成されます。さらに、追加の注釈なしで最初のCAMのみを疑似ラベルとして使用することにより、正確なオブジェクトマスクを実現するための一般的なクラスに依存しないセグメンテーションモデルをさらに提案します。最終的に、バウンディングボックスエクストラクタがオブジェクトマスクに適用され、ターゲットが特定されます。実験により、SPOLがCUB-200とImageNet-1Kの両方のベンチマークで最先端を上回り、それぞれ93.44%と67.15%(つまり、3.93%と2.13%の改善)のトップ5ローカリゼーション精度を達成していることが確認されています。
Weakly supervised object localization (WSOL) aims to localize objects by only utilizing image-level labels. Class activation maps (CAMs) are the commonly used features to achieve WSOL. However, previous CAM-based methods did not take full advantage of the shallow features, despite their importance for WSOL. Because shallow features are easily buried in background noise through conventional fusion. In this paper, we propose a simple but effective Shallow feature-aware Pseudo supervised Object Localization (SPOL) model for accurate WSOL, which makes the utmost of low-level features embedded in shallow layers. In practice, our SPOL model first generates the CAMs through a novel element-wise multiplication of shallow and deep feature maps, which filters the background noise and generates sharper boundaries robustly. Besides, we further propose a general class-agnostic segmentation model to achieve the accurate object mask, by only using the initial CAMs as the pseudo label without any extra annotation. Eventually, a bounding box extractor is applied to the object mask to locate the target. Experiments verify that our SPOL outperforms the state-of-the-art on both CUB-200 and ImageNet-1K benchmarks, achieving 93.44% and 67.15% (i.e., 3.93% and 2.13% improvement) Top-5 localization accuracy, respectively.
updated: Mon Aug 02 2021 13:16:48 GMT+0000 (UTC)
published: Mon Aug 02 2021 13:16:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト