最も識別可能な領域の認識に関する研究は、画像レベルの注釈のみで、弱く監視されたオブジェクトのローカリゼーションの参照情報を提供します。ただし、最も識別性の高い領域は通常、オブジェクトの他の部分を隠すため、オブジェクトの認識とローカリゼーション全体が妨げられます。この問題に取り組むために、オブジェクトのローカリゼーションのパフォーマンスを向上させるために、デュアルアテンションフォーカスモジュール(DFM)が提案されています。具体的には、位置分岐とチャネル1で構成される、情報融合のためのデュアルアテンションモジュールを提示します。各ブランチでは、入力フィーチャマップがエンハンスメントマップとマスクマップに推定されるため、最も識別性の高い部分が強調表示または非表示になります。位置マスクマップについては、オブジェクトのピクセルが連続しているという原理を利用して、それを強化するためにフォーカスされたマトリックスを導入します。これらの2つのブランチ間では、失われた情報を部分的に補正し、機能を多様化することを目的として、拡張マップがマスクマップと統合されます。デュアルアテンションモジュールとフォーカスマトリックスを使用すると、暗黙的な情報を使用してオブジェクト領域全体を正確に認識できます。実験でDFMの結果を上回る結果を示しています。特に、DFMは、ILSVRC 2016およびCUB-200-2011でローカライズ精度の最先端のパフォーマンスを達成します。
The research on recognizing the most discriminative regions provides referential information for weakly supervised object localization with only image-level annotations. However, the most discriminative regions usually conceal the other parts of the object, thereby impeding entire object recognition and localization. To tackle this problem, the Dual-attention Focused Module (DFM) is proposed to enhance object localization performance. Specifically, we present a dual attention module for information fusion, consisting of a position branch and a channel one. In each branch, the input feature map is deduced into an enhancement map and a mask map, thereby highlighting the most discriminative parts or hiding them. For the position mask map, we introduce a focused matrix to enhance it, which utilizes the principle that the pixels of an object are continuous. Between these two branches, the enhancement map is integrated with the mask map, aiming at partially compensating the lost information and diversifies the features. With the dual-attention module and focused matrix, the entire object region could be precisely recognized with implicit information. We demonstrate outperforming results of DFM in experiments. In particular, DFM achieves state-of-the-art performance in localization accuracy in ILSVRC 2016 and CUB-200-2011.