arXiv reaDer
Information Bottleneck Approach to Spatial Attention Learning
人間の視覚系(HVS)の選択的視覚注意メカニズムは、自然のシーンを知覚するための視覚認識に到達するための情報量を制限し、限られた計算能力でほぼリアルタイムの情報処理を可能にします[Koch and Ullman、1987]。この種の選択性は「情報ボトルネック(IB)」として機能し、情報の圧縮と予測精度の間のトレードオフを求めます。ただし、このような情報の制約は、ディープニューラルネットワーク(DNN)の注意メカニズムではめったに調査されません。この論文では、視覚認識のために構築されたDNN構造のためのIBに触発された空間的注意モジュールを提案します。モジュールは、入力画像の中間表現を入力として受け取り、注意変調表現と入力の間の相互情報量(MI)を最小化し、注意変調表現との間のMIを最大化する変分2D注意マップを出力します。タスクラベル。注意マップによってバイパスされる情報をさらに制限するために、トレーニング中に継続的な注意スコアを学習可能なアンカー値のセットに量子化します。広範な実験は、提案されたIBに触発された空間的注意メカニズムが、背景を抑制しながら関心領域をきちんと強調する注意マップを生成し、視覚認識タスク(たとえば、画像分類、きめ細かい認識、クロスドメイン)のための標準DNN構造をブートストラップできることを示しています分類)。注意マップは、実験で検証されたDNNの意思決定のために解釈可能です。私たちのコードはで入手できます。
The selective visual attention mechanism in the human visual system (HVS) restricts the amount of information to reach visual awareness for perceiving natural scenes, allowing near real-time information processing with limited computational capacity [Koch and Ullman, 1987]. This kind of selectivity acts as an 'Information Bottleneck (IB)', which seeks a trade-off between information compression and predictive accuracy. However, such information constraints are rarely explored in the attention mechanism for deep neural networks (DNNs). In this paper, we propose an IB-inspired spatial attention module for DNN structures built for visual recognition. The module takes as input an intermediate representation of the input image, and outputs a variational 2D attention map that minimizes the mutual information (MI) between the attention-modulated representation and the input, while maximizing the MI between the attention-modulated representation and the task label. To further restrict the information bypassed by the attention map, we quantize the continuous attention scores to a set of learnable anchor values during training. Extensive experiments show that the proposed IB-inspired spatial attention mechanism can yield attention maps that neatly highlight the regions of interest while suppressing backgrounds, and bootstrap standard DNN structures for visual recognition tasks (e.g., image classification, fine-grained recognition, cross-domain classification). The attention maps are interpretable for the decision making of the DNNs as verified in the experiments. Our code is available at
updated: Sat Aug 07 2021 10:35:32 GMT+0000 (UTC)
published: Sat Aug 07 2021 10:35:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト