arXiv reaDer
TSGB:CNNの視覚的顕著性を調査するためのターゲット選択的勾配バックプロパゲーション
TSGB: Target-Selective Gradient Backprop for Probing CNN Visual Saliency
ディープニューラルネットワークの説明は、過去数年にわたってディープラーニングコミュニティで大きな注目を集めています。この作業では、畳み込みニューラルネットワークを解釈するために、視覚的顕著性、別名視覚的説明を研究します。反復ベースの顕著性手法と比較して、単一の後方パスベースの顕著性手法は、より高速な利点があり、下流の視覚的タスクで広く使用されています。したがって、単一のバックワードパスベースのメソッドに焦点を当てます。ただし、このカテゴリの既存のメソッドは、特定のターゲットクラスに集中するきめの細かい顕著性マップを正常に作成するのに苦労しています。とは言うものの、単一の後方パスを使用してターゲット選択性と細粒度の両方を満たす忠実な顕著性マップを作成することは、この分野では困難な問題です。この問題を軽減するために、ネットワーク内の勾配フローを再検討し、絡み合ったセマンティクスと元の重みがターゲット関連の顕著性の伝播を妨げる可能性があることを発見しました。これらの観察に触発されて、ターゲット選択的勾配バックプロパゲーション(TSGB)と呼ばれる新しい視覚的顕著性手法を提案します。これは、修正操作を活用してターゲットクラスを効果的に強調し、顕著性を画像空間にさらに効率的に伝播して、ターゲット選択的で微細なものを生成します。 -きめの細かい顕著性マップ。提案されたTSGBは、TSGB-ConvとTSGB-FCの2つのコンポーネントで構成されており、それぞれ畳み込み層と完全接続層の勾配を修正します。 ImageNetおよびPascalVOCデータセットでの広範な定性的および定量的実験は、提案された方法が他の競合する方法よりも正確で信頼できる結果を達成することを示しています。コードはhttps://github.com/123fxdx/CNNvisualizationTSGBで入手できます。
The explanation for deep neural networks has drawn extensive attention in the deep learning community over the past few years. In this work, we study the visual saliency, a.k.a. visual explanation, to interpret convolutional neural networks. Compared to iteration based saliency methods, single backward pass based saliency methods benefit from faster speed, and they are widely used in downstream visual tasks. Thus, we focus on single backward pass based methods. However, existing methods in this category struggle to uccessfully produce fine-grained saliency maps concentrating on specific target classes. That said, producing faithful saliency maps satisfying both target-selectiveness and fine-grainedness using a single backward pass is a challenging problem in the field. To mitigate this problem, we revisit the gradient flow inside the network, and find that the entangled semantics and original weights may disturb the propagation of target-relevant saliency. Inspired by those observations, we propose a novel visual saliency method, termed Target-Selective Gradient Backprop (TSGB), which leverages rectification operations to effectively emphasize target classes and further efficiently propagate the saliency to the image space, thereby generating target-selective and fine-grained saliency maps. The proposed TSGB consists of two components, namely, TSGB-Conv and TSGB-FC, which rectify the gradients for convolutional layers and fully-connected layers, respectively. Extensive qualitative and quantitative experiments on the ImageNet and Pascal VOC datasets show that the proposed method achieves more accurate and reliable results than the other competitive methods. Code is available at https://github.com/123fxdx/CNNvisualizationTSGB.
updated: Sun Mar 06 2022 13:57:02 GMT+0000 (UTC)
published: Mon Oct 11 2021 12:00:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト