畳み込みネットワーク (CNN)、グローバル アテンション ネットワーク、ローカル アテンション ネットワークなど、さまざまな種類の視覚認識バックボーンを比較するために、データセット全体に深い説明アルゴリズムを体系的に適用する方法論を提案します。データセット全体の定性的視覚化と定量的統計の両方を調べることで、単なる逸話ではなく、データセット全体で計算された統計によって裏付けられた直感を得ることができます。具体的には、2 つの方法を提案します。最初のサブ説明カウントは、すべての画像の最小限の十分な説明を体系的に検索し、各ネットワークのサブ説明の量をカウントします。クロス テストと呼ばれる 2 つ目の方法では、1 つのネットワークを使用して顕著な領域を計算し、これらの領域を画像として他のネットワークに表示するだけでパフォーマンスを評価します。定性的洞察と定量的統計を組み合わせることで、1) CNN とアテンション モデルの顕著な特徴の間には大きな違いがあることを示します。 2) ローカル アテンション モデルとグローバル アテンション モデルのオクルージョン ロバスト性は、異なる意思決定メカニズムに由来する可能性があります。
We propose a methodology that systematically applies deep explanation algorithms on a dataset-wide basis, to compare different types of visual recognition backbones, such as convolutional networks (CNNs), global attention networks, and local attention networks. Examination of both qualitative visualizations and quantitative statistics across the dataset helps us to gain intuitions that are not just anecdotal, but are supported by the statistics computed on the entire dataset. Specifically, we propose two methods. The first one, sub-explanation counting, systematically searches for minimally-sufficient explanations of all images and count the amount of sub-explanations for each network. The second one, called cross-testing, computes salient regions using one network and then evaluates the performance by only showing these regions as an image to other networks. Through a combination of qualitative insights and quantitative statistics, we illustrate that 1) there are significant differences between the salient features of CNNs and attention models; 2) the occlusion-robustness in local attention models and global attention models may come from different decision-making mechanisms.