ガイド付きズームを提案します。これは、より多くの情報に基づいた予測を行うために、モデルの決定の空間的グラウンディングを利用するアプローチです。これは、モデルが予測の「正しい理由」を持っていることを確認することによって行われます。これは、トレーニング時に同様の正しい決定を行うために使用される理由と一貫した理由として定義されます。深い畳み込みニューラルネットワークが予測を行う理由/証拠は、モデル出力の特定のクラス条件付き確率のピクセル空間での空間グラウンディングと定義されます。ガイド付きズームは、トップ1の予測のみを信頼するのではなく、トップkの予測クラスのそれぞれに対して、そのような証拠がどれほど妥当かを調べます。ガイド付きズームにより、深い畳み込みニューラルネットワークモデルの分類精度が向上し、3つの詳細な分類ベンチマークデータセットで最新の結果が得られることがわかります。
We propose Guided Zoom, an approach that utilizes spatial grounding of a model's decision to make more informed predictions. It does so by making sure the model has "the right reasons" for a prediction, defined as reasons that are coherent with those used to make similar correct decisions at training time. The reason/evidence upon which a deep convolutional neural network makes a prediction is defined to be the spatial grounding, in the pixel space, for a specific class conditional probability in the model output. Guided Zoom examines how reasonable such evidence is for each of the top-k predicted classes, rather than solely trusting the top-1 prediction. We show that Guided Zoom improves the classification accuracy of a deep convolutional neural network model and obtains state-of-the-art results on three fine-grained classification benchmark datasets.