機械学習アルゴリズムは、医療診断や自動運転など、影響が大きくリスクが高いタスクにますます適用されるため、研究者がそのようなアルゴリズムがどのように予測に到達したかを説明できることが重要です。近年、非常に複雑なニューラルネットワークが予測の証拠を求めて画像内のどこを「見る」かを要約するために、多くの画像顕著性手法が開発されました。ただし、これらの手法は、ヒューリスティックな性質とアーキテクチャ上の制約によって制限されます。この論文では、2つの主要な貢献をします。最初に、ブラックボックスアルゴリズムのさまざまな種類の説明を学習するための一般的なフレームワークを提案します。次に、フレームワークを特殊化して、分類子の決定に最も責任のある画像の部分を見つけます。以前の作品とは異なり、私たちの方法は、明示的で解釈可能な画像の摂動に基づいているため、モデルにとらわれず、テスト可能です。
As machine learning algorithms are increasingly applied to high impact yet high risk tasks, such as medical diagnosis or autonomous driving, it is critical that researchers can explain how such algorithms arrived at their predictions. In recent years, a number of image saliency methods have been developed to summarize where highly complex neural networks "look" in an image for evidence for their predictions. However, these techniques are limited by their heuristic nature and architectural constraints. In this paper, we make two main contributions: First, we propose a general framework for learning different kinds of explanations for any black box algorithm. Second, we specialise the framework to find the part of an image most responsible for a classifier decision. Unlike previous works, our method is model-agnostic and testable because it is grounded in explicit and interpretable image perturbations.