機械学習法が医療画像診断などのハイステークアプリケーションでの採用と実装の拡大を目の当たりにするにつれて、モデルの解釈可能性と説明の必要性がより重要になっています。特徴の重要性を評価する古典的なアプローチ(顕著性マップなど)では、画像の特定の領域が予測に関連する方法と理由を説明していません。特定のクラスのセマンティック効果を徐々に誇張することにより、分類ブラックボックスの結果を説明する方法を提案します。分類器へのクエリ入力が与えられると、このメソッドは、そのクエリのもっともらしいバリエーションのプログレッシブセットを生成します。これにより、事後確率が元のクラスから否定に徐々に変化します。これらの反事実的に生成されたサンプルは、分類決定に関係のない特徴を保持するため、ユーザーは「チューニングノブ」としてメソッドを使用して、決定境界を横断しながらデータマニホールドを走査できます。我々の方法は、モデルにとらわれないでのみ、その入力に対する出力値と予測の勾配を必要とします。
As machine learning methods see greater adoption and implementation in high stakes applications such as medical image diagnosis, the need for model interpretability and explanation has become more critical. Classical approaches that assess feature importance (e.g. saliency maps) do not explain how and why a particular region of an image is relevant to the prediction. We propose a method that explains the outcome of a classification black-box by gradually exaggerating the semantic effect of a given class. Given a query input to a classifier, our method produces a progressive set of plausible variations of that query, which gradually changes the posterior probability from its original class to its negation. These counter-factually generated samples preserve features unrelated to the classification decision, such that a user can employ our method as a "tuning knob" to traverse a data manifold while crossing the decision boundary. Our method is model agnostic and only requires the output value and gradient of the predictor with respect to its input.