対照信号、勾配と活性化を混合した閉形式の式、または摂動マスクに基づく顕著性メソッドのさまざまなファミリはすべて、画像のどの部分がモデルの推論に関与するかに焦点を当てています。この論文では、モデルのトレーニングに寄与する画像の場所にかなり興味があります。最初に、1x1畳み込み層の重みの勾配を計算するために使用される合計式から抽出する原理的な属性法を提案します。結果の式は計算が速く、ネットワーク全体で使用できるため、きめ細かな重要度マップを効率的に作成できます。ネットワーク内のターゲットポイントで顕著性マップを計算するために拡張する方法を示します。第二に、属性をモデルのトレーニングに本当に固有のものにするために、損失内の内部最適化ステップを考慮することにより、顕著性メソッドのメタ学習アプローチを導入します。この方法では、モデルの出力に寄与する画像の部分を特定するのではなく、この画像でのモデルの適切なトレーニングに関与する場所を特定することを目指していません。逆に、モデルの劣化につながる可能性のある敵対的な場所を抽出するために、同様のメタ学習アプローチを使用できることも示しています。
The different families of saliency methods, either based on contrastive signals, closed-form formulas mixing gradients with activations or on perturbation masks, all focus on which parts of an image are responsible for the model's inference. In this paper, we are rather interested by the locations of an image that contribute to the model's training. First, we propose a principled attribution method that we extract from the summation formula used to compute the gradient of the weights for a 1x1 convolutional layer. The resulting formula is fast to compute and can used throughout the network, allowing us to efficiently produce fined-grained importance maps. We will show how to extend it in order to compute saliency maps at any targeted point within the network. Secondly, to make the attribution really specific to the training of the model, we introduce a meta-learning approach for saliency methods by considering an inner optimisation step within the loss. This way, we do not aim at identifying the parts of an image that contribute to the model's output but rather the locations that are responsible for the good training of the model on this image. Conversely, we also show that a similar meta-learning approach can be used to extract the adversarial locations which can lead to the degradation of the model.