人間の注意に関する知識を、コンピューター ビジョン モデルの顕著性ベースの説明可能な AI (XAI) メソッドに埋め込むことで、その妥当性と忠実性を高めることができるかどうかを調べました。最初に、画像分類モデルの現在の方法を拡張することにより、オブジェクト固有の説明を生成するために、オブジェクト検出モデル用の新しい勾配ベースの XAI メソッドを開発しました。興味深いことに、これらの勾配ベースの方法は画像分類モデルの説明にはうまく機能しましたが、オブジェクト検出モデルの説明に使用した場合、結果として得られる顕著性マップは、同じタスクを実行した場合の人間の注意マップよりも一般的に忠実度が低くなりました。次に、Human Attention-Guided XAI (HAG-XAI) を開発し、モデルからの説明情報を最適に組み合わせて説明の妥当性を高める方法を人間の注意から学習し、トレーニング可能なアクティベーション関数とスムージング カーネルを使用して、XAI 顕著性マップと人間の注意マップとの類似性を最大化しました。画像分類モデルの場合、HAG-XAI は忠実度を犠牲にして説明の妥当性を高めましたが、オブジェクト検出モデルの場合、妥当性と忠実度を同時に高め、既存の方法よりも優れていました。学習された関数はモデル固有であり、他のデータベースに十分に一般化できます。
We examined whether embedding human attention knowledge into saliency-based explainable AI (XAI) methods for computer vision models could enhance their plausibility and faithfulness. We first developed new gradient-based XAI methods for object detection models to generate object-specific explanations by extending the current methods for image classification models. Interestingly, while these gradient-based methods worked well for explaining image classification models, when being used for explaining object detection models, the resulting saliency maps generally had lower faithfulness than human attention maps when performing the same task. We then developed Human Attention-Guided XAI (HAG-XAI) to learn from human attention how to best combine explanatory information from the models to enhance explanation plausibility by using trainable activation functions and smoothing kernels to maximize XAI saliency map's similarity to human attention maps. While for image classification models, HAG-XAI enhanced explanation plausibility at the expense of faithfulness, for object detection models it enhanced plausibility and faithfulness simultaneously and outperformed existing methods. The learned functions were model-specific, well generalizable to other databases.